{"id":35382,"date":"2024-03-22T10:14:15","date_gmt":"2024-03-22T10:14:15","guid":{"rendered":"https:\/\/www.techopedia.com\/de\/?post_type=definition&p=35382"},"modified":"2024-03-22T10:14:15","modified_gmt":"2024-03-22T10:14:15","slug":"stable-diffusion","status":"publish","type":"definition","link":"https:\/\/www.techopedia.com\/de\/definition\/stable-diffusion","title":{"rendered":"Stable Diffusion"},"content":{"rendered":"
Stable Diffusion ist ein quelloffenes generatives KI<\/a>-Modell, das Textaufforderungen verwendet, um neue Bilder zu erzeugen oder bestehende Bilder zu ver\u00e4ndern.<\/p>\n Technisch gesehen handelt es sich bei Stable Diffusion um ein latentes Diffusionsmodell (LDM) f\u00fcr maschinelles Lernen<\/a>. Diese Art von spezialisiertem tiefem Lernen<\/a> verwendet Wahrscheinlichkeitsverteilungen, um Ausgaben zu erzeugen, die den Daten, auf denen das Modell trainiert wurde, statistisch \u00e4hnlich sind.<\/p>\n Neben der Erzeugung neuer Bilder kann Stable Diffusion auch zum \u00dcbermalen oder Ausmalen von Elementen innerhalb eines bestehenden Bildes sowie zur Bild-zu-Bild-\u00dcbersetzung verwendet werden.<\/p>\n Stable Diffusion wurde zun\u00e4chst mit von Menschen beschrifteten Bildern trainiert, die aus dem Internet gescraped wurden. Das Modell lernte, seine Ergebnisse mit Hilfe einer Technik namens “Reinforcement Learning with Human Feedback” (RLHF) zu verbessern.<\/p>\n In der anf\u00e4nglichen Trainingsphase hatte das Grundlagenmodell<\/a> die Aufgabe, die Wahrscheinlichkeitsverteilung latenter Variablen in markierten Trainingsdaten<\/a> zu analysieren. Die latenten Variablen erfassen die zugrunde liegende Struktur und die Details eines Trainingsbildes und erm\u00f6glichen es dem Modell zu lernen, wie wahrscheinlich es ist, dass ein bestimmtes Bild mit der von einem Menschen erstellten Textbeschriftung \u00fcbereinstimmt.<\/p>\n Stabile Diffusion funktioniert durch Anwendung eines Diffusionsfilters auf ein Bild mit zuf\u00e4lligen Pixeln, der die Werte benachbarter Pixel mittelt. Bei jeder Iteration des Deep-Learning-Prozesses entfernt der Filter mehr Rauschen aus dem Bild, bis die verbleibenden Pixel statistisch mit der vorgegebenen Textbeschreibung \u00fcbereinstimmen.<\/p>\n Die neueste Version des Grundlagenmodells, SDXL 1.0, wurde im August 2023 ver\u00f6ffentlicht. Es soll mit 3,5 Milliarden Parametern und Tausenden von Hyperparametern<\/a> trainiert worden sein. Laut der Website von Stability AI funktioniert das Modell deshalb so gut, weil es vor der Ver\u00f6ffentlichung mit \u00fcber 10.000 Betatestern, die durchschnittlich 1,7 Millionen Bilder pro Tag erstellten, in gro\u00dfem Ma\u00dfstab getestet wurde.<\/p>\n Hier ist ein Beispiel f\u00fcr ein Stable Diffusion-Bild, das mit der Textaufforderung “Graues Eichh\u00f6rnchen schnuppert an gelber Blume” erstellt wurde.<\/p>\n\n
Wie funktioniert Stable Diffusion?<\/span><\/h2>\n