In der jüngsten Zeit wurden gro?e Anstrengungen zur Erweiterung von Sprachmodellen zu sogenannten Large Language Models (LLMs) unternommen.
Dabei werden gr??ere Modelle auf umfangreicheren Datens?tzen mit h?herer Rechenleistung trainiert, was im Ergebnis konsistente und erwartete Verbesserungen ihrer Textgenerierungsf?higkeiten mit sich bringt.
Je weiter LLMs wachsen, desto mehr neue F?higkeiten kommen dazu – ein Ph?nomen, das als kontextbezogenes Lernen oder Prompt-basiertes Lernen bekannt ist.
Diese neu entdeckten M?glichkeiten entwickeln sich auf natürliche Weise ohne spezielles Training und erm?glichen es LLMs, Aufgaben wie Rechnen, das Beantworten von Fragen und das Zusammenfassen von Texten auszuführen, die alle durch den Kontakt mit natürlicher Sprache erworben wurden.
Kürzlich hat diese Begeisterung eine neue Dimension angenommen, als Forscher von Google DeepMind LLMs mit ihrer Prompting-Technik, bekannt als Optimization by PROmpting (OPRO), in leistungsstarke Optimierungswerkzeuge verwandelt haben.
Kontext- oder Prompt-basiertes Lernen: emergentes Verhalten von LLMs
Ein emergentes Verhalten bedeutet, dass ein System sein Verhalten bei kleinen Anpassungen drastisch ver?ndern kann, insbesondere wenn es einen bestimmten Schwellenwert erreicht.
Ein Paradebeispiel für emergentes Verhalten ist Wasser. Wenn die Temperatur sinkt, ?ndert sich das Verhalten des Wassers allm?hlich.
Es gibt jedoch einen kritischen Punkt, an dem etwas Bemerkenswertes passiert. Bei dieser bestimmten Temperatur durchl?uft das Wasser eine rasche und signifikante Umwandlung und geht vom flüssigen Zustand in Eis über, ?hnlich dem Umlegen eines Schalters.
Emergentes Verhalten ist nicht auf gewisse Bereiche beschr?nkt, sondern erstreckt sich auf verschiedene Gebiete wie Physik, Biologie, Wirtschaft und Systeme.
Im Zusammenhang mit LLMs bedeutet dies jedoch, dass sie nach einer bestimmten Phase ihres Trainings in einen neuen Modus überzugehen scheinen, in dem sie komplexe Probleme ohne explizites Training effektiv angehen k?nnen.
Dieses bemerkenswerte Verhalten wird in der Regel durch Prompts, d. h. Anweisungen in natürlicher Sprache, die LLMs zur Verfügung gestellt werden, eingeleitet und gesteuert.
Da die Qualit?t der LLM-Antworten eng mit der Qualit?t des Prompts verbunden ist, hat sich die Erstellung effektiver Prompts zu einem zentralen Element des LLM-Einsatzes entwickelt.
So bietet z. B. die Chain-of-Thought-Technik die M?glichkeit, komplexe Probleme in Teilaufgaben zu zerlegen und diese miteinander zur L?sungsfindung zu verknüpfen, so wie es bei mathematischen und logischen Prozessen der Fall ist.
Dieses Verhalten wird dadurch erreicht, dass sowohl die Zwischenschritte des Denkens als auch die endgültige L?sung als Prompt zur Verfügung gestellt werden, um LLMs zur Bew?ltigung dieser Aufgaben anzuleiten.
Damit das LLM logische Aufgaben l?sen kann, wie z. B. ?Ich gehe wandern und muss Wasser einpacken. Wie viele Wasserflaschen soll ich für eine 10-Meilen-Wanderung mitnehmen?“, k?nnte man dem Modell sagen: ?Ein allgemeiner Richtwert ist, dass man etwa 0,5–1 Liter (17–34 oz) Wasser pro Stunde Wanderung trinken sollte. Für eine 10-Meilen-Wanderung ben?tigt man mindestens 1 bis 2 Flaschen, so dass zwei Flaschen mit je 16 oz ausreichend sein sollten.“
Entwicklung von LLMs zu leistungsf?higen Optimierern
In der aktuellen KI-Forschung w?chst das Interesse an der Entwicklung innovativer Techniken, um LLMs effektiv anzuspornen und ihre neu entstehenden F?higkeiten zur L?sung von Problemstellungen zu nutzen.
In diesem Zusammenhang haben die Wissenschaftler von Google DeepMind vor kurzem einen bedeutenden Durchbruch mit einer neuen Prompting-Technik erzielt, die als Optimization by PROmpting (OPRO) bekannt ist.
Sie kann LLMs zur L?sung von Optimierungsproblemen auffordern. Diese aufkommende F?higkeit erweitert den Nutzen der LLMs und macht sie zu wertvollen Probleml?sungstools in verschiedenen Bereichen.
Denken Sie über die M?glichkeiten nach. Ein komplexes technisches Problem kann in einfacher Sprache dargestellt werden, anstatt es formal zu definieren und den Aktualisierungsschritt mit einem programmierten Solver abzuleiten.
Das Sprachmodell kann die Feinheiten erfassen und optimierte L?sungen vorschlagen.
In ?hnlicher Weise kann die Finanzanalyse bei der Portfolio-Optimierung oder dem Risikomanagement helfen.
Die Anwendungen umfassen ein breites Spektrum, vom Lieferkettenmanagement und der Logistik über die wissenschaftliche Forschung bis hin zu kreativen Bereichen wie Kunst und Design.
Wie funktioniert OPRO?
In einem Satz: OPRO nutzt die Leistungsf?higkeit von Sprachmodellen bei der L?sung von Problemen, indem es entsprechende Vorschl?ge generiert und auswertet, w?hrend es gleichzeitig regul?re Sprache versteht und daraus lernt.
Es ist, als h?tte man einen cleveren Assistenten, der immer bessere L?sungen findet, je weiter man geht.
Ein wesentlicher Bestandteil dieses Prozesses ist der Meta-Prompt, der zwei Hauptkomponente umfasst:
? Zun?chst wird das Problem in Worten erkl?rt, einschlie?lich dessen, was erreicht werden soll, und aller Regeln, die befolgt werden müssen. Wenn man zum Beispiel versucht, die Genauigkeit einer Aufgabe zu verbessern, k?nnten die Anweisungen lauten: ?Finde einen neuen Weg, um die Aufgabe sorgf?ltiger zu erledigen.“
? Zweitens wird eine Liste von L?sungen erstellt. Sie zeigt, welche davon das LLM bereits untersucht hat und ob sie gut waren. Diese Liste hilft dem LLM, Muster in den Antworten zu erkennen und auf denjenigen aufzubauen, die vielversprechend erscheinen.
In jedem Schritt des Optimierungsprozesses schl?gt das LLM potenzielle L?sungen für die Optimierungsaufgabe vor. Dabei berücksichtigt es sowohl die Problembeschreibung als auch die L?sungen, die es zuvor gesehen und bewertet hat und die im Meta-Prompt gespeichert sind.
Sobald diese neuen L?sungen generiert sind, werden sie sorgf?ltig daraufhin untersucht, wie geeignet sie für die L?sung des Problems sind. Sie werden dem Meta-Prompt hinzugefügt, wenn sie besser sind als die zuvor bekannten M?glichkeiten.
Dies wird zu einem Zyklus, in dem das LLM seine L?sungen auf der Grundlage seiner Erkenntnisse st?ndig verbessert.
Zum besseren Verst?ndnis des Konzepts wird die Optimierung eines Finanzportfolios als Aufgabe gestellt.
Ein ?Optimizer LLM“ wird mit einem Meta-Prompt versehen, der Investitionsparameter und Beispiele mit Platzhaltern für Optimierungsprompts enth?lt.
Es erzeugt verschiedene Portfolioallokationen. Diese Portfolios werden von einem ?Performance Analyzer LLM“ auf der Grundlage von Renditen, Risiken und anderen Finanzmetriken bewertet.
Die Prompts für die leistungsst?rksten Portfolios und ihre Performance-Metriken werden in den ursprünglichen Meta-Prompt integriert.
Dieser verfeinerte Meta-Prompt wird dann zur Verbesserung des ursprünglichen Portfolios verwendet. Der Vorgang wiederholt sich dann zur Optimierung der Investmentergebnisse.
Fazit
Innovationen wie OPRO sind ein Paradoxon – faszinierend angesichts ihres grenzenlosen Potenzials, den Horizont zu erweitern, und beunruhigend, da sie eine ?ra einl?uten, in der KI autonom komplizierte Prozesse, einschlie?lich der Optimierung, durchführen kann, wodurch die Grenzen zwischen menschlicher Kontrolle und Sch?pfung verschwimmen.
Die F?higkeit, Large Language Models (LLMs) in leistungsstarke Optimierer zu verwandeln, macht OPRO zu einem robusten und vielseitigen Probleml?sungsansatz.
Die M?glichkeiten von OPRO erstrecken sich auf die Bereiche Technik, Finanzen, Lieferkettenmanagement und mehr und bieten effiziente, zukunftsweisende L?sungen.
Es stellt einen bedeutenden Schritt in der Entwicklung der KI dar: LLM k?nnen kontinuierlich lernen und sich verbessern, was neue Wege zur Probleml?sung er?ffnet.