Bei Aufgaben wie Kundenservice, Beratung, Programmierung, Schreiben, Unterrichten usw. können Sprachagenten den menschlichen Aufwand reduzieren und sind ein potenzieller erster Schritt in Richtung künstlicher allgemeiner Intelligenz (AGI). Jüngste Demonstrationen des Potenzials von Sprachagenten, darunter AutoGPT und BabyAGI, haben bei Forschern, Entwicklern und dem allgemeinen Publikum große Aufmerksamkeit erregt.
Selbst für erfahrene Entwickler oder Forscher sind die meisten dieser Demos oder Repositorys nicht dazu geeignet, neue Agenten anzupassen, zu konfigurieren und bereitzustellen. Diese Einschränkung ergibt sich aus der Tatsache, dass es sich bei diesen Demonstrationen häufig um Proof-of-Concepts handelt, die das Potenzial von Sprachagenten hervorheben, und nicht um umfangreichere Rahmenwerke, die zur schrittweisen Entwicklung und Anpassung von Sprachagenten verwendet werden können.
Darüber hinaus zeigen Studien, dass die meisten dieser Open-Source-Quellen nur einen winzigen Prozentsatz der grundlegenden Sprachagentenfähigkeiten abdecken, wie z. B. Jobzerlegung, Langzeitgedächtnis, Webnavigation, Werkzeugnutzung und Kommunikation mit mehreren Agenten. Darüber hinaus verlassen sich die meisten (wenn nicht alle) derzeit verwendeten Sprachagenten-Frameworks ausschließlich auf eine kurze Aufgabenbeschreibung und vollständig auf die Fähigkeit von LLMs, zu planen und zu handeln. Aufgrund der hohen Zufälligkeit und Konsistenz über verschiedene Läufe hinweg sind Sprachagenten schwierig zu ändern und zu optimieren, und die Benutzererfahrung ist schlecht.
Forscher von AIWaves Inc., der Zhejiang University und der ETH Zürich präsentieren AGENTS, eine Open-Source-Sprachagentenbibliothek und ein Framework zur Unterstützung von LLM-basierten Sprachagenten. Das Ziel von AGENTS besteht darin, die Anpassung, Optimierung und Bereitstellung von Sprachagenten so einfach wie möglich zu gestalten – auch für Nicht-Spezialisten – und gleichzeitig für Programmierer und Forscher leicht erweiterbar zu sein. Die Bibliothek bietet außerdem die unten aufgeführten Kernfunktionen, die sie zu einer flexiblen Plattform für Sprachagenten machen:
Langzeit-Kurzzeitgedächtnis: AGENTEN integrieren die Speicherkomponenten und ermöglichen es Sprachagenten, routinemäßig ein Kurzzeitarbeitsgedächtnis mit einem Notizblock zu aktualisieren und das Langzeitgedächtnis mithilfe von VectorDB und semantischer Suche zu speichern und abzurufen. Benutzer können entscheiden, ob sie einem Agenten Langzeitgedächtnis, Kurzzeitgedächtnis oder beides geben möchten, indem sie einfach ein Feld in der Konfigurationsdatei ausfüllen.
Webnavigation und Nutzung von Tools: Die Fähigkeit autonomer Agenten, externe Tools zu nutzen und im Internet zu surfen, ist ein weiteres entscheidendes Merkmal. AGENTS unterstützt einige weit verbreitete externe APIs und bietet eine abstrakte Klasse, die es Programmierern einfach macht, andere Tools zu integrieren. Indem wir Websuche und Navigation als spezialisierte APIs klassifizieren, ermöglichen wir es Agenten auch, im Internet zu surfen und Informationen zu sammeln.
Interaktion mehrerer Agenten: AGENTS ermöglichen anpassbare Multiagentensysteme und Einzelagentenfunktionen, die für bestimmte Anwendungen wie Spiele, soziale Experimente, Softwareentwicklung usw. nützlich sein können. Die Funktion „dynamische Planung“ in AGENTS ist eine neue Ergänzung für die Kommunikation mit mehreren Agenten. Die dynamische Planung ermöglicht die Einrichtung eines Controller-Agenten, der als „Moderator“ fungiert und anhand seiner Rollen und seines aktuellen Verlaufs auswählt, welcher Agent die nächste Aktion ausführt, anstatt die Reihenfolge der Aktionen der Agenten anhand fest codierter Regeln festzulegen. Durch die dynamische Planung besteht die Möglichkeit einer flexibleren und natürlicheren Kommunikation zwischen mehreren Agenten. Durch die Definition der Controller-Regel in der Konfigurationsdatei im Klartext können Entwickler das Verhalten des Controllers schnell ändern.
Interaktion zwischen Mensch und Agent wird von AGENTS sowohl in Single-Agent- als auch in Multi-Agent-Szenarien unterstützt und ermöglicht die Interaktion und Kommunikation zwischen einem oder mehreren Menschen und Sprachagenten.
Kontrollierbarkeit: Mithilfe eines symbolischen Plans, der oft als Standardarbeitsanweisungen (SOPs) bekannt ist, bieten AGENTS ein revolutionäres Paradigma für die Entwicklung kontrollierbarer Agenten. Eine SOP ist ein Diagramm mit mehreren Zuständen, das die verschiedenen Umstände beschreibt, mit denen ein Agent bei der Ausführung einer Aufgabe konfrontiert sein könnte, sowie die Regeln für den Übergang zwischen den Zuständen. Eine SOP in AGENTS ist eine sorgfältig aufgezeichnete Sammlung detaillierter Anweisungen, die festlegen, wie ein Agent oder eine Gruppe von Agenten eine bestimmte Aktivität oder ein bestimmtes Verfahren ausführen soll. Dies ähnelt SOPs in der realen Welt. Ein LLM kann SOPs erstellen, die der Benutzer ändern kann, während er den Agenten personalisiert und verfeinert. Nach der Bereitstellung funktioniert ein Agent gemäß den für jeden Zustand festgelegten Anweisungen und Standards und ändert seinen aktuellen Zustand dynamisch als Reaktion auf Interaktionen mit der Außenwelt, Personen oder anderen Agenten. Mit der Einführung des symbolischen Plans ist es nun möglich, das Verhalten eines Agenten feingranular zu steuern, seine Stabilität und Vorhersagbarkeit zu verbessern und gleichzeitig die Abstimmung und Agentenoptimierung zu erleichtern.
Das Team hofft, dass AGENTS Forschern das Studium von Sprachagenten, Entwicklern das Erstellen von Anwendungen mithilfe von Sprachagenten und technisch nicht versierten Zielgruppen das Erstellen und Modifizieren einzigartiger Sprachagenten erleichtert.
Besuche die Papier Und Github. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachen unser 30k+ ML SubReddit, Über 40.000 Facebook-Community, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.
Wenn Ihnen unsere Arbeit gefällt, werden Sie unseren Newsletter lieben.
Der Beitrag Dieses KI-Papier stellt Agenten vor: Ein Open-Source-Python-Framework für autonome Sprachagenten erschien zuerst auf MarkTechPost.
Hinterlasse eine Antwort