Eine neue Ära der Agenten-Interoperabilität
KI-Agenten bieten eine einzigartige Gelegenheit, Menschen dabei zu helfen, produktiver zu sein, indem sie viele täglich wiederkehrende oder komplexe Aufgaben autonom erledigen. Heute bauen und implementieren Unternehmen zunehmend autonome Agenten, um Prozesse am Arbeitsplatz zu skalieren, zu automatisieren und zu verbessern – von der Bestellung neuer Laptops über die Unterstützung von Kundendienstmitarbeitern bis hin zur Unterstützung bei der Planung der Lieferkette.
Um die Vorteile einer agentischen KI zu maximieren, ist es entscheidend, dass diese Agenten in einem dynamischen Multi-Agenten-Ökosystem über isolierte Datensysteme und Anwendungen hinweg zusammenarbeiten können. Die Ermöglichung der Interoperabilität von Agenten, auch wenn sie von verschiedenen Anbietern oder in unterschiedlichen Frameworks erstellt wurden, erhöht die Autonomie und vervielfacht die Produktivitätsgewinne bei gleichzeitiger Senkung der langfristigen Kosten.
Heute stellen wir ein neues, offenes Protokoll namens Agent2Agent (A2A) vor, mit Unterstützung und Beiträgen von mehr als 50 Technologiepartnern.
Das A2A-Protokoll ermöglicht KI-Agenten, miteinander zu kommunizieren, Informationen sicher auszutauschen und Aktionen auf verschiedenen Unternehmensplattformen oder -anwendungen zu koordinieren. Wir glauben, dass das A2A-Framework für Kunden einen erheblichen Mehrwert bieten wird, da ihre KI-Agenten jetzt über ihre gesamte Unternehmensanwendungslandschaft hinweg arbeiten können.
A2A konzentriert sich darauf, Agenten die Zusammenarbeit in ihren natürlichen, unstrukturierten Modalitäten zu ermöglichen, auch wenn sie keine Speicher, Werkzeuge und Kontexte teilen. Wir ermöglichen echte Multi-Agenten-Szenarien, ohne einen Agenten auf ein "Werkzeug" zu beschränken.
Das Protokoll basiert auf bestehenden, beliebten Standards wie HTTP, SSE, JSON-RPC, was bedeutet, dass es einfacher ist, es in bestehende IT-Stacks zu integrieren, die Unternehmen bereits täglich nutzen.
A2A ist so konzipiert, dass es Unternehmens-Authentifizierung und -Autorisierung unterstützt, mit Parität zu OpenAPIs Authentifizierungsschemata beim Start.
Wir haben A2A flexibel gestaltet und unterstützen Szenarien, in denen es bei der Erledigung von schnellen Aufgaben bis hin zu umfassenden Recherchen brilliert, die Stunden oder sogar Tage dauern können, wenn Menschen beteiligt sind. Während dieses Prozesses kann A2A seinen Benutzern Echtzeit-Feedback, Benachrichtigungen und Statusaktualisierungen bieten.
Die agentische Welt beschränkt sich nicht nur auf Text, weshalb wir A2A so konzipiert haben, dass es verschiedene Modalitäten unterstützt, einschließlich Audio- und Video-Streaming.
A2A erleichtert die Kommunikation zwischen einem "Client"-Agenten und einem "entfernten" Agenten. Ein Client-Agent ist dafür verantwortlich, Aufgaben zu formulieren und zu kommunizieren, während der entfernte Agent dafür verantwortlich ist, auf diese Aufgaben zu reagieren, um zu versuchen, die richtigen Informationen zu liefern oder die richtige Aktion durchzuführen. Diese Interaktion umfasst mehrere Schlüsselfähigkeiten:
Agenten können ihre Fähigkeiten mithilfe einer "Agent Card" im JSON-Format bekannt machen, sodass der Client-Agent den besten Agenten identifizieren kann, der eine Aufgabe ausführen kann, und A2A nutzen kann, um mit dem Remote-Agenten zu kommunizieren.
Die Kommunikation zwischen einem Client- und einem Remote-Agenten ist auf den Abschluss von Aufgaben ausgerichtet, bei dem Agenten daran arbeiten, Anfragen von Endbenutzern zu erfüllen. Dieses "Aufgaben"-Objekt wird durch das Protokoll definiert und hat einen Lebenszyklus. Es kann sofort abgeschlossen werden oder, für lang laufende Aufgaben, kann jeder der Agenten kommunizieren, um miteinander synchronisiert zu bleiben über den neuesten Status der Fertigstellung einer Aufgabe. Das Ergebnis einer Aufgabe wird als "Artefakt" bezeichnet.
Agenten können sich gegenseitig Nachrichten senden, um Kontext, Antworten, Artefakte oder Benutzeranweisungen zu kommunizieren.
Jede Nachricht enthält "Teile", bei denen es sich um ein vollständig geformtes Inhaltsstück handelt, wie ein generiertes Bild. Jeder Teil hat einen festgelegten Inhaltstyp, der es Client- und Remote-Agenten ermöglicht, das richtige Format zu verhandeln und explizit Verhandlungen über die UI-Fähigkeiten des Benutzers einzubeziehen, z.B. iframes, Video, Webformulare und mehr.
Video-Demonstration
Die Einstellung eines Software-Ingenieurs kann durch die A2A-Zusammenarbeit erheblich vereinfacht werden. In einer einheitlichen Schnittstelle wie Agentspace kann ein Benutzer (z. B. ein Einstellungsmanager) seinen Agenten beauftragen, Kandidaten zu finden, die zu einer Stellenausschreibung, einem Standort und einem Skillset passen. Der Agent interagiert dann mit anderen spezialisierten Agenten, um potenzielle Kandidaten zu finden. Der Benutzer erhält diese Vorschläge und kann dann seinen Agenten anweisen, weitere Interviews zu planen, wodurch der Prozess der Kandidatensuche gestrafft wird. Nach Abschluss des Interviewprozesses kann ein weiterer Agent eingesetzt werden, um Hintergrundprüfungen zu erleichtern. Dies ist nur ein Beispiel dafür, wie KI-Agenten systemübergreifend zusammenarbeiten müssen, um einen qualifizierten Jobkandidaten zu finden.
Wir freuen uns, ein wachsendes und vielfältiges Ökosystem von Partnern zu haben, die aktiv zur Definition des A2A-Protokolls und seiner technischen Spezifikation beitragen. Ihre Erkenntnisse und Expertise sind von unschätzbarem Wert bei der Gestaltung der Zukunft der KI-Interoperabilität.
Um mehr über das A2A-Framework zu erfahren, tauchen Sie in den vollständigen Spezifikationsentwurf ein und erkunden Sie verfügbare Codebeispiele, um die Struktur des Protokolls zu untersuchen und mit seinem Code zu experimentieren.