Grundlagen von KI-Agenten

Was genau sind KI-Agenten und wie unterscheiden sie sich von ChatGPT & Co.?

KI-Agenten (künstliche Intelligenz-Agenten) sind digitale Systeme, die so konzipiert sind, dass sie selbstständig Aufgaben ausführen, Entscheidungen treffen und mit Menschen oder anderen Systemen interagieren. Sie nutzen Algorithmen, Daten und maschinelles Lernen, um ihre Ziele zu erreichen. Sie können in vielen Formen auftreten, z. B. als virtuelle Assistenten, Chatbots oder spezialisierte Tools für bestimmte Aufgaben wie Datenanalyse oder Prozessautomatisierung.

Die Unterscheidung zu Modellen wie ChatGPT liegt oft in ihrer Spezialisierung und Funktionalität:

ChatGPT und ähnliche Sprachmodelle:
- ChatGPT basiert auf großen Sprachmodellen, die darauf trainiert sind, menschenähnliche Gespräche zu führen. Es wird hauptsächlich verwendet, um Fragen zu beantworten, Informationen bereitzustellen und Konversationen zu simulieren.
- Diese Modelle sind darauf ausgelegt, generische, vielseitige Aufgaben zu erfüllen, die sprachbasierte Interaktion erfordern.
KI-Agenten:
- KI-Agenten können spezialisierter sein und über die bloße Textgenerierung hinausgehen. Sie können autonom handeln, Aufgaben wie das Steuern von Geräten, das Sammeln von Informationen oder das Treffen von Entscheidungen basierend auf vordefinierten Zielen übernehmen.
- Ein Beispiel wäre ein KI-Agent, der das Internet nach den besten Flugangeboten durchsucht und direkt Buchungen vornimmt.

Man könnte sagen, dass ChatGPT eine Form eines KI-Agenten ist, allerdings mit dem Schwerpunkt auf Sprachverständnis und Kommunikation. Andere KI-Agenten sind oft stärker auf Handlung und Entscheidungsfindung ausgelegt, abhängig von ihrer jeweiligen Programmierung.*

*Dieser Abschnitt wurde mit Unterstützung von Microsoft Copilot erstellt, einem KI-gestützten Tool für Inhalte und Information. 24.03.2025, 17.12 Uhr

Wesentliche Komponenten

Die wesentlichen Komponenten eines KI-Agenten lassen sich in mehrere Hauptbereiche unterteilen. Diese bilden die Grundlage dafür, dass der Agent effektiv funktioniert und intelligent auf Anfragen oder Umgebungen reagiert:

Wahrnehmung: Der KI-Agent sammelt Informationen aus seiner Umgebung. Das kann durch Sensoren, Kameras, Mikrofone oder Daten aus anderen Quellen erfolgen. Für textbasierte KI-Agenten sind das oft sprachliche Eingaben.
Verarbeitung und Lernen: Maschinelles Lernen und Algorithmen sind essenziell, damit KI-Agenten die wahrgenommenen Informationen analysieren und daraus lernen können. Ein Beispiel ist das Training eines Modells zur Mustererkennung in Daten.
Entscheidungsfindung: Mithilfe von Algorithmen und Modellen trifft der Agent Entscheidungen basierend auf seinem Wissen und den Zielen, die ihm vorgegeben sind. Hier kommen oft Optimierungsmethoden oder maschinelles Lernen ins Spiel.
Handlung : Der Agent setzt Entscheidungen in Aktionen um. Bei virtuellen Agenten könnten das z. B. das Generieren von Text oder das Abrufen von Informationen sein. Bei Robotik-Agenten wären es physische Bewegungen.
Ziele und Planung: KI-Agenten arbeiten auf der Basis definierter Ziele. Sie entwickeln Strategien und Pläne, um diese zu erreichen. Dies kann durch Techniken wie automatisierte Planung oder Heuristiken unterstützt werden.
Kommunikation: Der Agent muss in der Lage sein, Informationen klar und verständlich mit Menschen oder anderen Systemen auszutauschen. Dies umfasst Text, Sprache oder visuelle Ausgaben.
Feedback und Anpassung: Ein Agent nutzt Feedback, um sich zu verbessern. Hierbei kommen Techniken wie Reinforcement Learning (Verstärkungslernen) ins Spiel, bei dem der Agent durch Belohnungssysteme lernt.
Ethik und Sicherheit: Moderne KI-Agenten müssen ethische Überlegungen einbeziehen und so gestaltet sein, dass sie sicher und verantwortungsbewusst arbeiten.

*Dieser Abschnitt wurde mit Unterstützung von Claude von Anthropic erstellt, einem KI-gestützten Tool für Inhalte und Information. Am 24.03.2025, 22.10 Uhr

Large Language Models (LLMs)

Das Herzstück moderner KI-Agenten bilden Large Language Models (LLMs). Diese leistungsstarken Modelle, die auf riesigen Textdatensätzen trainiert wurden, ermöglichen es KI-Agenten, menschenähnliche Sprache zu verstehen und zu generieren. Dadurch können sie komplexe Aufgaben ausführen, die ein tiefes Verständnis von Kontext, Nuancen und Absichten erfordern.

Die Fähigkeit von LLMs, natürliche Sprache zu verarbeiten, ist entscheidend für die Interaktion von KI-Agenten mit ihrer Umgebung. Sie können Benutzeranfragen verstehen, Informationen aus verschiedenen Quellen extrahieren, logische Schlussfolgerungen ziehen und kohärente Antworten generieren. Diese Fähigkeiten ermöglichen es KI-Agenten, Aufgaben wie die Beantwortung von Fragen, die Zusammenfassung von Texten, die Übersetzung von Sprachen und die Erstellung von Inhalten auszuführen.

Aufgrund der zentralen Rolle von LLMs werden KI-Agenten häufig auch als LLM-Agenten bezeichnet. Dieser Begriff unterstreicht die Bedeutung von Sprachmodellen für die Funktionalität und Leistungsfähigkeit dieser intelligenten Systeme.

Die Bedeutung von LLMs für KI-Agenten lässt sich in folgenden Punkten zusammenfassen:

Verständnis natürlicher Sprache: LLMs ermöglichen es KI-Agenten, Benutzeranfragen und andere textbasierte Informationen zu verstehen.
Generierung von menschenähnlicher Sprache: LLMs ermöglichen es KI-Agenten, kohärente und informative Antworten zu generieren.
Kontextverständnis: LLMs können den Kontext von Informationen verstehen und relevante Schlussfolgerungen ziehen.
Anpassungsfähigkeit: LLMs können an verschiedene Aufgaben und Domänen angepasst werden, wodurch KI-Agenten vielseitig einsetzbar sind.

*Dieser Abschnitt wurde mit Unterstützung von Google Gemini erstellt, einem KI-gestützten Tool für Inhalte und Information. Am 25.03.2025, 08.15 Uhr

Function Calling bei LLMS

Funktion Calling ist die Fähigkeit, LLMs zuverlässig mit externen Tools zu verbinden, um eine effektive Toolnutzung und Interaktion mit externen APIs zu ermöglichen.

Funktionsaufrufe (Function Calling) in großen Sprachmodellen (LLMs) ermöglichen es, externe Werkzeuge oder Funktionen in den Gesprächsverlauf zu integrieren. Anstatt nur Text zu generieren, können LLMs strukturierte Anfragen erstellen, die von anderen Systemen ausgeführt werden. Zum Beispiel kann ein LLM eine Anfrage generieren, um das aktuelle Wetter abzurufen, eine Datenbank abzufragen oder eine E-Mail zu versenden. Die Ergebnisse dieser externen Funktionen werden dann wieder in den Gesprächsverlauf eingespeist, wodurch das LLM dynamischer und vielseitiger wird.

Retrieval Augmented Generation (RAG)

RAG (Retrieval Augmented Generation) ist eine Technik, die darauf abzielt, die Genauigkeit und Relevanz von Antworten generativer KI-Modelle zu verbessern, indem sie auf externe Wissensquellen zugreifen. Im Zusammenhang mit KI-Agenten ermöglicht RAG diesen Agenten, über ihr trainiertes Wissen hinauszugehen und auf aktuelle oder spezifische Informationen zuzugreifen, um präzisere und kontextbezogene Antworten zu liefern.

Hier ist eine einfache Erklärung, wie RAG mit KI-Agenten funktioniert:

Abrufen (Retrieval):
- Ein KI-Agent greift auf externe Datenquellen oder Wissensbasen zu, um relevante Informationen abzurufen. Dies kann beispielsweise eine Datenbank, ein Dokumentenspeicher oder eine API sein. Der Abrufprozess stellt sicher, dass die KI Zugang zu aktuellen und spezifischen Informationen hat.
- Wenn ein Benutzer eine Frage stellt, durchsucht der KI-Agent externe Datenbanken oder Wissensspeicher nach relevanten Informationen.
- Dies kann die Suche nach Dokumenten, Artikeln, Datenbankeinträgen oder anderen Datenquellen umfassen, die für die Anfrage des Benutzers relevant sind.
Anreichern (Augmentation):
- Die abgerufenen Informationen werden dann mit der ursprünglichen Frage des Benutzers kombiniert.
- Dies schafft einen erweiterten Kontext, den der KI-Agent nutzen kann, um eine fundierte Antwort zu generieren.
Generierung (Generation):
- Nach dem Abruf der relevanten Informationen verwendet die KI ein generatives Modell (wie GPT), um basierend auf den abgerufenen Daten eine Antwort zu formulieren.
- Der KI-Agent verwendet das erweiterte Wissen, um eine präzise und kontextbezogene Antwort zu generieren.
- Dies stellt sicher, dass die Antwort nicht nur auf dem trainierten Wissen des Modells basiert, sondern auch auf den aktuellsten und relevantesten Informationen, die verfügbar sind.

RAG ermöglicht es KI-Agenten:

Auf aktuelle Informationen zuzugreifen.
Auf spezifische oder proprietäre Daten zuzugreifen.
Genauere und relevantere Antworten zu generieren.
Die Halluzination von KI-Modellen zu reduzieren.

Vorteile von RAG:

Aktualität: Die KI kann auf aktuelle und spezifische Informationen zugreifen, anstatt nur auf vortrainierte Daten beschränkt zu sein.
Flexibilität: Es ermöglicht die Kombination von generativer KI mit domänenspezifischem Wissen.
Genauigkeit: Die Antworten sind oft präziser, da sie auf abgerufenen Fakten basieren.

Im Wesentlichen macht RAG KI-Agenten intelligenter, indem es ihnen ermöglicht, auf ein breiteres Spektrum an Wissen zuzugreifen und ihre Antworten entsprechend anzupassen.