LangSmith – Wiederverwendbare Evaluatoren und Evaluator-Templates

LangSmith veröffentlicht zwei neue Features für die Agent-Evaluation: eine Template-Bibliothek mit über 30 vorgefertigten Evaluatoren sowie einen zentralen Evaluators-Tab für workspace-weite Wiederverwendung bestehender Evaluatoren.

Kernaussagen

Evaluator-Templates als Schnellstart: 30+ Templates decken Sicherheit, Antwortqualität, Trajektorie, Nutzerverhalten und multimodale Auswertung ab – sofort nutzbar oder anpassbar, für Online-Monitoring und Offline-Experimente.
Einmal bauen, überall anwenden: Ein neuer Evaluators Tab bündelt alle Evaluatoren eines Workspaces. Bestehende Evaluatoren lassen sich in Sekunden an neue Tracing-Projekte anhängen – ohne Duplikate pflegen zu müssen.
Evaluation auf mehreren Ebenen: Ein einzelner Evaluator für die Endantwort reicht nicht. Effektive Agent-Evaluation umfasst einzelne Schritte, vollständige Trajektorien, Multi-Turn-Gespräche und konkrete Tool-Aufrufe innerhalb eines Traces.

Warum Evaluierungen ins Stocken geraten

Zu definieren, was „gut" bedeutet, ist eines der schwierigsten Probleme beim Aufbau von Agenten. Typische Stolpersteine:

Der Agent ruft das richtige Tool auf, formatiert die Antwort aber schlecht.
Einzelne Interaktionen funktionieren, aber Multi-Turn-Gespräche scheitern.
Ein Evaluator auf der Endantwort verrät nicht, ob der Retrieval-Agent die richtigen Dokumente gezogen hat.

Evaluation wird auf mehreren Ebenen benötigt:

Ebene	Was wird gemessen?
Einzelne Schritte	Korrekte Tool-Auswahl, Formatierung
Trajektorie	Hat der Agent die richtigen Schritte in der richtigen Reihenfolge unternommen?
Gespräch (Multi-Turn)	Konsistenz über mehrere Turns hinweg
Tool-Aufrufe	Korrekte Parameter, Delegation an den richtigen Sub-Agenten

Das Aufbauen von Evaluatoren über alle diese Ebenen kann Wochen dauern: Prompt schreiben → gegen echte Daten validieren → anpassen → wiederholen.

Evaluator-Templates

Die Templates decken die am häufigsten nachgefragten Kategorien ab:

Sicherheit & Security: Prompt-Injection-Erkennung, PII-Checks, Bias- und Toxizitätserkennung
Antwortqualität: Korrektheit, Hilfreigkeit, Tonalität
Trajektorie: Hat der Agent die richtigen Schritte unternommen?
Nutzerverhalten: Sprachverteilung, Zufriedenheitssignale
Multimodal: Sprach- und Bildauswertung

Templates enthalten sowohl LLM-as-Judge-Evaluatoren (mit getunten Prompts) als auch regelbasierte Code-Evaluatoren. Sie funktionieren für:

Online-Evaluation: Produktiven Traffic kategorisieren – Prompt-Injections erkennen, unerwartetes Nutzerverhalten flaggen, Traces für Human Review markieren. Korrekturen lassen sich nutzen, um den Evaluator-Prompt iterativ zu verbessern.
Offline-Evaluation: Experimente über Datasets laufen lassen – Scores prüfen, Fehler filtern, Ursachen verstehen.

Die Templates sind auch im Open-Source-Paket openevals v0.2.0 verfügbar, jetzt mit Multimodal-Support für Sprach- und Bildausgaben.

Wiederverwendbare Evaluatoren

Der neue Evaluators Tab in LangSmith:

Zeigt alle Evaluatoren eines Workspaces – unabhängig davon, an welches Projekt sie gebunden sind.
Ermöglicht Filtern nach Tracing-Projekt und schnelles Anhängen an neue Projekte.
Erlaubt Teams, die für Evaluierungsqualität zuständig sind, Evaluatoren einmal zu bauen und überall anzuwenden – keine separaten Kopien des gleichen Safety-Evaluators mehr.

Praxisbeispiel

Prompt-Injection-Evaluator aus einem Template erstellen.
Prompt tunen und gegen Beispieldaten validieren.
Den fertigen Evaluator mit einem Klick an alle Produktions-Tracing-Projekte anhängen.
Bei einer Prompt-Verbesserung: Update einmal vornehmen → gilt überall.

Ausblick

Als nächstes plant LangSmith Spend Visibility: Transparenz über die Kosten von Evaluierungsläufen sowie die Möglichkeit, Budgets zu setzen.

Quellen

Reusable Evaluators and Evaluator Templates in LangSmith — externe Quelle (LangChain Blog)
Quelldatei ansehen — archiviertes Original