LangSmith – Wiederverwendbare Evaluatoren und Evaluator-Templates
LangSmith veröffentlicht zwei neue Features für die Agent-Evaluation: eine Template-Bibliothek mit über 30 vorgefertigten Evaluatoren sowie einen zentralen Evaluators-Tab für workspace-weite Wiederverwendung bestehender Evaluatoren.
Kernaussagen
- Evaluator-Templates als Schnellstart: 30+ Templates decken Sicherheit, Antwortqualität, Trajektorie, Nutzerverhalten und multimodale Auswertung ab – sofort nutzbar oder anpassbar, für Online-Monitoring und Offline-Experimente.
- Einmal bauen, überall anwenden: Ein neuer Evaluators Tab bündelt alle Evaluatoren eines Workspaces. Bestehende Evaluatoren lassen sich in Sekunden an neue Tracing-Projekte anhängen – ohne Duplikate pflegen zu müssen.
- Evaluation auf mehreren Ebenen: Ein einzelner Evaluator für die Endantwort reicht nicht. Effektive Agent-Evaluation umfasst einzelne Schritte, vollständige Trajektorien, Multi-Turn-Gespräche und konkrete Tool-Aufrufe innerhalb eines Traces.
Warum Evaluierungen ins Stocken geraten
Zu definieren, was „gut" bedeutet, ist eines der schwierigsten Probleme beim Aufbau von Agenten. Typische Stolpersteine:
- Der Agent ruft das richtige Tool auf, formatiert die Antwort aber schlecht.
- Einzelne Interaktionen funktionieren, aber Multi-Turn-Gespräche scheitern.
- Ein Evaluator auf der Endantwort verrät nicht, ob der Retrieval-Agent die richtigen Dokumente gezogen hat.
Evaluation wird auf mehreren Ebenen benötigt:
| Ebene | Was wird gemessen? |
|---|---|
| Einzelne Schritte | Korrekte Tool-Auswahl, Formatierung |
| Trajektorie | Hat der Agent die richtigen Schritte in der richtigen Reihenfolge unternommen? |
| Gespräch (Multi-Turn) | Konsistenz über mehrere Turns hinweg |
| Tool-Aufrufe | Korrekte Parameter, Delegation an den richtigen Sub-Agenten |
Das Aufbauen von Evaluatoren über alle diese Ebenen kann Wochen dauern: Prompt schreiben → gegen echte Daten validieren → anpassen → wiederholen.
Evaluator-Templates
Die Templates decken die am häufigsten nachgefragten Kategorien ab:
- Sicherheit & Security: Prompt-Injection-Erkennung, PII-Checks, Bias- und Toxizitätserkennung
- Antwortqualität: Korrektheit, Hilfreigkeit, Tonalität
- Trajektorie: Hat der Agent die richtigen Schritte unternommen?
- Nutzerverhalten: Sprachverteilung, Zufriedenheitssignale
- Multimodal: Sprach- und Bildauswertung
Templates enthalten sowohl LLM-as-Judge-Evaluatoren (mit getunten Prompts) als auch regelbasierte Code-Evaluatoren. Sie funktionieren für:
- Online-Evaluation: Produktiven Traffic kategorisieren – Prompt-Injections erkennen, unerwartetes Nutzerverhalten flaggen, Traces für Human Review markieren. Korrekturen lassen sich nutzen, um den Evaluator-Prompt iterativ zu verbessern.
- Offline-Evaluation: Experimente über Datasets laufen lassen – Scores prüfen, Fehler filtern, Ursachen verstehen.
Die Templates sind auch im Open-Source-Paket openevals v0.2.0 verfügbar, jetzt mit Multimodal-Support für Sprach- und Bildausgaben.
Wiederverwendbare Evaluatoren
Der neue Evaluators Tab in LangSmith:
- Zeigt alle Evaluatoren eines Workspaces – unabhängig davon, an welches Projekt sie gebunden sind.
- Ermöglicht Filtern nach Tracing-Projekt und schnelles Anhängen an neue Projekte.
- Erlaubt Teams, die für Evaluierungsqualität zuständig sind, Evaluatoren einmal zu bauen und überall anzuwenden – keine separaten Kopien des gleichen Safety-Evaluators mehr.
Praxisbeispiel
- Prompt-Injection-Evaluator aus einem Template erstellen.
- Prompt tunen und gegen Beispieldaten validieren.
- Den fertigen Evaluator mit einem Klick an alle Produktions-Tracing-Projekte anhängen.
- Bei einer Prompt-Verbesserung: Update einmal vornehmen → gilt überall.
Ausblick
Als nächstes plant LangSmith Spend Visibility: Transparenz über die Kosten von Evaluierungsläufen sowie die Möglichkeit, Budgets zu setzen.
Quellen
- Reusable Evaluators and Evaluator Templates in LangSmith — externe Quelle (LangChain Blog)
- Quelldatei ansehen — archiviertes Original