Wenn Tests grün sind – und Nutzer trotzdem „kaputt“ rufen

Wenn Tests grün sind – und Nutzer trotzdem „kaputt“ rufen

In ihrem Talk „It Works on My Machine: Why LLM Apps Fail Users (Not Tests)” teilen sie Erfahrungen aus realen Kundenprojekten und zeigen, wie man LLM-Systeme so entwickelt und betreibt, dass sie nicht nur in der Evaluation gut aussehen, sondern im Alltag echten Mehrwert für Nutzerinnen und Nutzer liefern.

Im Mittelpunkt stehen drei Dimensionen, die darüber entscheiden, ob eine Anwendung als „funktionierend“ erlebt wird:

  • Erwartungen: Welche Ergebnisse erwarten Nutzer – und wie unterscheidet sich das von dem, was das System tatsächlich leisten soll?
  • Funktional: Warum das Zusammenspiel von Prompts, Modellen, Parametern, Daten und Evaluationslogik komplexer ist als die Summe der Einzeltests.
  • Operational: Wie Observability, Telemetrie und Validierungs-Endpunkte helfen, Verhalten im laufenden Betrieb zu verstehen und Probleme frühzeitig zu erkennen – insbesondere in sensiblen oder On-Premises-Setups.

Statt sich auf Tools oder Frameworks zu konzentrieren, beleuchtet der Talk die menschliche Seite von Evaluation: Wie finden wir heraus, ob ein System wirklich den Menschen dient, die täglich damit arbeiten?

Wer LLM-Anwendungen plant, entwickelt oder in Produktion verantwortet, bekommt praxisnahe Einblicke, typische Fallstricke aus realen Szenarien – und Anregungen für eigene Strategien und Muster, um nutzerzentrierte, robuste Systeme zu bauen.

Weitere Artikel

Inside neunzehn - heute mit Frank
Inside neunzehn - heute mit Frank

„Innovation heißt für mich, Lücken zu erkennen dort, wo bestehende Lösungen nicht greifen und durch neue Technologien echten Mehrwert zu schaffen.“

Mehr lesen
Sechs Server für unsere Zukunft
Sechs Server für unsere Zukunft

Digitale Souveränität war bei uns immer Prinzip. Doch immer mehr Kunden fragten: "Können Sie das nicht für uns betreiben?" Deshalb haben wir jetzt einen eigenen Kubernetes-Cluster aufgebaut.

Mehr lesen
Rückblick: Unser Vortrag bei der PyCon 2025
Rückblick: Unser Vortrag bei der PyCon 2025

Wie wird aus einer schnellen GenAI-Demo eine skalierbare Unternehmenslösung? In unserem Vortrag auf der PyCon 2025 haben wir gezeigt, welche technischen Entscheidungen, Herausforderungen und Learnings uns auf diesem Weg begleitet haben.

Mehr lesen