Treffer: Evaluating test strategies for AI systems and designing a test framework for LLM evaluation

Title:
Evaluating test strategies for AI systems and designing a test framework for LLM evaluation
Authors:
Publication Year:
2025
Subject Geographic:
Document Type:
Dissertation master thesis
File Description:
128 Seiten; text/html
Language:
English
Relation:
vignette : https://epub.technikum-wien.at/titlepage/urn/urn:nbn:at:at-ftw:1-76897/128; local:99149295797403331; system:AC17576068
Accession Number:
edsbas.BACDEEF3
Database:
BASE

Weitere Informationen

Die weit verbreitete Integration von Large language models (LLMs) in Unternehmensumgebungen– insbesondere für sensible und domänenspezifische Anwendungen – hat die Nachfragenach robusten, systematischen Testframeworks stark erhöht. Die meisten bestehenden LLMEvaluierungstoolssind für Python-Ökosysteme konzipiert, wodurch eine beträchtliche Lückefür Organisationen entsteht, die auf C#-basierte Infrastrukturen setzen. Diese Arbeit schließtdiese Lücke mit dem Design und der Implementierung eines modularen, erweiterbaren LLMTestframeworksals Bibliothek für C# und orientiert sich dabei an den Anforderungen von Tietoevry,einem führenden nordischen IT-Dienstleister.Das Framework umfasst eine Vielzahl automatisierter Tests – darunter Keyword-, Keyphrase-,Dokumenten-, Kontextrelevanz-, Bias-, Toxicity-, Prompt-Alignment- und Halluzinationstests –und kombiniert klassische sowie LLM-gestützte Evaluierungsstrategien. Die Architektur nutztmoderne Design-Patterns wie Composite, Fluent Interface und Pipeline, was eine lesbare,kaskadierbare und individuell anpassbare Testkonfiguration ermöglicht sowie die Integration inEnterprise - Continuous Integration (CI) / Continuous Delivery or Deployment (CD) - Pipelinesunterstützt.Durch die Integration von Azure OpenAI Services sowie Unterstützung von text- und embeddingbasiertenSuchen ist das Framework für realistische Enterprise-Szenarien geeignet. Dieempirische Evaluation erfolgte mit OpenAI’s GPT-4o sowie einer lokalen Instanz des Gemma-Modells und beinhaltete einen Vergleich mit etablierten Python-Frameworks wie DeepEval. DieErgebnisse zeigen eine hohe Zuverlässigkeit und Genauigkeit bei GPT-4o, während kleinereOpen-Source-Modelle insbesondere bei komplexeren Evaluierungsaufgaben Einschränkungenaufweisen.Diese Arbeit liefert eine wiederverwendbare Lösung für systematisches LLM-Testing in C#-Umgebungen und bildet die Grundlage für weiterführende Forschung im Bereich der automatisierten,domänenspezifischen Evaluierung generativer Künstliche Intelligenz (KI). ZukünftigeArbeiten ...