Treffer: Evaluating test strategies for AI systems and designing a test framework for LLM evaluation

Title:

Evaluating test strategies for AI systems and designing a test framework for LLM evaluation

Authors:

Dehner, Linus

Publication Year:

2025

Subject Terms:

LLM-Evaluierung, Testframework, C#, Qualitätssicherung, KI-Testing, Prompt Engineering, LLM evaluation, test framework, quality assurance, AI testing

Subject Geographic:

FTW:0299

Document Type:

Dissertation master thesis

File Description:

128 Seiten; text/html

Language:

English

Relation:

vignette : https://epub.technikum-wien.at/titlepage/urn/urn:nbn:at:at-ftw:1-76897/128; local:99149295797403331; system:AC17576068

Availability:

https://resolver.obvsg.at/urn:nbn:at:at-ftw:1-76897

Accession Number:

edsbas.BACDEEF3

Database:

BASE

Weitere Informationen

Die weit verbreitete Integration von Large language models (LLMs) in Unternehmensumgebungen– insbesondere für sensible und domänenspezifische Anwendungen – hat die Nachfragenach robusten, systematischen Testframeworks stark erhöht. Die meisten bestehenden LLMEvaluierungstoolssind für Python-Ökosysteme konzipiert, wodurch eine beträchtliche Lückefür Organisationen entsteht, die auf C#-basierte Infrastrukturen setzen. Diese Arbeit schließtdiese Lücke mit dem Design und der Implementierung eines modularen, erweiterbaren LLMTestframeworksals Bibliothek für C# und orientiert sich dabei an den Anforderungen von Tietoevry,einem führenden nordischen IT-Dienstleister.Das Framework umfasst eine Vielzahl automatisierter Tests – darunter Keyword-, Keyphrase-,Dokumenten-, Kontextrelevanz-, Bias-, Toxicity-, Prompt-Alignment- und Halluzinationstests –und kombiniert klassische sowie LLM-gestützte Evaluierungsstrategien. Die Architektur nutztmoderne Design-Patterns wie Composite, Fluent Interface und Pipeline, was eine lesbare,kaskadierbare und individuell anpassbare Testkonfiguration ermöglicht sowie die Integration inEnterprise - Continuous Integration (CI) / Continuous Delivery or Deployment (CD) - Pipelinesunterstützt.Durch die Integration von Azure OpenAI Services sowie Unterstützung von text- und embeddingbasiertenSuchen ist das Framework für realistische Enterprise-Szenarien geeignet. Dieempirische Evaluation erfolgte mit OpenAI’s GPT-4o sowie einer lokalen Instanz des Gemma-Modells und beinhaltete einen Vergleich mit etablierten Python-Frameworks wie DeepEval. DieErgebnisse zeigen eine hohe Zuverlässigkeit und Genauigkeit bei GPT-4o, während kleinereOpen-Source-Modelle insbesondere bei komplexeren Evaluierungsaufgaben Einschränkungenaufweisen.Diese Arbeit liefert eine wiederverwendbare Lösung für systematisches LLM-Testing in C#-Umgebungen und bildet die Grundlage für weiterführende Forschung im Bereich der automatisierten,domänenspezifischen Evaluierung generativer Künstliche Intelligenz (KI). ZukünftigeArbeiten ...

Treffer: Evaluating test strategies for AI systems and designing a test framework for LLM evaluation

Weitere Informationen

Links

Zusatz-Funktionen