Treffer: Extraktion textueller Informationen aus heterogenen PDF-Dokumenten

Title:
Extraktion textueller Informationen aus heterogenen PDF-Dokumenten
Publication Year:
2023
Collection:
Universität Rostock, Lehrstuhl Datenbank- und Informationssysteme: Dbis Repository
Document Type:
Dissertation thesis
File Description:
text
Language:
German
Relation:
https://eprints.dbis.informatik.uni-rostock.de/1096/1/15.03.23.Mahmoud.Khamis.pdf; Alkhamis, Mahmoud Ahmad (2023) Extraktion textueller Informationen aus heterogenen PDF-Dokumenten. Other thesis, Universität Rostock.
Accession Number:
edsbas.15DF3711
Database:
BASE

Weitere Informationen

Diese Bachelorarbeit untersucht den Prozess der Extraktion von Text aus Absätzen, Überschriften und Tabellen, die in PDF-Dokumenten enthalten sind, mithilfe des Python-Moduls PDFMiner. In dieser Arbeit wird ein Überblick über viele Python-Bibliotheken sowie ein Vergleich ihrer Funktionen und Eigenschaften präsentiert, mit der Schlussfolgerung, dass PDFMiner die überlegene Option für das Ziel der Textextraktion ist. Die Verarbeitungs- und Implementierungsmethode von PDFMiner wird detailliert aufgeschlüsselt und die Ausgabeergebnisse der Textextraktion werden untersucht, bewertet und auf ihre Korrektheit und Verlässlichkeit geprüft. Die Arbeit schließt mit einigen Vorschlägen für weitere Forschungen in diesem Bereich sowie mit einigen möglichen Anwendungen von PDFMiner in anderen Studienbereichen. Generell zeigen die Ergebnisse der Studie, dass die effiziente Extraktion von Text aus PDF-Dateien das Potenzial hat, in einer Vielzahl von Bereichen wie Bildung, Forschung und Datenanalyse eingesetzt zu werden.