Treffer: Extraktion textueller Informationen aus heterogenen PDF-Dokumenten

Title:

Extraktion textueller Informationen aus heterogenen PDF-Dokumenten

Authors:

Alkhamis, Mahmoud Ahmad

Publication Year:

2023

Collection:

Universität Rostock, Lehrstuhl Datenbank- und Informationssysteme: Dbis Repository

Subject Terms:

Bachelorarbeit, Digitale Bibliotheken, Information Retrieval, Studentische Arbeiten

Document Type:

Dissertation thesis

File Description:

text

Language:

German

Relation:

https://eprints.dbis.informatik.uni-rostock.de/1096/1/15.03.23.Mahmoud.Khamis.pdf; Alkhamis, Mahmoud Ahmad (2023) Extraktion textueller Informationen aus heterogenen PDF-Dokumenten. Other thesis, Universität Rostock.

Availability:

https://eprints.dbis.informatik.uni-rostock.de/1096/

Accession Number:

edsbas.15DF3711

Database:

BASE

Weitere Informationen

Diese Bachelorarbeit untersucht den Prozess der Extraktion von Text aus Absätzen, Überschriften und Tabellen, die in PDF-Dokumenten enthalten sind, mithilfe des Python-Moduls PDFMiner. In dieser Arbeit wird ein Überblick über viele Python-Bibliotheken sowie ein Vergleich ihrer Funktionen und Eigenschaften präsentiert, mit der Schlussfolgerung, dass PDFMiner die überlegene Option für das Ziel der Textextraktion ist. Die Verarbeitungs- und Implementierungsmethode von PDFMiner wird detailliert aufgeschlüsselt und die Ausgabeergebnisse der Textextraktion werden untersucht, bewertet und auf ihre Korrektheit und Verlässlichkeit geprüft. Die Arbeit schließt mit einigen Vorschlägen für weitere Forschungen in diesem Bereich sowie mit einigen möglichen Anwendungen von PDFMiner in anderen Studienbereichen. Generell zeigen die Ergebnisse der Studie, dass die effiziente Extraktion von Text aus PDF-Dateien das Potenzial hat, in einer Vielzahl von Bereichen wie Bildung, Forschung und Datenanalyse eingesetzt zu werden.

Treffer: Extraktion textueller Informationen aus heterogenen PDF-Dokumenten

Weitere Informationen

Links

Zusatz-Funktionen