Treffer: Build a Trained Data of Tesseract OCR engine for Tifinagh Script Recognition.
Weitere Informationen
This article introduces a methodology for constructing a trained dataset to facilitate Tifinagh script recognition using the Tesseract OCR engine. The Tifinagh script, widely used in North Africa, poses a challenge due to the lack of built-in recognition capabilities in Tesseract. To overcome this limitation, our approach focuses on image generation, box generation, manual editing, charset extraction, and dataset compilation. By leveraging Python scripting, specialized software tools, and Tesseract’s training utilities, we systematically create a comprehensive dataset for Tifinagh script recognition. The dataset enables the training and evaluation of machine learning models, leading to accurate character recognition. Experimental results demonstrate high accuracy, precision, recall, and F1 score, affirming the effectiveness of the dataset and its potential for practical applications. The results highlight the robustness of the OCR system, achieving an outstanding accuracy rate of 99,97 %. The discussion underscores its superior performance in Tifinagh character recognition, exceeding the findings in the field. This methodology contributes significantly to enhancing OCR technology capabilities and encourages further research in Tifinagh script recognition, unlocking the wealth of information contained in Tifinagh documents. [ABSTRACT FROM AUTHOR]
En este artículo se presenta una metodología para construir un conjunto de datos entrenados que facilite el reconocimiento de la escritura tifinagh mediante el motor de reconocimiento óptico de caracteres Tesseract. La escritura tifinagh, ampliamente utilizada en el norte de África, plantea un reto debido a la falta de capacidades de reconocimiento integradas en Tesseract. Para superar esta limitación, nuestro enfoque se centra en la generación de imágenes, la generación de recuadros, la edición manual, la extracción de conjuntos de caracteres y la compilación de conjuntos de datos. Aprovechando las secuencias de comandos de Python, las herramientas de software especializadas y las utilidades de formación de Tesseract, creamos sistemáticamente un conjunto de datos completo para el reconocimiento de guiones Tifinagh. El conjunto de datos permite entrenar y evaluar modelos de aprendizaje automático que conducen a un reconocimiento preciso de los caracteres. Los resultados experimentales demuestran una gran exactitud, precisión, recuperación y puntuación F1, lo que confirma la eficacia del conjunto de datos y su potencial para aplicaciones prácticas. Los resultados ponen de relieve la robustez del sistema de reconocimiento óptico de caracteres, que alcanza una extraordinaria tasa de precisión del 99,97 %. La discusión subraya su rendimiento superior en el reconocimiento de caracteres Tifinagh, superando los hallazgos en este campo. Esta metodología contribuye significativamente a mejorar las capacidades de la tecnología OCR y anima a seguir investigando en el reconocimiento de la escritura tifinagh, desbloqueando la riqueza de la información contenida en los documentos tifinagh. [ABSTRACT FROM AUTHOR]