Gracias a plataformas como la instancia de eScriptorium de la Universidad de Radboud (escriptorium.rich.ru.nl), la Inteligencia Artificial está aprendiendo a leer el pasado.
1. ¿Qué es eScriptorium?
Es una herramienta web utilizada principalmente por investigadores en humanidades digitales. Su función principal es transformar imágenes de documentos antiguos (manuscritos o impresos) en texto digital editable y buscable.
2. ¿Cómo funciona?
Utiliza técnicas de Aprendizaje Automático (Machine Learning) y Visión por Computadora para realizar dos tareas críticas:
Segmentación: Detecta automáticamente la estructura de la página, identificando dónde están las líneas de texto, los párrafos, los títulos o las ilustraciones.
Transcripción (HTR/OCR): Utiliza un motor llamado Kraken para realizar el Reconocimiento de Texto Manuscrito (HTR). El sistema puede ser "entrenado" para aprender caligrafías específicas de diferentes siglos o idiomas.
3. Importancia
A diferencia de un OCR común (como el que usa Google Lens), eScriptorium está optimizado para documentos complejos donde el papel puede estar dañado, la letra es difícil de leer o el diseño de la página no es lineal. Es una alternativa de código abierto a otras plataformas similares como Transkribus.
En resumen, es un "escritorio digital" moderno donde la tecnología ayuda a los historiadores y filólogos a leer y procesar miles de páginas de archivos antiguos de forma automatizada.

No hay comentarios:
Publicar un comentario