El texto completo de las publicaciones en dominio público de la Hemeroteca Digital ya puede descargarse, en formatos abiertos, libres y reutilizables.
Disponer de estos los textos permite aplicar sobre ellos tecnologías de procesamiento de lenguaje natural y otras nuevas herramientas propias de las llamadas humanidades digitales, cuyo uso está cada vez más generalizado. Los textos que se ofrecen proceden del reconocimiento óptico de caracteres (OCR) que se realiza en el momento de la digitalización, por lo que pueden contener errores. Mediante su puesta a disposición en estos formatos también se facilita la detección de estos errores y la mejora de los resultados del proceso automático de OCR.
Este nuevo servicio se inscribe en la estrategia general de la BNE para impulsar la investigación y reutilización de su patrimonio digital (materializada en BNElab), y concretamente en una línea específica de trabajo centrada en el análisis, apertura y publicación de los datos que la BNE genera, en formatos abiertos y reutilizables y siguiendo políticas y estándares RISP (Reutilización de la Información del Sector Público). Todos los conjuntos de datos así generados han sido publicados en el portal de datos abiertos de la Administración, datos.gob.es (y con ello también en el Portal Europeo de Datos).
Entre lo publicado y ya disponible se incluyen los grandes conjuntos de datos generados por la BNE, como el Catálogo Bibliográfico y el de Autoridades o la Bibliografía Española, pero también otros de carácter estadístico e institucional. En todos los casos se ha hecho un esfuerzo por transformar los registros en formatos libres, y accesibles para público no estrictamente bibliotecario. De este modo, se ha realizado una adaptación a formatos como JSON, CSV, ODS, TXT o XML. Todos los datos se actualizan periódicamente.
Los dos nuevos conjuntos de datos incorporados como resultado del trabajo con Hemeroteca Digital completan esta línea de trabajo desarrollada en los últimos dos años; suman un total de 278 conjuntos de datos, bibliográficos e institucionales, de gran valor tanto para bibliotecas como para investigadores y reutilizadores en general. No obstante, la iniciativa se plantea como una actividad abierta a la colaboración, un punto de partida para encontrar líneas de experimentación, trabajo y explotación de estos datos, como recurso de valor en campos como el procesamiento del lenguaje natural, la investigación académica o el desarrollo de software.
No hay comentarios:
Publicar un comentario