Miscelanea

Proyecto Trascriptorium: transcribe textos antiguos automaticamente

>> DOMINGO, 5 DE MAYO DE 2013

La Universidad Politécnica de Valencia (este) encabeza un proyecto europeo que desarrolla un sistema para el reconocimiento automático de imágenes de documentos antiguos manuscritos y poder transcribirlos de la forma más rápida posible.
Se trata del proyecto Trascriptorium, que forma parte de un programa de la Unión Europea y en el que también participan socios del Reino Unido, Austria, Grecia y Holanda.

El coordinador del proyecto, Joan Andreu Sánchez, explicó a EFE que el proyecto busca un prototipo para probar “cómo se podrían utilizar en un entorno real técnicas automáticas e interactivas que ya se están desarrollando” para poder transcribir documentos manuscritos antiguos, con técnicas que aprenden automáticamente y que, por tanto, se aplican a cualquier lengua y aceleran el trabajo.

El proceso de transcripción actualmente se hace manualmente y la idea de los investigadores es incorporar técnicas automáticas de reconocimiento del habla en este tipo de transcripción, según Sánchez

Estas técnicas que utilizan, no obstante, “no tienen que ver” con las técnicas de reconocimiento óptico de caracteres (OCR).

“Para las técnicas de OCR se utilizan técnicas de segmentación, es decir, se aislan los caracteres y luego se reconocen; pero la escritura manuscrita es ligada y no hay técnicas que lo separen automáticamente, por lo que el proceso de reconocimiento no se puede abordar carácter a carácter sino como un todo de caracteres, palabras y líneas”, añadió.

Una de las principales ventajas de este proyecto es que las técnicas que utilizan “aprenden automáticamente a partir de ejemplos y, por tanto, no son específicas para una determinada lengua sino que se pueden aplicar a cualquier lengua”.

En concreto, Transcriptorium se desarrolla en castellano, holandés, alemán e inglés, aunque el grupo de trabajo también ha explorado documentos “en árabe y otras lenguas”.

Para un volumen de unas mil páginas, unas cincuenta se transcriben a mano y,una vez hecho esto, “se entrenan modelos para proporcionar resultados razonables para el resto de páginas, lo que acelera el trabajo”.

Tras la limpieza de la imagen, el proceso contempla la detección de zonas textuales de interés, posteriormente se detectan las líneas automáticamente y luego se transcriben con herramientas ya usadas en el reconocimiento automático del habla.

Estas técnicas se pueden aplicar a cualquier tipo de documento de biblioteca, archivos o colecciones privadas.

En concreto, el proyecto trabaja con textos desde el siglo XV hasta principios del XX, entre ellos registros matrimoniales (en castellano) o sentencias judiciales (en alemán).

Trabajan también en la colección del filósofo Jeremy Benthan, unos 30.000 documentos que el College London está transcribiendo manualmente, con el propósito de proporcionar herramientas para facilitar esos procesos de transcripción.

Además, Sánchez subrayó que el software que desarrolla el proyecto será libre. EFE


La noche Estrellada Interactiva
(Debe esperar a que cargue el vídeo)


Entrevista a Eric Hobsbawm


Parte 1


Parte 2






The British Library

La British Library, posee una serie de blogs en los que se difunde información de gran interés. Estudios de Asia y África, América, colección sonora de la misma biblioteca, mapas, patentes, etc. Pulse en la imagen para acceder...

Para acceder a la entrada de Marzo de 2013 del Blog de la Colección Americana de la British Library, pulse en el encabezado New acquisitions....

                             New acquisitions: 2 early Mexican imprints


                     
                                       
_____________________________

AFEHC
Asociación para el Fomento de los Estudios Históricos en Centroamérica

La AFEHC quiere ser un canal de información y un punto de encuentro para quienes se interesan por la Historia de América Central: [este] Canal de información a través del sitio web, que permite dar la mayor difusión posible a los estudios históricos existentes sobre Centro America, a los talleres, publicaciones y otras iniciativas científicas que se consideren relacionadas con el ámbito de la historia centroamericana.
Punto de encuentro en la medida en que busca reunir y esbozar las líneas prioritarias de la investigación actual acerca de la historia centroamericana, compilar las direcciones electrónicas de una parte importante de los investigadores que trabajan el tema y exponer de forma sintética las principales publicaciones. De esta forma, se busca favorecer los encuentros e intercambios entre posibles socios o colaboradores.


Le agradezco a Carlos Fallas de la Universidad de Costa Rica, su recomendación para conocer y visitar el sitio en internet de la AFEHC.
_____________________________


Un ejemplo extraordinario de la Cartografía, de la segunda mitad del siglo XIX. Al mismo tiempo, un excelente ejemplo de la utilidad de las modernas herramientas para los estudios históricos. Este plano procede de Norman B. Leventhal Map Center, at the Boston Public Library. Amablemente, este centro permite la descarga de los materiales. No olviden dar los agradecimientos y citar la ficha, en caso de que descarguen algún plano. Muchas instituciones cobran por descargar materiales, evitemos que restrinjan la descarga otorgándoles los créditos correspondiente.

Para una visualización más detallada on line siga esta ruta http://maps.bpl.org/id/14215 


Panorama de México a puebla, con todos los caminos, ríos, poblaciones y montes

Author: 
Publisher: Imp. Lit. de Decaen
Date: 1860
Location: Mexico City (Mexico)

Dimensions: 42 x 59 cm.
Scale: Not drawn to scale
Call Number: G4414.M6A3 1860 .P36x



Panorama de Mexico a puebla, con todos los caminos, rios, poblaciones y montes

Author: 
Publisher: Imp. Lit. de Decaen
Date: 1860
Location: Mexico City (Mexico)

Dimensions: 42 x 59 cm.
Scale: Not drawn to scale
Call Number: G4414.M6A3 1860 .P36x

No hay comentarios:

Publicar un comentario