Estudiante de la UNR crea un código para digitalizar un importante archivo

El joven participó en el desarrollo un algoritmo que permite digitalizar el archivo periodístico de Abuelas de Plaza de Mayo.

El estudiante de la Universidad Nacional de Rosario, Matías Naranjo Herper, obtuvo junto a dos compañeros el tercer puesto en el desafío “Inteligencia Artificial (IA) por la Identidad”, concurso que tuvo el objetivo de digitalizar y transcribir el archivo periodístico de Abuelas de Plaza de Mayo.

Esta convocatoria fue organizada por el Ministerio de Ciencia, Tecnología e Innovación de la Nación, junto con la Fundación Sadosky, y congregó a estudiantes de Computación, Ciencias de Datos y carreras afines de todo el país. “Supuestamente tenían digitalizada su biblioteca con recortes de diarios pero en realidad poseían imágenes con noticias escaneadas, lo que imposibilitaba el acceso total y sistematizado a ellas. La utilización de un OCR (Reconocimiento óptico de caracteres) no era una posibilidad debido a la complejidad y calidad de las imágenes.

Un OCR permite pasar imágenes a texto sin tener que copiarlo manualmente. El problema de esta herramienta es que al utilizar este proceso se generaban textos incomprensibles, mezclados con noticias que no tenían relación con la principal y con las publicidades propias que estaban incluídas en los recortes de diario. “Se planteó el desafío de poder encontrar una solución más efectiva. Dentro del desafío existieron algunos espacios cooperativos, se anotaron cerca de 200 personas, lo que permitió generar una pequeña base de datos de noticias transcriptas a mano que servía para chequear que los algoritmos que desarrollamos estén funcionando correctamente”.

A lo largo de 45 años de trabajo, las Abuelas de Plaza de Mayo produjeron una gran cantidad de documentación que registra las acciones que llevaron adelante en su búsqueda por restituir la identidad de las niñas y niños desaparecidos durante la última dictadura militar. Hoy en día, cuentan con un inmenso archivo de recortes periodísticos que preserva documentación de un gran valor histórico para la institución, sus familias y la sociedad. Además, constituye una fuente para la formación, la investigación y promueve el ejercicio de los derechos humanos. Las noticias recopiladas en tantos años de trabajo se alojaban en cerca de 30 gigabytes de imágenes, lo que presentaba un gran desafío para todos los equipos que se anotaron en esta convocatoria.

Naranjo Harper integró un equipo con otros dos jóvenes, Matias Bonfanti de la Provincia del Chaco y Joel Stanich de Córdoba. “Nuestra propuesta de solución fue hacer dos modelos de aprendizaje supervisado de reconocimiento de imagen. Trabajamos todo pensando en la noticia como una imagen. El primero de ellos es un modelo de segmentación: que permite reconocer cuantas noticias y publicidades hay en cada imagen. Las noticias son separadas y las publicidades descartadas. El modelo fué entrenado con mil imágenes etiquetadas a mano”, explicó y agregó: “El otro modelo es de clasificación: el mismo se encarga de clasificar las partes de las noticias (Titulo, cuerpo, epígrafes, bajada, copete, etc) y generar recuadros (bounding box) que pueden ser procesados individualmente. Este segundo modelo fue entrenado con 900 imágenes etiquetadas a mano”.

Esto permitió que se pueda utilizar un OCR en cada recuadro y ser transcrito automáticamente junto a su etiqueta. “Así pudimos hacer un archivo de texto donde se guardaba la información de cada noticia de manera ordenada,básicamente con una etiqueta de “título” teníamos el texto que poseía el Título. Esta es una propuesta de solución porque la realidad es que hay un montón de falencias dentro de las propias noticias: había algunas que estaban cortadas al medio, otras manchadas, escaneos movidos, noticias que ni siquiera eran reconocibles para el ojo humano”.

ver más
RLC Noticias de Rosario la ciudad

Comentarios