Folha festeja 100 años con proyecto de indexación de 2.5 millones de fotos históricas en la nube

Acerca de Grupo Folha

Grupo Folha es uno de los principales conglomerados de medios de Brasil. Controla el periódico y el sitio Folha de S. Paulo, el instituto Datafolha, la agencia Folhapress, el parque gráfico CTG-F, las empresas de logística y distribución Transfolha y SPDL, y la imprenta FolhaGráfica.

Industrias: Media & Entertainment
Ubicación: Brasil

Cuéntanos sobre tu desafío. Estamos para ayudarte.

Comunícate con nosotros

Acerca de Assetway

Assetway ofrece una plataforma que utiliza tecnologías de inteligencia artificial de Google Cloud para gestionar activos digitales en la nube.

Gracias a Google News Initiative y Assetway, el proyecto facilitó la búsqueda por imágenes en una colección centenaria, y aportó más seguridad a los archivos, almacenados en la nube de Google Cloud.

Resultados

  • Indexó 2.5 millones de imágenes, 26,000 caricaturas y 350 millones de palabras.
  • El proyecto evolucionó de 6,000 imágenes procesadas mensualmente a 200,000 por día.
  • Facilitó el acceso al archivo, lo que optimizó tiempos, enriqueció artículos y aumentó la productividad de los equipos.
  • Posibilidad de mayores ingresos gracias a la exploración comercial de imágenes a las que antes era difícil de acceder.
  • Mayor seguridad para preservar fotografías que se remontan a un siglo de trabajo periodístico.

Los archivos migrados representan 10 TB de información.

Si consideramos que el trabajo periodístico ayuda a relatar la historia, Folha de S. Paulo ha jugado un papel clave en el registro de los acontecimientos de los últimos 100 años en Brasil. Fundado en 1921, es uno de los principales periódicos del país y cuenta con una rica colección de materiales, desde historias cotidianas de São Paulo hasta hechos que han revolucionado la historia de Brasil y del mundo. Solo su archivo fotográfico se compone de más de 27 millones de fotogramas.

Este material físico estaba almacenado en todo un piso de uno de los edificios de Grupo Folha, bajo la mirada atenta del equipo de Bases de Datos de la empresa. En el año 2010, luego de una serie de reestructuraciones en esta área, el equipo notó que sería necesario tomar nuevas medidas para garantizar la seguridad de estos archivos, que también reúnen colecciones de periódicos que ya no existen, como Última Hora y Notícias Populares. A fin de cuentas, estos materiales representan cada uno de los acontecimientos reflejados en estas publicaciones desde su creación. Estamos hablando de un siglo de imágenes.

Con un equipo de 15 personas distribuidas en dos turnos, la empresa comenzó un proceso de digitalización parcial de este archivo en el servidor local de Grupo Folha. Los profesionales seleccionaron archivos prioritarios entre las 100,000 carpetas según las necesidades de la redacción y de Folhapress, la agencia de noticias del grupo. Este intenso trabajo demoró 4 años y consistió en el procesamiento de las imágenes, la digitalización en escáneres de alta velocidad, la modificación del nombre de los archivos y la reorganización de los materiales físicos.

Las peculiaridades de cada imagen hicieron que esta tarea fuera aún más compleja, ya que las fotografías se encontraban en diferentes formatos y tenían anotaciones en el reverso que también debían ser digitalizadas. “Era una línea de producción en sí misma. Comenzábamos con la limpieza de la foto y, al finalizar el día, ya se encontraba dentro de la caja-archivo para su almacenamiento”, relata Jair dos Santos, que coordinó el Proyecto de Digitalización de Bases de Datos de Folha.

En promedio, se procesaron 6,000 imágenes por mes, con un total de 2.5 millones de fotos y 26,000 caricaturas, en 10 TB de información. Sin embargo, a medida que avanzaba la digitalización, nuevas cuestiones comenzaban a surgir.

Además de ralentizar el procesamiento, el servidor local no permitía indexar los archivos. Una búsqueda de imágenes podía demorar horas, no solo por la baja velocidad en la carga de fotos de alta resolución, sino también porque muchas veces era necesario buscar en decenas de carpetas diferentes, lo que no siempre coincidía con los plazos urgentes de la redacción.

Por ejemplo: una búsqueda de fotos de la figura de los carnavales Joãosinho Trinta. Había una carpeta específica con retratos del artista, pero también opciones en las carpetas de cada escuela de samba en las que participó en Río de Janeiro. Sin un mecanismo de categorización o de búsqueda por palabras clave, algunas de las historias dejaban de ser contadas debido a la dificultad de encontrar fotografías específicas.

“Muchos artículos se cayeron o, a veces, no colocábamos la foto por no encontrarla o, si podíamos localizarla, esto demoraba mucho tiempo. Nos quedamos con este gran monstruo de más de 2 millones de fotos sin poder relacionarnos, porque no había indexación”, explica el coordinador.

Sobre todo, el volumen masivo de archivos acumulados a lo largo de la historia de Folha se presentaba como el mayor desafío. Incluso con el ritmo de trabajo constante del equipo dedicado a la digitalización, las proyecciones indicaban que llevaría 35 años finalizar el archivo completo. “Era un pronóstico muy desalentador. Incluso si contáramos con un mayor presupuesto, serían años y años de trabajo”, expresa Juliana Laurino, gerenta administrativa de Redacciones y gerenta general de Folhapress y Bases de Datos.

Un nuevo proceso para la indexación automática

Este escenario cambió en 2020, a partir de una asociación con Google News Initiative (GNI), un programa global que contribuye a impulsar la innovación y la sostenibilidad digital en el sector de noticias. Por medio de la GNI, Google crea productos, establece asociaciones, ofrece capacitaciones y elabora programas, lo que permite ayudar a empresas periodísticas a desarrollar sus negocios en el medio digital. “Trabajamos junto con los socios identificando los desafíos más significativos para la industria periodística en la actualidad e intentando resolverlos por medio de la tecnología”, explica Erica Noda, gerenta del equipo de asociaciones de Google Brasil.

Inspirada por iniciativas anteriores entre Grupo Folha y Google, y por el caso de éxito del programa con el periódico The New York Times, el equipo de Bases de Datos montó un proyecto de asociación y lo presentó ante las oficinas de la GNI en Brasil. Funcionó. El equipo aceptó la idea e incorporó a otro socio fundamental en este proceso: la empresa Assetway, que ofrece una plataforma basada en tecnologías de Google Cloud para la administración de activos digitales en la nube.

Desde un principio, resultó clara la sinergia entre el Proyecto de Digitalización de Bases de Datos de Folha y el papel de la GNI en la región. “En el caso de Folha, identificamos las dificultades relacionadas con la redacción en el día a día, que requiere dinamismo y velocidad, así como encontrar imágenes y acontecimientos de archivo. La tecnología facilita y democratiza el acceso, además de guardar los datos”, afirma Erica.

“Las conversaciones con Google comenzaron cuando nos encontrábamos muy desalentados, bosquejando proyecciones. Fue una bocanada de aire fresco saber que sería posible y que, por fin, veríamos todo ese material indexado y a disposición de la redacción”.

Juliana Laurino, gerenta administrativa de Redacciones y gerenta general de Folhapress y de Bases de Datos, Grupo Folha

El proyecto abarcó la implementación de la plataforma Assetway Media Center en Grupo Folha para la migración de las imágenes digitalizadas hacia un entorno en la nube, que permitiera la catalogación y la búsqueda de imágenes en forma rápida y precisa.

Este proceso de despliegue de la nueva plataforma demoró casi un año, y la mayoría de este tiempo se dedicó al análisis del archivo y a los ajustes del sistema por parte del equipo de Assetway. “No desarrollamos un sistema, lo entregamos y listo. Este proyecto se basa esencialmente en un proceso continuo de evolución y valoramos mucho las opiniones de los usuarios. Con frecuencia consultamos con Jair y nos reunimos con algunos usuarios clave de las diferentes áreas de Folha para conocer sus comentarios sobre el sistema”, explica Thiago Souza, gerente de Producto de Assetway.

Antes de comenzar con la migración, fue necesario realizar ajustes manuales para que el mecanismo de indexación pudiera reconocer, de manera más acertada, la información de cada archivo, ya que existían imprecisiones y diferencias en los nombres y textos escritos en el reverso de las fotografías. Este trabajo, llamado higienización, estuvo a cargo del equipo de Bases de Datos, que creó una estandarización y una estructura de taxonomía para facilitar la indexación automática.

Por último, se migraron los archivos hacia Assetway Media Center. Esta plataforma, basada enteramente en la infraestructura de Google Cloud, fue desarrollada en base a un modelo de microservicios y se ejecuta en Google Kubernetes Engine. Los archivos se almacenan en Cloud Storage, y el proceso de importación y procesamiento para permitir las búsquedas está basado en Pub/Sub. Esta última herramienta también permite organizar las filas de tareas para cada archivo. Todos los recursos son monitoreados las 24 horas por medio de Cloud Monitoring y Cloud Logging. Una arquitectura ideal para un proyecto con un gran nivel de volumen y complejidad.

Búsquedas precisas con inteligencia artificial

Otro componente importante de la arquitectura es la API Vision, utilizada para el procesamiento de la inteligencia artificial en el sistema. Esta tecnología es fundamental para que la plataforma proporcione una búsqueda rápida e inteligente, ya que permite detectar textos y objetos en las imágenes y crear metadatos relevantes para la indexación. Especialmente en el caso del archivo de Folha, el reconocimiento de textos escritos a mano en el reverso de las fotos a través de un proceso de reconocimiento óptico de caracteres (OCR) era un recurso que no podía faltar.

“La elección de Google Cloud está estrechamente relacionada con la precisión, porque existen muchos modelos de inteligencia artificial que resultan eficaces solamente en idioma inglés. Cuando queremos detectar por medio del OCR texto escrito a mano en portugués, las soluciones de Google son más avanzadas y reconocen muy bien los detalles”.

Thiago Souza, gerente de Producto, Assetway

Al finalizar todo este proceso, se indexaron 350 millones de palabras relacionadas con las imágenes, lo que permitió que las búsquedas sean más fáciles y precisas. El uso de infraestructura en la nube para almacenar fotos también agilizó el procesamiento, que pasó de 6,000 archivos procesados por mes a más de 200,000 por día. Imágenes que hasta ahora se perdían entre tantas carpetas ahora pueden ser localizadas en cuestión de segundos.

El nuevo sistema comenzó a ser liberado paulatinamente para algunas personas del núcleo de imágenes de la redacción, para que lo evaluaran. En poco tiempo, a medida que se realizaban los ajustes, más usuarios empezaban a utilizarlo. Para Grupo Folha, la plataforma permitió aumentar la productividad de los periodistas y enriquecer sus artículos, ya que es posible localizar rápidamente una gran variedad de fotos. Folhapress también podrá incrementar sus ingresos al explorar comercialmente estos materiales.

Un ejemplo de esto han sido los propios contenidos especiales sobre el centenario de Folha, que incluían reportajes y una colección de libros con fotos históricas publicadas en el periódico. Estos contenidos, lanzados entre finales del 2020 y comienzos del 2021, y que culminaron con el centenario de la empresa en el mes de febrero, se apoyaron en gran parte en la búsqueda de imágenes a través de la plataforma.

“Muchas imágenes de los reportajes y libros de la colección del centenario no podrían haber sido publicadas sin el programa de Assetway. Habríamos demorado mucho en encontrar archivos, porque un tema podía estar en hasta diez carpetas diferentes. En la plataforma, solo necesitamos digitar para encontrarlos”.

Jair dos Santos, profesional que coordinó el Proyecto de Digitalización de Bases de Datos de Folha

Seguridad para un archivo centenario

La preocupación sobre la seguridad del archivo físico es una realidad que atraviesa todos los medios de prensa. Grupo Folha casi perdió parte de sus negativos cuando un sector del techo de la sala donde estaban almacenados se desprendió durante un período de fuertes lluvias en 2016. La manipulación misma de materiales tan antiguos representa un riesgo de daño. Mantener versiones digitalizadas en la nube contribuye a la preservación del archivo, para que no se pierdan los contenidos, incluso en caso de accidentes.

El riesgo de que los archivos digitales se eliminen por error o se dañen los servidores locales también se ve reducido, ya que están almacenados en la nube de Google Cloud, con diversos recursos de protección y encriptación de datos. A su vez, Assetway Media Center también ofrece un nivel de permisos detallados, y permite configurar diferentes restricciones de acceso a los usuarios.

“Escuchamos varios relatos de otras empresas que han perdido una buena parte de sus colecciones a raíz de un incendio, inundación, o por la pérdida misma de los archivos, cosas que estaban en una carpeta y después desaparecieron. Esto no sucede en un entorno de almacenamiento altamente profesional como el de Google Cloud”, afirma el gerente de Producto de Assetway.

Con la seguridad de haber resguardado 2.5 millones de imágenes, el próximo plan de Grupo Folha consiste en ampliar el proyecto y abarcar la porción restante del archivo. Más aún: en el futuro vislumbra digitalizar e indexar la colección completa de ediciones del periódico, página por página. Esta representa una iniciativa valiosa para marcar los primeros 100 años de Folha, que puede convertirse en una referencia para todo el mercado de prensa de Brasil.

“Tengo la certeza de que nuestro ejemplo va a contribuir mucho en la preservación de estas historias, que no solamente son las historias de las empresas. No se trata de una historia de Folha, de los periódicos, sino de nuestro país y de toda la sociedad”, reflexiona Juliana.

Cuéntanos sobre tu desafío. Estamos para ayudarte.

Comunícate con nosotros

Acerca de Grupo Folha

Grupo Folha es uno de los principales conglomerados de medios de Brasil. Controla el periódico y el sitio Folha de S. Paulo, el instituto Datafolha, la agencia Folhapress, el parque gráfico CTG-F, las empresas de logística y distribución Transfolha y SPDL, y la imprenta FolhaGráfica.

Industrias: Media & Entertainment
Ubicación: Brasil

Acerca de Assetway

Assetway ofrece una plataforma que utiliza tecnologías de inteligencia artificial de Google Cloud para gestionar activos digitales en la nube.