Folha comemora 100 anos com projeto de indexação de 2,5 milhões de fotografias históricas na nuvem

Sobre Grupo Folha

O Grupo Folha é um dos principais conglomerados de mídia do Brasil. Controla o jornal e o site da Folha de S. Paulo, o instituto de pesquisa Datafolha, a agência de notícias Folhapress, o parque gráfico CTG-F, as empresas de logística e distribuição Transfolha e SPDL e a gráfica FolhaGráfica.

Setores: Media & Entertainment
Sede: Brasil

Conte qual é o seu desafio. Queremos ajudar você.

Entre em contato

Sobre Assetway

A Assetway oferece uma plataforma que utiliza tecnologias de inteligência artificial do Google Cloud para a gestão de ativos digitais em nuvem.

Em parceria com o Google News Initiative e a Assetway, o projeto facilitou a busca por imagens em um acervo centenário e trouxe mais segurança aos arquivos, agora armazenados na nuvem do Google Cloud.

Resultados

  • Foram indexadas 2,5 milhões de imagens, 26 mil charges e 350 milhões de palavras.
  • O projeto evoluiu de 6 mil imagens processadas por mês para 200 mil por dia.
  • Facilidade de acesso ao acervo, otimizando o tempo, enriquecendo pautas e aumentando a produtividade das equipes.
  • Possibilidade de aumento de receita com a exploração comercial de imagens que antes eram de difícil acesso.
  • Maior segurança para a preservação de fotografias que remontam a um século de trabalho jornalístico.

Arquivos migrados totalizam 10 TB de informação.

Se o trabalho jornalístico ajuda a compor um retrato da história, a Folha de S. Paulo tem um papel central no registro dos acontecimentos dos últimos 100 anos no Brasil. Fundado em 1921, um dos maiores jornais do país tem um rico acervo de materiais que contam desde passagens do cotidiano de São Paulo até fatos que transformaram profundamente a história do Brasil e do mundo. Somente seu acervo fotográfico possui mais de 27 milhões de fotogramas.

Todo esse material físico era armazenado em um andar inteiro de um dos prédios do Grupo Folha, sob a cuidadosa manutenção da equipe do Banco de Dados da empresa. Após uma série de reestruturações na área em 2010, a equipe percebeu que seria necessário tomar novas medidas para garantir a segurança destes arquivos, que também reúnem os acervos dos extintos jornais Última Hora e Notícias Populares. Afinal, estes materiais representam cada um dos acontecimentos noticiados por estas publicações desde sua criação - ou seja, uma história de 100 anos em imagens.

Com um time de 15 pessoas trabalhando em dois turnos, iniciou-se um processo de digitalização de parte deste acervo para o servidor local do Grupo Folha. Os profissionais selecionaram as prioridades entre as 100 mil pastas de arquivos de acordo com as necessidades da redação e da Folhapress, agência de notícias do grupo. O trabalho intenso durou quatro anos, e envolveu tratamento das imagens, digitalização em scanners de alta velocidade, renomeação dos arquivos e reorganização dos materiais físicos.

As peculiaridades de cada imagem tornaram essa tarefa ainda mais complexa, já que havia fotografias em diferentes formatos e anotações no verso que também precisavam ser digitalizadas. “Era uma linha de produção mesmo. Começava com a limpeza da foto e, no final do dia, ela já estava dentro da caixa-arquivo para ser armazenada”, conta Jair dos Santos, que coordenou o Projeto de Digitalização do Banco de Dados da Folha.

Foram processadas em média 6 mil imagens por mês, totalizando 2,5 milhões de fotos e 26 mil charges, em 10 TB de informação. Com o avanço da digitalização, entretanto, novas questões começaram a aparecer.

Além de tornar o processamento mais demorado, o servidor local não permitia a indexação dos arquivos. Uma busca de imagens poderia levar horas, não só pela lentidão no carregamento de fotos de alta resolução, como também porque muitas vezes era necessário pesquisar em dezenas de pastas diferentes, o que nem sempre atendia aos prazos urgentes da redação.

Por exemplo: uma busca por fotos do carnavalesco Joãosinho Trinta. Havia uma pasta específica com retratos do artista, mas também havia opções nas pastas de cada escola de samba em que ele atuou no Rio de Janeiro. Sem um mecanismo de categorização e busca por meio de palavras-chave, algumas das histórias deixavam até de ser contadas devido à dificuldade de encontrar fotos específicas.

“Muitas pautas caíam ou às vezes desistiam de colocar a foto por não conseguirem encontrá-la ou, quando a pasta era localizada, demorava muito para achar a imagem. Ficamos com esse grande elefante de mais de 2 milhões de fotos sem conseguir relacionar, porque não houve uma indexação”, explica o coordenador.

Acima de tudo, no entanto, o volume massivo de arquivos acumulados ao longo da história da Folha se apresentava como o maior desafio. Mesmo com o ritmo de trabalho constante da equipe dedicada à digitalização, as projeções eram de que levaria 35 anos para finalizar o acervo completo. “Era desanimador demais. Mesmo se tivéssemos uma verba maior, seriam anos e anos de trabalho”, diz Juliana Laurino, gerente administrativa das Redações e gerente geral da Folhapress e do Banco de Dados.

Um novo processo para a indexação automática

Este cenário se transformou em 2020, a partir de uma parceria com a Google News Initiative (GNI), programa global que contribui para impulsionar a inovação e a sustentabilidade digital no setor de notícias. Por meio da GNI, o Google cria produtos, estabelece parcerias, oferece treinamentos e elabora programas, ajudando empresas jornalísticas a desenvolver seus negócios no meio digital. “Trabalhamos junto com os parceiros identificando os desafios mais importantes para a indústria jornalística no momento e buscando resolvê-los por meio da tecnologia”, diz Erica Noda, gerente do time de parcerias no Google Brasil.

Inspirada por iniciativas anteriores entre o Grupo Folha e o Google e pelo caso de sucesso do programa com o jornal The New York Times, a equipe do Banco de Dados montou um projeto de parceria e o apresentou ao escritório da GNI no Brasil. Deu certo. O time abraçou a ideia e envolveu outro parceiro fundamental neste processo: a empresa Assetway, que oferece uma plataforma baseada em tecnologias do Google Cloud para a gestão de ativos digitais na nuvem.

Desde o início, ficou clara a sinergia entre o Projeto de Digitalização do Banco de Dados da Folha e o papel da GNI na região. “No caso da Folha, soubemos das dificuldades para a redação no seu dia a dia, que exige dinamismo e velocidade, de encontrar imagens e apurar fatos por meio de seu acervo. A tecnologia facilita e democratiza o acesso, além de guardar com mais segurança os dados”, afirma Erica.

“As conversas com o Google começaram quando estávamos super desanimados, rabiscando projeções. Foi um alento saber que seria possível e que enfim veríamos todo esse material indexado e à disposição da redação.”

Juliana Laurino, gerente administrativa das Redações e gerente geral da Folhapress e do Banco de Dados do Grupo Folha

O projeto consistiu na implantação da plataforma Assetway Media Center no Grupo Folha para a migração das imagens digitalizadas para um ambiente na nuvem - e, o mais importante, que permitisse a catalogação e busca das imagens de forma rápida e precisa.

O processo de implementação da nova plataforma durou cerca de um ano, grande parte dedicada à análise do acervo e adequações do sistema por parte da equipe da Assetway. “Não foi que construímos um sistema, entregamos e acabou. A essência desse projeto é de um processo contínuo de evolução, e prezamos muito pelo feedback do usuário. Frequentemente consultamos o Jair e fazemos reuniões com alguns usuários-chave dos setores da Folha para reunir suas impressões sobre o sistema”, esclarece Thiago Souza, gerente de Produto da Assetway.

Antes de iniciar a migração, foi preciso fazer um ajuste manual para que o mecanismo de indexação pudesse reconhecer de forma mais acurada as informações de cada arquivo, já que havia imprecisões e divergências nos nomes e textos escritos no verso das fotos. Este trabalho, denominado higienização, foi feito pelo time do Banco de Dados, que criou uma padronização e uma estrutura de taxonomia para facilitar a indexação automática.

Enfim, foi realizada a migração dos arquivos para o Assetway Media Center. Inteiramente baseada na infraestrutura do Google Cloud, a plataforma foi construída no modelo de microsserviços e é executada no Google Kubernetes Engine. O armazenamento dos arquivos é feito no Cloud Storage, e o processo de importação e processamento para tornar os arquivos pesquisáveis utiliza o Pub/Sub. É essa última ferramenta que também organiza as filas das tarefas para cada arquivo. Todos os recursos são monitorados 24 horas por meio do Cloud Monitoring e Cloud Logging. Uma arquitetura ideal para um projeto de grandes dimensões e complexidade.

Busca assertiva por meio da inteligência artificial

Outro importante componente da arquitetura é a API Vision, utilizada para o processamento de inteligência artificial no sistema. Essa tecnologia é fundamental para que a plataforma proporcione uma busca rápida e inteligente, já que consegue detectar textos e objetos nas imagens para criar metadados relevantes à indexação. Especialmente no caso do acervo da Folha, o reconhecimento de textos escritos à mão no verso das fotos via OCR (Reconhecimento Óptico de Caracteres) era um recurso que não poderia faltar.

“A escolha pelo Google Cloud tem muito a ver com a assertividade, porque há muitos modelos de inteligência artificial que são bons somente para inglês. Quando queremos detectar uma escrita à mão por OCR em português, as soluções do Google são as mais avançadas, reconhecem muito bem os detalhes.”

Thiago Souza, gerente de Produto da Assetway

No final de todo esse processo, foram indexadas 350 milhões de palavras relacionadas às imagens, que tornaram as buscas muito mais fáceis e precisas. A utilização da infraestrutura em nuvem para armazenar as fotos também agilizou o processamento, que saltou de 6 mil arquivos processados por mês para mais de 200 mil por dia. Imagens que até então se perdiam em meio a tantas pastas agora podem ser encontradas em questão de segundos.

O novo sistema começou a ser liberado aos poucos para algumas pessoas do núcleo de imagens da redação, que fizeram uma avaliação inicial. Em seguida, conforme foram feitos os ajustes, mais usuários passaram a utilizá-lo. Para o Grupo Folha, a plataforma refletiu no aumento da produtividade dos jornalistas e no enriquecimento de suas pautas, já que é possível localizar rapidamente uma grande variedade de fotos. A Folhapress também terá a possibilidade de aumentar sua receita ao explorar comercialmente estes materiais.

Um exemplo foram os próprios conteúdos especiais para o centenário da Folha, que incluíram reportagens e uma coleção de livros com fotos históricas publicadas no jornal. Produzidos entre o final de 2020 e o começo de 2021, culminando no aniversário de 100 anos do jornal em fevereiro, contaram em grande parte com a busca de imagens feitas na plataforma.

“Muitas imagens publicadas nas reportagens e nos livros da coleção do centenário não sairiam se não fosse o programa da Assetway. Demoraríamos muito para encontrar algumas coisas, porque um assunto poderia estar em até dez pastas diferentes. Na plataforma, encontramos apenas digitando.”

Jair dos Santos, profissional que coordenou o Projeto de Digitalização do Banco de Dados da Folha

Segurança para um acervo centenário

A preocupação com a segurança do acervo físico é uma realidade comum entre os veículos de imprensa. O Grupo Folha quase perdeu uma parte de seus negativos quando uma laje da sala onde estavam armazenados despencou durante um período de fortes chuvas em 2016. O próprio manuseio frequente de materiais tão antigos oferece o risco de danificá-los. Manter versões digitalizadas na nuvem contribui para a segurança do acervo e para que esse conteúdo não se perca, mesmo em casos de acidentes.

O risco de os arquivos digitais serem apagados por engano ou por danos nos servidores locais também é reduzido, já que estão armazenados na nuvem do Google Cloud, com diversos recursos de proteção e criptografia de dados. Por sua vez, o Assetway Media Center também oferece um nível de permissionamento detalhado, em que é possível configurar diferentes restrições de acesso aos usuários.

“Ouvimos vários relatos de outras empresas que perderam boa parte dos seus acervos por incêndio, inundação, às vezes por perda de arquivos mesmo, coisas que estavam em uma pasta e depois sumiram. Isso não acontece num ambiente de armazenamento altamente profissional como o do Google Cloud”, afirma o gerente de Produto da Assetway.

Com a segurança de 2,5 milhões de imagens resguardadas, o próximo plano do Grupo Folha é expandir o projeto para o restante do acervo. E mais: futuramente, conseguir digitalizar e indexar a coleção completa de edições do jornal, página por página. Uma iniciativa valiosa para marcar os primeiros 100 anos da Folha e que pode se tornar referência para todo o mercado de imprensa no Brasil.

“Tenho certeza que o nosso exemplo vai ajudar muito na preservação dessas histórias, que não são somente as histórias de empresas. Não é uma história da Folha, dos jornais. É uma história do país, da sociedade”, conclui Juliana.

Conte qual é o seu desafio. Queremos ajudar você.

Entre em contato

Sobre Grupo Folha

O Grupo Folha é um dos principais conglomerados de mídia do Brasil. Controla o jornal e o site da Folha de S. Paulo, o instituto de pesquisa Datafolha, a agência de notícias Folhapress, o parque gráfico CTG-F, as empresas de logística e distribuição Transfolha e SPDL e a gráfica FolhaGráfica.

Setores: Media & Entertainment
Sede: Brasil

Sobre Assetway

A Assetway oferece uma plataforma que utiliza tecnologias de inteligência artificial do Google Cloud para a gestão de ativos digitais em nuvem.