O nível de decifração é próximo ao dos especialistas. A principal taxa de erro da IA do Google na interpretação de livros antigos é de apenas 0,56%

A plataforma AI Studio do Google está testando um modelo de IA sem nome e fez progressos importantes na decifração de manuscritos históricos ilegíveis. A taxa de erro do modelo no reconhecimento de caracteres principais é de apenas 0,56% e sua precisão está próxima do nível de pesquisadores profissionais nesta área.

O historiador Mark Humphries conduziu uma avaliação sistemática do modelo usando um conjunto de dados de referência criado especificamente para esse fim. Nos cinco manuscritos difíceis dos séculos XVIII a XIX abordados no teste, a taxa geral de erro de caracteres do modelo foi de cerca de 1,7%. A maioria dos erros ocorreu em questões não essenciais, como especificações de pontuação e letras maiúsculas, e não afetou o reconhecimento correto das próprias palavras.

Se estes erros não críticos forem excluídos, a taxa de erro de caracteres do modelo pode ser ainda reduzida para 0,56%, o que equivale a apenas um erro substantivo para cada 200 caracteres transcritos. Seu desempenho já é comparável ao de profissionais que se dedicam à transliteração de documentos.

Os manuscritos de teste cobrem uma ampla gama de estilos de escrita, incluindo situações complexas, como caligrafia ilegível, ortografia fora do padrão e gramática inconsistente, verificando totalmente a forte adaptabilidade do modelo.O que é mais digno de nota é que este modelo pode não apenas completar a transcrição do texto, mas também demonstrar certas capacidades de raciocínio contextual.

Por exemplo, ao processar o diário de um comerciante do século XVIII, o modelo encontrou um registro de compra de açúcar de “145” sem rotulagem de unidade. Ao verificar o total da conta e combiná-lo com a moeda britânica e os sistemas de unidades de peso da época, deduziu com sucesso que o valor representava "14 libras e 5 onças".

Humphries também destacou que a avaliação atual ainda tem certas limitações. Como esse modelo só aparece esporadicamente na forma de testes A/B, é difícil realizar verificações sistemáticas em larga escala. Atualmente, apenas cerca de 10% das amostras do conjunto de dados de referência foram avaliadas.