"Projeto Gutenberg" usa tecnologia neural de conversão de texto em fala para lançar 5.000 audiolivros gratuitos

A popularidade dos audiolivros explodiu nos últimos anos devido à sua legibilidade, mas gravar audiolivros é difícil e caro. Recentemente, pesquisadores demonstraram um método automatizado usando conversão de texto em fala sintetizada que resolve muitos dos problemas enfrentados pela tecnologia e permite que usuários comuns produzam audiolivros. Agora os leitores podem ouvir milhares de audiolivros literários clássicos e outros materiais de domínio público gratuitamente através do Project Gutenberg. Pesquisadores da Microsoft e do MIT criaram a coleção digitalizando os livros usando software de conversão de texto em fala.

Esses textos incluem obras de Shakespeare, Agatha Christie, Jane Austen, Leonardo da Vinci e outros. Os usuários podem ouvir no InternetArchive, Spotify, ApplePodcasts e GooglePodcasts:

https://marhamilresearch4.blob.core.Windows.net/gutenberg-public/Website/index.html

O código usado para construir a coleção de audiolivros está disponível no GitHub:

https://github.com/microsoft/SynapseML

A Apple começou a vender audiolivros em janeiro deste ano usando tecnologia automática de conversão de texto em fala. No entanto, a tentativa foi recebida com ceticismo por parte do establishment literário, que critica os objetivos de negócios da Apple, e de dubladores que fornecem treinamento para a inteligência artificial da empresa. A abordagem de Gutenberg pode suscitar reações contraditórias porque é de código aberto e não tem fins lucrativos.

O Project Gutenberg passou décadas a construir um repositório de literatura gratuita em formato de texto que está amplamente disponível gratuitamente, mas os audiolivros podem tornar este material mais acessível. Os audiolivros são úteis para leitores que dirigem, realizam multitarefas, têm deficiência visual, estão aprendendo a ler ou aprendendo um novo idioma.

Produzir audiolivros usando métodos tradicionais envolve gastar tempo e dinheiro para que alguém leia o livro inteiro. Não é econômico gravar manualmente uma versão em áudio de cada livro que vale a pena ler. A tecnologia de conversão de texto em voz foi mais adequada para o Project Gutenberg. No entanto, os pesquisadores enfrentam vários obstáculos com suas ferramentas de aprendizado de máquina.

A primeira e mais importante questão é determinar quais livros digitais o software pode analisar. O Project Gutenberg coleta materiais em vários formatos e muitos dos arquivos contêm erros ou verificações imperfeitas. Assim, os pesquisadores se concentraram em livros armazenados no formato de arquivo HTML e construíram uma ferramenta (foto acima) para descobrir quais itens exibiam um formato semelhante.

Outro problema abordado pelos pesquisadores foi garantir que o sistema soubesse qual texto ler ou ignorar. Envolve componentes como índice, números de páginas, notas de rodapé, tabelas e outros materiais estranhos.

Além disso, o resultado precisa soar próximo o suficiente da fala humana natural. Os pesquisadores se concentraram nas expressões de voz que funcionam melhor para não-ficção e narração, mas os usuários também podem ajustar o software para experimentar leituras dramáticas.

Os pesquisadores planejam realizar uma demonstração que permitirá aos usuários gerar audiolivros com suas próprias vozes. Depois de gravar algumas frases para treinar o algoritmo, cada participante poderia ouvir uma amostra antes de o software ler o livro inteiro. Eles também receberão uma cópia do audiolivro por e-mail. Os usuários podem escolher entre vozes sintetizadas para personalizar cada audiolivro.

acesso:

Alibaba Cloud – Vouchers universais de até 1.888 yuans disponíveis imediatamente