Os dados de treinamento de inteligência artificial são caros e mais adequados para empresas de tecnologia com muito dinheiro. É por isso que a Universidade de Harvard planeja divulgar um conjunto de dados públicos de cerca de 1 milhão de livros de domínio público de vários gêneros, línguas e autores, incluindo Dickens, Dante e Shakespeare, que não são mais protegidos por direitos autorais devido à sua idade.

O novo conjunto de dados ainda não foi lançado e não está claro quando ou como será lançado. Os livros que contém são do Google Books, o projeto de digitalização de livros de longo prazo do Google, portanto o Google estará envolvido no lançamento "das amplas aplicações deste tesouro de livros".

A Universidade de Harvard apresentou pela primeira vez a Iniciativa de Dados Institucionais (IDI) em março, delineando seus planos para criar um “canal confiável para dados jurídicos de inteligência artificial”. No entanto, houve poucas notícias sobre o programa até o seu lançamento oficial hoje, com o IDI recebendo apoio financeiro da Microsoft e OpenAI.

Greg Leppert, diretor executivo do IDI, disse que o conjunto de dados tem como objetivo “nivelar o campo de jogo”, abrindo um conjunto de dados tão grande para qualquer pessoa que queira treinar grandes modelos de linguagem (LLMs), desde laboratórios de pesquisa até startups de IA.