O ex-desenvolvedor principal do Windows Dave Plummer executou com sucesso o modelo Transformer em um computador PDP-11/44 de 47 anos e completou o treinamento de IA com uma CPU de 6 MHz e memória de 64 KB.O modelo executado por este PDP-11 é denominado ATTN-11, escrito por Damien Boureille em linguagem assembly PDP-11, para implementar um transformador de camada única e cabeça única, contendo apenas 1216 parâmetros.

A tarefa do modelo parece simples, ou seja, inserir uma sequência de números e gerar o resultado invertido.Mas para completar esta tarefa, o modelo deve aprender de forma independente as regras estruturais da reversão de sequência. Plummer acredita que isso captura exatamente a essência de funcionamento dos grandes modelos modernos, como o ChatGPT.
Para funcionar em hardware extremamente limitado, o ATTN-11 fez muitas otimizações extremas. A precisão da propagação direta é reduzida para números de ponto fixo de 8 bits e cada ciclo da CPU é otimizado.
Finalmente, Plummer usou uma placa de cache paraApós cerca de 350 etapas de treinamento, o modelo atingiu 100% de precisão e todo o processo demorou cerca de 3,5 minutos.

Plummer descreve o processo de treinamento no vídeo:“O modelo começa estúpido, com altas perdas, e então, em algum momento, os pesos começam a convergir, o mecanismo de atenção descobre o mapeamento de inversão e a máquina cruza aquela linha invisível da adivinhação ao conhecimento.”
Seu ponto principal é que a essência da IA moderna não é algum poder misterioso, mas “a máquina atualiza repetidamente a força de milhares de conexões ponderadas, tornando a próxima resposta um pouco menos errada do que da última vez”.
Plummer finalmente destacou que, à medida que os recursos computacionais se tornam cada vez mais um gargalo, as empresas que puderem retornar à busca final por eficiência e otimização terão uma vantagem maior na futura competição de IA.
