NVIDIAhojeLançou o OpenReasoning-Nemotron, uma coleção de quatro modelos de inferência simplificados com 1,5 bilhão, 7 bilhões, 14 bilhões e 32 bilhões de parâmetros, todos derivados do DeepSeek R1 0528 com 67,1 bilhões de parâmetros. Ao compactar um enorme modelo de “professor” em quatro modelos de “alunos” baseados em Qwen-2.5, a NVIDIA permite experimentos de inferência avançados mesmo em dispositivos de jogos padrão, sem se preocupar com altas taxas de GPU e uso da nuvem.

A chave não são as técnicas sofisticadas, mas os dados brutos. A NVIDIA usou o pipeline NeMo Skills para gerar 5 milhões de soluções matemáticas, científicas e de código e, em seguida, aprimorou cada solução por meio de puro aprendizado supervisionado. Atualmente, o modelo de 32 bilhões de parâmetros obteve 89,2 pontos no AIME24 e 73,8 pontos na competição HMMT de fevereiro, enquanto mesmo a versão de 1,5 bilhão de parâmetros alcançou pontuações sólidas de 55,5 e 31,5 pontos.
A NVIDIA vê esses modelos como poderosos kits de ferramentas de pesquisa. Todos os quatro pontos de verificação estão disponíveis para download no Hugging Face, fornecendo uma base sólida para explorar inferências orientadas por aprendizagem por reforço ou personalizar modelos para tarefas específicas. Usando o modo GenSelect (múltiplas iterações por pergunta), é possível gerar múltiplas construções paralelas e selecionar a melhor resposta, resultando em um desempenho excepcional do modelo 32B que rivaliza ou até excede o alto desempenho o3 da OpenAI em vários benchmarks matemáticos e de codificação.


Como a NVIDIA treinou esses modelos usando apenas ajuste fino supervisionado e não aprendizado por reforço, a comunidade tem um ponto de partida claro e avançado para futuros experimentos de aprendizado por reforço. Para jogadores e entusiastas domésticos, se você tiver uma GPU para jogos mais poderosa, obtemos um modelo totalmente localizado que pode chegar muito próximo do que há de mais moderno.