A Universidade de Ciência e Tecnologia Huazhong emitiu oficialmente um comunicado afirmando que uma equipe da Escola de Software da escola lançou o grande modelo multimodal “Monkey”.Este modelo é bom na descrição de imagens e perguntas e respostas visuais, e pode realizar a "observação" do mundo, conduzir perguntas aprofundadas e responder à comunicação e descrever imagens com precisão.


De acordo com a introdução oficial, em experimentos em 18 conjuntos de dados, o modelo Huake University Monkey teve um bom desempenho, especialmenteEm termos de descrição de imagem e tarefas visuais de perguntas e respostas, superou muitos modelos conhecidos existentes, como LLAVA da Microsoft, PALM-E do Google, Mplug-owl do Alibaba, etc.

também,O Monkey mostra vantagens significativas em tarefas de perguntas e respostas com uso intensivo de texto, superando até mesmo o líder reconhecido pela indústria GPT-4V em algumas amostras.

Uma característica distintiva do Macaco é sua excelente capacidade de “falar olhando fotos”. Na tarefa de descrição detalhada, o Monkey demonstrou sua capacidade de perceber detalhes da imagem e foi capaz de detectar conteúdo que outros grandes modelos multimodais ignoraram.

Outro destaque é a capacidade de processar imagens com resoluções de até 1344x896 pixels, que é 6 vezes o tamanho máximo que outros grandes modelos multimodais podem suportar atualmente.

É relatado que a resolução máxima das imagens atualmente processadas pela indústria é de 448×448 pixels.

Vale ressaltar que a equipe tornou o código Monkey open source no GitHub, a maior plataforma de serviço de hospedagem de código do mundo.