O Google anunciou a expansão da função de pesquisa de arquivos na API Gemini para trazer recursos RAG multimodais mais completos para developers

O Google anunciou recentemente a expansão da função de pesquisa de arquivos na API Google Gemini, trazendo aos desenvolvedores recursos mais completos de geração aprimorada de recuperação multimodal (RAG). O núcleo desta atualização inclui: suporte para recuperação mista de imagens e texto, suporte para filtragem personalizada de metadados, novo suporte de referência em nível de página e acessibilidade e precisão aprimoradas de sistemas de IA em cenários como bases de conhecimento empresariais, perguntas e respostas de documentos e agentes.

De acordo com o blog oficial do Google, a nova versão da função de pesquisa de arquivos não está mais limitada à pesquisa tradicional de vetores de texto, mas é baseada na capacidade de incorporação multimodal unificada construída no Gemini Embedding 2, que pode compreender simultaneamente o conteúdo visual e o conteúdo de texto em imagens, PDFs e documentos. Os desenvolvedores não precisam construir bancos de dados vetoriais complexos, incorporar pipelines ou sistemas de segmentação de documentos e podem concluir o fluxo de trabalho RAG completo diretamente na API Gemini.

Nos sistemas RAG tradicionais, o conteúdo visual, como imagens, gráficos, capturas de tela e desenhos de projeto, costuma ser difícil de indexar de forma eficaz, o que resulta na falta de compreensão contextual nas respostas de IA. O novo recurso de pesquisa de arquivos multimodal da API Gemini pode identificar nativamente o conteúdo em imagens e construir um índice de pesquisa junto com o texto. Por exemplo, as empresas podem fazer upload de arquivos PDF contendo imagens de produtos, gráficos de dados ou diagramas de arquitetura técnica, e a IA pode compreender simultaneamente as informações visuais e as descrições de texto ao responder.

O Google afirma que esse recurso é particularmente adequado para a construção de assistentes de conhecimento de nível empresarial, robôs de atendimento ao cliente, sistemas de análise de documentos e agentes de IA. Os desenvolvedores podem fazer com que os modelos realizem inferências com base em documentos internos sem a necessidade de manutenção adicional de sistemas independentes de recuperação de imagens. Para empresas com uma grande quantidade de dados mistos de imagem e texto, isso significa menor complexidade de implantação e maior precisão de recuperação.

Outro novo recurso é a filtragem personalizada de metadados. Os desenvolvedores podem adicionar metadados como tags, categorias, horário e departamentos aos arquivos carregados, para que possam ser filtrados de acordo com os metadados durante a recuperação subsequente para melhorar a precisão e a eficiência. Isso também é mais adequado para gerenciamento de base de conhecimento em larga escala e reduz a entrada de conteúdo irrelevante na janela de contexto.

Outra característica importante é a citação no nível da página. Ao gerar respostas, o Gemini AI pode marcar claramente de qual página do documento as informações vêm, em vez de apenas referenciar vagamente o arquivo inteiro. Isso permite que os usuários cliquem para visualizar a página específica do documento após obter a resposta para julgar a exatidão do conteúdo e ler o documento completo para obter mais informações.

Atualmente, a nova versão da função de pesquisa de arquivos da API Google Gemini está aberta a todos os desenvolvedores. Os desenvolvedores interessados podem abrir a API Gemini por meio de plataformas como Google AI Studio e Google Cloud para experimentá-la.

Guia do desenvolvedor: https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878