O Google recentemente abriu o código-fonte de um novo vetorizador de texto multilíngue chamado RETVec no GoogleColab. Este vetorizador foi implantado no Gmail para melhorar a taxa de reconhecimento de spam e e-mails de phishing e, ao mesmo tempo, reduzir a taxa de falsos positivos. O Google diz que o RETVec é treinado para resistir a operações em nível de caractere, incluindo inserções, exclusões, erros ortográficos,Homógrafos, substituição LEET, etc. Este modelo é treinado com base em um novo codificador de caracteres que pode codificar efetivamente todos os caracteres e palavras UTF-8.

Por que treinar esse modelo? Como o Gmail envia e recebe dezenas de milhões de e-mails todos os dias, e se contiver vários tipos de spam, pode chegar a bilhões, e os spammers contornarão o sistema de detecção do Google, como o uso de homógrafos.

RETVec suporta mais de 100 idiomas e foi projetado para ajudar a construir uma classificação de texto mais flexível e eficiente no servidor e no dispositivo, ao mesmo tempo que é mais poderoso e eficiente.

De acordo com as próprias estatísticas do Google, após a aplicação do RETVec ao Gmail, a taxa de detecção de spam aumentou 38% em comparação com a linha de base, a taxa de falsos positivos foi reduzida em 19,4% e o uso da unidade de processamento de tensor (TPU) foi reduzido em 83%.

Os engenheiros do Google dizem que os modelos treinados com RETVec apresentam velocidades de inferência mais rápidas devido à sua representação compacta. Modelos menores podem reduzir custos computacionais e reduzir a latência, o que é fundamental para modelos em sistemas e dispositivos de grande escala.

A vetorização é um método em PNL, ou processamento de linguagem natural, usado para mapear palavras ou frases no vocabulário para expressões digitais correspondentes, a fim de realizar análises adicionais, como análise de sentimento, classificação de texto e reconhecimento de entidade nomeada.