O teste de triagem de emergência de Harvard prova que o diagnóstico de IA é melhor do que médicos reais

Em dramas médicos, de George Clooney em “ER” a Noah Wyle em “ER”, os médicos de emergência há muito são retratados como heróis que salvam vidas. Mas um estudo mais recente de Harvard mostra que em situações de triagem de emergência de alta pressão, os sistemas de inteligência artificial ultrapassaram os médicos humanos em precisão de diagnóstico. Este resultado é descrito pelos investigadores como um ponto de viragem tecnológica que irá “remodelar a medicina”.

O estudo, publicado na revista Science e liderado por uma equipe da Harvard Medical School, é considerado por especialistas independentes como um “avanço real” nas capacidades de raciocínio clínico da IA, além de apenas passar em exames ou resolver questões de testes construídas artificialmente. O estudo utilizou um desenho experimental em grande escala para comparar centenas de médicos com um modelo de linguagem grande (LLM), concentrando-se na avaliação de diferenças de desempenho em cenários-chave, como triagem de emergência e planejamento de tratamento de longo prazo.

Em um dos experimentos principais, a equipe de pesquisa selecionou 76 pacientes reais que visitaram o pronto-socorro de um hospital em Boston. O sistema de IA e uma equipe de dois médicos humanos foram alimentados exatamente com os mesmos registros médicos eletrônicos padrão, incluindo dados de sinais vitais, informações demográficas e uma descrição de poucas frases da enfermeira sobre o motivo da visita. Dada esta informação limitada para fazer um diagnóstico inicial, a IA deu um diagnóstico preciso ou muito próximo em 67% dos casos, enquanto os médicos humanos acertaram apenas entre 50%-55% das vezes.

A investigação salienta que as vantagens da IA são particularmente proeminentes em cenários de triagem onde a informação é extremamente limitada e é necessário um julgamento rápido. Quando a IA e os médicos receberam informações clínicas mais detalhadas, a precisão do diagnóstico da IA (usando o modelo de inferência o1 da OpenAI) melhorou ainda mais para 82%, enquanto a precisão dos especialistas humanos variou de 70% a 79%, embora essa diferença não tenha sido estatisticamente significativa.

Além da triagem de emergência, a IA também demonstrou desempenho superior aos médicos na formulação de planos de tratamento de longo prazo. Num outro ensaio, a equipa de investigação pediu à IA que analisasse cinco casos clínicos com 46 médicos, com tarefas que vão desde a concepção de regimes de antibióticos até ao planeamento de planos de gestão a longo prazo, como processos de cuidados de fim de vida. Os resultados mostraram que as opções de tratamento fornecidas pela IA obtiveram pontuações significativamente mais altas, com uma pontuação de 89%, enquanto os médicos que confiaram em fontes tradicionais, como motores de busca, obtiveram apenas 34%.

Apesar disso, os pesquisadores enfatizaram que está longe de ser o momento de “anunciar a demissão dos médicos de emergência”. Este estudo apenas comparou as capacidades de diagnóstico da IA e dos humanos ao nível dos dados dos registos médicos que podem ser textificados, e não incluiu muitos sinais que são cruciais em situações clínicas reais, tais como expressões de dor dos pacientes, estados emocionais, linguagem corporal, e até mesmo informações não textuais, como interações com membros da família. Ou seja, neste estudo, a IA esteve mais próxima de um “médico de bastidores” que deu uma segunda opinião com base em informações em papel.

“Não acho que nossas descobertas signifiquem que a IA substituirá os médicos”, disse Arjun Manrai, um dos primeiros autores do estudo e diretor do AI Lab da Harvard Medical School. “Acho que isso significa que estamos testemunhando uma profunda mudança tecnológica que irá remodelar todo o sistema de saúde”. O colega autor principal Adam Rodman, clínico do Beth Israel Deaconess Medical Center em Boston, chamou os grandes modelos de linguagem de "uma das tecnologias de maior impacto nas últimas décadas". Ele previu que nos próximos dez anos a IA não substituirá os médicos, mas formará um novo "modelo de atendimento tripartido" com médicos e pacientes - "médicos, pacientes e sistemas de inteligência artificial".

O estudo também apresentou um caso clínico representativo: um paciente chegou ao hospital com coágulos sanguíneos pulmonares e piora dos sintomas. Os médicos humanos inicialmente julgaram que o tratamento com medicamentos anticoagulantes falhou, levando à progressão da doença; mas a IA percebeu um ponto-chave depois de ler o histórico médico: o paciente sofria de lúpus eritematoso, uma doença autoimune que também pode causar inflamação pulmonar. Após uma inspeção mais aprofundada, a inferência da IA provou estar correta.

A aplicação clínica da IA não permanece na fase laboratorial. Um grande número de médicos já o utiliza na prática. Quase um em cada cinco médicos dos EUA introduziu ferramentas assistidas por IA em seus procedimentos de diagnóstico, de acordo com uma pesquisa recente divulgada pela Associação Médica Americana. No Reino Unido, um novo inquérito do Royal College of Physicians revelou que 16% dos médicos utilizam esta tecnologia diariamente, e outros 15% utilizam-na uma ou mais vezes por semana, sendo o "suporte à decisão clínica" um dos cenários de utilização mais comuns.

No entanto, os médicos britânicos também expressaram grande vigilância em relação à IA quando foram entrevistados, especialmente preocupados com o risco de erros de diagnóstico da IA e questões de responsabilidade. Embora milhares de milhões de dólares tenham sido investidos em startups de IA médica em todo o mundo, quando a IA dá errado, como definir responsabilidades e quem suportará as consequências ainda é uma lacuna institucional urgente que precisa de ser resolvida. “Atualmente não existe um quadro formal de responsabilização”, destacou Rodman, sublinhando que os pacientes “em última análise, querem ser guiados, acompanhados e explicados por humanos” quando confrontados com decisões de vida ou morte ou planos de tratamento complexos.

A professora Ewen Harrison, codiretora do Centro de Informática Médica da Universidade de Edimburgo, disse que a pesquisa foi significativa porque mostrou que “esses sistemas não servem mais apenas para passar em exames médicos ou responder a perguntas de testes construídas artificialmente”. Na sua opinião, a IA está gradualmente a tornar-se uma “ferramenta de segunda opinião” útil para os médicos, especialmente em cenários onde é necessário classificar de forma abrangente diagnósticos potenciais e evitar perder causas importantes de doenças.

Ao mesmo tempo, Wei Xing, professor assistente da Escola de Matemática e Ciências Físicas da Universidade de Sheffield, no Reino Unido, também lembrou que alguns resultados do estudo mostram que quando os médicos colaboram com a IA, podem confiar inconscientemente nas conclusões da IA e enfraquecer o pensamento independente. “É provável que esta tendência aumente ainda mais à medida que a IA se torna utilizada rotineiramente em ambientes clínicos”, observou ele. Xing Wei também enfatizou que o estudo não revelou completamente em quais tipos de pacientes a IA tem pior desempenho, como se é mais difícil diagnosticar pacientes idosos ou pacientes que não são falantes nativos de inglês. Estas são questões que não podem ser ignoradas na avaliação da segurança.

Portanto, embora os resultados do ensaio de Harvard sejam encorajadores, não provam que a IA seja suficientemente segura para ser utilizada de forma rotineira e independente no diagnóstico e tratamento clínico, nem significa que o público deva recorrer a ferramentas gratuitas de IA como substituto do aconselhamento médico profissional. Num futuro próximo, é mais provável que a IA seja utilizada como um «estetoscópio inteligente» de alto desempenho e um «segundo cérebro» a ser incorporado no sistema médico liderado por humanos, promovendo diagnósticos e tratamentos mais precisos e eficientes, ao mesmo tempo que coloca novas questões sobre responsabilidade, ética e confiança perante a sociedade.