Notícias de 12 de janeiro: Um novo estudo descobriu que um algoritmo de computador usado para ajudar os médicos no tratamento de pacientes com esquizofrenia não se adapta bem a novos dados que não foram vistos anteriormente durante o desenvolvimento. Portanto, este tipo de IA médica tem um desempenho muito fraco quando se trata de avaliar a eficácia dos tratamentos em pacientes intocados.
Estas ferramentas médicas utilizam inteligência artificial para descobrir características em grandes conjuntos de dados e prever a resposta de um indivíduo a tratamentos específicos, o que está no cerne da medicina de precisão. Os profissionais de saúde esperam usar esta ferramenta para adaptar o tratamento a cada paciente. Num artigo publicado na revista Science, os investigadores observaram que o modelo de inteligência artificial poderia prever os resultados do tratamento para os pacientes incluídos na amostra de treino com um elevado grau de precisão. No entanto, ao lidar com dados de pacientes anteriormente não vistos, o desempenho do modelo caiu significativamente, para apenas um pouco melhor do que a adivinhação aleatória.
Para garantir a eficácia da medicina de precisão, os modelos preditivos precisam manter uma precisão estável sob diferentes condições e minimizar a possibilidade de vieses ou resultados aleatórios.
“Este é um grande problema que as pessoas ainda não percebem”, disse o coautor do estudo, Adam Chekroud, psiquiatra da Universidade de Yale, em New Haven, Connecticut. "Este estudo demonstra basicamente que os algoritmos ainda precisam ser testados em múltiplas amostras."
Precisão do Algoritmo
Os pesquisadores avaliaram um algoritmo comumente usado em modelos preditivos de psicose. Eles usaram dados de cinco ensaios clínicos antipsicóticos envolvendo 1.513 voluntários diagnosticados com esquizofrenia na América do Norte, Ásia, Europa e África. Os ensaios, realizados entre 2004 e 2009, mediram os sintomas dos voluntários antes e quatro semanas depois de tomarem um dos três medicamentos antipsicóticos.
A equipe de pesquisa usou o conjunto de dados para treinar um algoritmo para prever a melhora dos pacientes após quatro semanas de medicação antipsicótica. Primeiro, os investigadores testaram a precisão do algoritmo nos ensaios onde foi desenvolvido, comparando as previsões com os efeitos reais registados nos ensaios e descobriram que a precisão era elevada.
Eles então usaram uma variedade de métodos para avaliar a precisão com que o modelo de IA analisava novos dados. Os pesquisadores treinaram o modelo em um subconjunto de dados de um ensaio clínico e depois aplicaram-no a outro subconjunto de dados do mesmo ensaio. Eles também treinam o algoritmo em todos os dados de um ensaio ou conjunto de ensaios e, em seguida, testam o desempenho do modelo em outros dados de ensaios clínicos.
Verificou-se que o modelo de IA teve um desempenho fraco nesses testes, com as previsões produzidas pelo modelo parecendo quase aleatórias quando aplicadas a conjuntos de dados não treinados. A equipe de pesquisa repetiu o experimento usando diferentes algoritmos de previsão, mas obteve resultados semelhantes.
melhores testes
Os autores do estudo disseram que as suas descobertas destacam como os modelos de previsão clínica devem ser rigorosamente testados em grandes conjuntos de dados para garantir a sua fiabilidade. Uma revisão sistemática de 308 modelos de previsão clínica para resultados psiquiátricos descobriu que apenas cerca de 20% dos modelos foram validados em conjuntos de dados diferentes da amostra utilizada para o desenvolvimento.
“Devíamos pensar no desenvolvimento de modelos mais como o desenvolvimento de medicamentos”, disse Chekrud. Ele explicou que muitos medicamentos apresentam bom desempenho nos primeiros ensaios clínicos, mas enfrentam problemas em fases posteriores. “Temos que ser rigorosos sobre como desenvolvemos e testamos esses algoritmos, e não podemos fazer isso apenas uma vez e pensar que é verdade”.