IA substitui médicos? Teste de Harvard em pronto-socorro surpreende

Um modelo de linguagem da OpenAI acertou o diagnóstico de pacientes em triagem hospitalar com uma taxa de 67%, contra 50% e 55% dos médicos avaliados no mesmo teste.

O resultado vem de um dos maiores estudos já conduzidos para comparar inteligência artificial e clínicos humanos em tarefas de raciocínio médico. A pesquisa, publicada na revista Science em 30 de abril, foi liderada por pesquisadores da Harvard Medical School e do Beth Israel Deaconess Medical Center, em Boston.

No experimento principal, 76 pacientes atendidos no pronto-socorro do Beth Israel tiveram seus casos avaliados por dois médicos internistas e pelos modelos o1 e 4o da OpenAI.

Dois outros médicos, sem saber qual diagnóstico era humano e qual era gerado por IA, avaliaram as respostas. O modelo o1 se destacou especialmente na triagem inicial, o momento em que há menos informações disponíveis e maior urgência na decisão.

Os dados inseridos no modelo vieram diretamente dos registros eletrônicos de saúde, sem nenhum tratamento prévio. "Não pré-processamos os dados", disse Adam Rodman, professor assistente de medicina da HMS no Beth Israel Deaconess e um dos autores seniores do estudo. Ou seja, a IA lidou com a mesma "bagunça" de informações que os médicos encontram na prática.

Em planejamento de tratamento, a diferença foi maior

Além da triagem, o estudo testou a capacidade dos modelos de elaborar planos de tratamento a longo prazo.

Em cinco estudos de caso clínico, a IA obteve pontuação de 89%, contra 34% dos 46 médicos humanos que participaram dessa etapa, que podiam usar ferramentas como mecanismos de busca.

"Testamos o modelo de IA em praticamente todos os benchmarks, e ele superou tanto os modelos anteriores quanto nossos médicos de referência", afirmou Arjun Manrai, professor assistente de informática biomédica no Instituto Blavatnik da HMS e coautor sênior do estudo, em comunicado da universidade.

Os pesquisadores apontam que os métodos tradicionais de avaliar IA médica, como provas de múltipla escolha, já não são capazes de medir o avanço dos sistemas atuais. "Os modelos estão obtendo notas próximas de 100%, e não conseguimos mais acompanhar o progresso", disse Peter Brodeur, pesquisador clínico da HMS no Beth Israel Deaconess e coautor do estudo.

A IA pode substituir médicos?

A resposta, com base no próprio estudo, é não. Ao menos não no cenário atual.

O modelo avaliado só processou informações em texto. Dados como o estado emocional do paciente, aparência física ou outros sinais clínicos captados presencialmente ficaram de fora dos testes. Isso, na prática, coloca a IA mais no papel de um consultor que analisa a papelada do que de um médico examinando o paciente.

"Não acho que nossos resultados significam que a IA substitui médicos. Acho que significa que estamos diante de uma mudança profunda na tecnologia, que vai remodelar a medicina", disse Manrai ao The Guardian.

Rodman propõe um modelo de cuidado "triádico" para a próxima década: médico, paciente e um sistema de IA trabalhando juntos. Para ele, os pacientes ainda vão querer que humanos os guiem em decisões de vida ou morte.

Há também uma crítica relevante sobre o desenho do estudo. Kristen Panthagani, médica de pronto-socorro, argumentou que comparar a IA com médicos internistas, e não com especialistas em emergência, limita o alcance das conclusões.

"Se vamos comparar ferramentas de IA com a capacidade clínica dos médicos, deveríamos começar comparando com médicos que realmente atuam naquela especialidade", escreveu em publicação comentada pelo TechCrunch.

O próprio Brodeur ressaltou que um modelo pode acertar o diagnóstico principal, mas também sugerir exames desnecessários que expõem o paciente a riscos. "Humanos devem ser o parâmetro final quando se trata de avaliar desempenho e segurança", afirmou.

A conclusão central dos pesquisadores é que os resultados justificam estudos clínicos prospectivos e controlados, o mesmo padrão exigido para qualquer nova intervenção médica.