Em um estudo recente, pesquisadores de Israel revelaram que modelos de linguagem grande (LLMs), como os chatbots, exibem um tipo de declínio cognitivo que se intensifica com o tempo, de forma similar ao que ocorre em humanos. A descoberta, publicada no BMJ (British Medical Journal), levanta questões importantes sobre a confiabilidade da inteligência artificial (IA), especialmente em áreas que exigem interpretação complexa e julgamento preciso.
A equipe de neurologistas Roy Dayan e Benjamin Uliel, do Hadassah Medical Center, juntamente com o cientista de dados Gal Koplewitz, da Universidade de Tel Aviv, submeteram diversos chatbots amplamente utilizados a uma série de avaliações cognitivas. Entre os modelos testados estavam as versões 4 e 4o do ChatGPT, duas versões do Gemini, da Alphabet, e a versão 3.5 do Claude.
Os testes aplicados incluíram o Montreal Cognitive Assessment (MoCA), um instrumento comum para medir habilidades mentais como memória, capacidades espaciais e função executiva. Os resultados revelaram que os LLMs tiveram um desempenho inferior em comparação com humanos saudáveis. Este estudo levanta questões importantes sobre o uso da tecnologia.
O ChatGPT 4o obteve a pontuação mais alta no MoCA, com 26 de 30 pontos possíveis, indicando um comprometimento cognitivo leve. O ChatGPT 4 e o Claude alcançaram 25 pontos, enquanto o Gemini obteve apenas 16, pontuação que, em humanos, sugeriria um comprometimento grave.
Uma análise mais detalhada dos resultados revelou que todos os modelos apresentaram dificuldades significativas em tarefas que envolviam habilidades visuoespaciais e executivas. Isso incluiu a incapacidade de completar tarefas como a construção de trilhas, a cópia de um cubo simples ou o desenho de um relógio sem instruções explícitas.
Em algumas respostas, os modelos demonstraram uma falta de consciência espacial semelhante à observada em pacientes com demência. Por exemplo, ao serem questionados sobre sua localização, o Claude respondeu que “o lugar específico e a cidade dependeriam de onde você, o usuário, está localizado no momento“.
Além disso, a falta de empatia demonstrada por todos os modelos em um teste do Boston Diagnostic Aphasia Examination foi interpretada como um possível sinal de demência frontotemporal.
Os pesquisadores observaram que as versões mais recentes dos LLMs geralmente apresentavam um desempenho melhor do que as versões anteriores, sugerindo que cada nova geração de IA está encontrando maneiras de superar as limitações cognitivas de seus antecessores. No entanto, eles enfatizam que os LLMs não são cérebros humanos e, portanto, não podem ser diagnosticados com demência.
O estudo questiona a ideia de que estamos à beira de uma revolução da IA na medicina clínica, uma área que frequentemente depende da interpretação de cenas visuais complexas. Os autores alertam que, embora o ritmo da inovação em IA continue a acelerar, é essencial tratar o aconselhamento fornecido por chatbots, mesmo os mais avançados, com um certo grau de ceticismo.
O estudo completo pode ser acessado em: https://doi.org/10.1136/bmj-2024-081948
Quer receber as principais notícias do Portal N10 no seu WhatsApp? Clique aqui e entre no nosso canal oficial.