Нейросети и врачи: ученые сравнили кто лучше в клиническом мышлении

Автор: Загудалина Диана
Фото: © A. Krivonosov

Чат-боты превзошли врачей в клиническом мышлении

Новое исследование, проведенное врачами-учеными из Медицинского центра Бет Исраэль Диконесс (BIDMC), показывает, что программа искусственного интеллекта ChatGPT-4 превзошла врачей-интернистов и врачей высшего звена двух академических медицинских центров в обработке медицинских данных и демонстрации клинического мышления.

Модели крупномасштабного языкового моделирования могут ставить диагнозы. Исследователи использовали ранее апробированный инструмент, разработанный для оценки клинического мышления врачей, называемый ревизированным индексом IDEA (r-IDEA). В эксперименте участвовали 21 врач высшего звена и 18 резидентов, каждый из которых работал над одним из 20 выбранных клинических случаев, состоящих из четырех последовательных этапов диагностического рассуждения.

Искусственный интеллект ChatGPT-4 также прошел через все 20 клинических случаев, получив одинаковые инструкции. Их ответы затем оценивались на предмет клинического мышления (оценка r-IDEA) и нескольких других показателей рассуждения. Исследование показало, что чат-бот получил самые высокие оценки по шкале r-IDEA, набрав медианный балл 10 из 10 для LLM, 9 для врачей высшего звена и 8 для резидентов. Однако боты также значительно чаще имели случаи некорректного рассуждения в своих ответах - значительно чаще, чем резиденты, что подчеркивает идею о том, что ИИ, скорее всего, будет наиболее полезен как инструмент для дополнения, а не замены человеческого процесса рассуждения.

Ранние исследования предполагали, что ИИ может ставить диагнозы, если ему предоставить всю необходимую информацию. Новое исследование показывает, что ИИ демонстрирует реальное мышление - возможно, лучшее мышление, чем у людей на протяжении нескольких этапов процесса, что позволит улучшить качество и опыт оказания медицинской помощи пациентам.