Искусственный интеллект, все активнее внедряемый в медицину, демонстрирует тревожную тенденцию: он повторяет когнитивные ошибки, свойственные человеческому мышлению. Исследование, проведенное Джонатаном Вангом и Дональдом А. Редельмайером из научных институтов Торонто, показало, что продвинутые модели ИИ подвержены тем же систематическим отклонениям в суждениях, что и врачи-люди, причем часто — в более выраженной форме. Это ставит под сомнение представление об ИИ как о полностью объективном инструменте, свободном от человеческих слабостей.
Исследователи сосредоточились на десяти хорошо изученных когнитивных искажениях, имеющих прямое отношение к медицинской практике. Для каждого из них были созданы парные клинические сценарии-виньетки, идентичные по фактам, но различающиеся формулировками: одна версия провоцировала конкретную ошибку мышления, другая оставалась нейтральной. Например, в тесте на «эффект фрейминга» одна и та же операция по удалению опухоли легких описывалась либо как дающая 90 процентов выживаемости, либо как имеющая 10 процентов смертности. Модель ИИ продемонстрировала разительный контраст: в первом случае операцию рекомендовали 75 процентов синтетических клиницистов, созданных на ее основе, во втором — лишь 12 процентов. Разрыв в 63 процентных пункта оказался почти вдвое больше, чем у реальных врачей в аналогичных исследованиях.
Не менее выраженной оказалась «ретроспективная предвзятость» — склонность оценивать решение как ошибочное, если известен негативный исход. Когда результат лечения был плохим, ИИ в 85 процентов случаев оценивал его как неподходящий, но при положительном исходе — никогда. Сильно проявился и «эффект первичности»: если виньетка начиналась с упоминания кровохарканья, ИИ в 100 процентов случаев включал тромбоэмболию легочной артерии в список возможных диагнозов. Если же сначала упоминалась ХОБЛ, этот диагноз рассматривался лишь в 26 процентов случаев, несмотря на идентичные остальные данные.
При этом исследователи обнаружили и важное исключение: известный ИИ практически не проявил «пренебрежения базовыми показателями» — частой человеческой ошибки, когда врач игнорирует общую распространенность болезни при интерпретации теста. ИИ корректно оценивал вероятность заболевания в сценариях с высокой и низкой распространенностью с точностью 94 и 93 процента соответственно, тогда как живые клиницисты традиционно затрудняются с такими статистическими расчетами.
Отмечается, что характеристики, заданные виртуальным «врачам» — специальность, стаж, пол или место работы, — почти не влияли на степень предвзятости решений. Семейные врачи демонстрировали чуть более выраженные искажения, гериатры — чуть менее, но различия были статистически незначимы. Это подчеркивает, что предвзятость заложена в самой архитектуре модели, а не в смоделированных «личностях».
Авторы подчеркивают, что их работа имеет ограничения: использовались искусственные сценарии, а не реальные случаи, и изучалась лишь часть возможных искажений. Кроме того, модели ИИ постоянно обновляются, и в будущих версиях могут появиться механизмы защиты от таких ошибок. Однако сама природа этих искажений делает их трудными для исправления: они не являются явными заблуждениями, а вплетены в логику рассуждений, унаследованную из обучающих данных, которые включают всю медицинскую литературу и тексты из Интернета, не свободные от человеческих стереотипов.
«Врачам необходимо сохранять роль критически мыслящих специалистов, способных подвергать сомнению рекомендации алгоритмов, какими бы продвинутыми они ни казались», — заключают авторы исследования.