ИИ успешно сдал медицинские экзамены в США

10 Февраля 2023, 14:05 / 1376 0

ChatGPT смог пройти известный своей сложностью медицинский экзамен в США. Он дает право на получение медицинской лицензии. По мнению исследователей, это впечатляет и удивляет.

ИИ дал 52-75% правильных ответов в этом тесте из трех частей для студентов-медиков и интернов. Для большинства ответов как с несколькими вариантами, так и со свободным формулированием результаты ChatGPT были выше 60% – порог, при котором тест считается пройденным.

ChatGPT вызывает ажиотаж во всем мире, потому что эта адаптивная система искусственного интеллекта генерирует ответы и тексты беспрецедентного качества. Даже специалисты и разработанные для этого алгоритмы с трудом могут отличить его тексты от человеческих. За ChatGPT стоит нейронная сеть, обученная на миллионах текстов из интернета и других источников. На основе статистических вероятностей адаптивная языковая модель определяет, какое слово с наибольшей вероятностью будет следовать дальше.

Таким образом, система ИИ ничего не «знает» о содержании, она только отображает языковые шаблоны и при этом выдает удивительно правильные и логичные тексты. ChatGPT может даже создавать и редактировать убедительные научные рефераты.

Тиффани Кунг из Массачусетской больницы общего профиля в Бостоне и ее коллеги изучили, насколько хорош ChatGPT в медицинской экспертизе. Для своего исследования они заставили бота сдать экзамен на получение медицинской лицензии в США (USMLE), медицинский тест, состоящий из трех частей, который американские студенты-медики должны пройти на втором и четвертом курсах и после окончания учебы. ChatGPT получил 376 вопросов с июня 2022 года. Поскольку система ИИ не имеет доступа к интернету и последние обучающие тексты получила в январе 2022 года, она не могла знать эти вопросы.

Как и в медицинском тесте, ChatGPT получал задания в трех разных форматах. Первый – из вопросов с открытыми ответами, например, по диагностике описанной в вопросе клинической картины или о правильной терапии недуга. Вторая форма представляет тест с пятью возможными ответами, третья – тест с множественным выбором, в котором также необходимо использовать свободный текст, чтобы объяснить, почему вы выбрали этот ответ и отвергли другие. В большинстве случаев тест считается пройденным, если ответы верны примерно на 60%.

Результат для ChatGPT: если бы система ИИ была человеком, у нее был бы реальный шанс пройти медицинский тест. Потому что доля правильных ответов составляла 52-75%. «Это первый эксперимент с ИИ, достигший такого порога, что является удивительным и впечатляющим результатом», пишут Кунг и ее коллеги. «Хорошее выполнение этого заведомо сложного теста без специального обучения и помощи человека знаменует собой веху в развитии систем клинического ИИ».

Языковая модель показала себя особенно хорошо в ответах на открытые вопросы, набрав 68-75%. В простом тесте с несколькими вариантами ответов его процент попаданий был самым низким: 55-61%. Интересно, однако: хотя третья часть теста, предназначенная для квалифицированных врачей, является самой сложной, ChatGPT справился в среднем на 61-68,8% в зависимости от варианта задания. Соответственно, он прошел бы тест.

Около 95% ответов, сформулированных самим ChatGPT, были последовательными и правильными с медицинской точки зрения, как определили «слепые эксперты». Почти 90% ответов включали по крайней мере одно важное открытие или заключение, которое было неочевидным и клинически значимым. «Парадоксально, но результаты ChatGPT даже превосходят PubMedGPT, языковую модель с очень похожей нейронной структурой, которая обучалась исключительно на биомедицинской литературе», удивились исследователи.

По словам Кунг и ее коллег, системы искусственного интеллекта, такие как ChatGPT и другие, в настоящее время достигли уровня производительности, при котором они, безусловно, могут быть полезны в медицине. Первые адаптивные алгоритмы уже используются для оценки медицинских изображений и диагностики. Но в будущем студенты-медики также смогут использовать для обучения такие системы, как ChatGPT.

«Мы считаем, что языковые модели, такие как ChatGPT, достигли уровня зрелости, который вскоре повлияет на медицину в целом и может способствовать индивидуальному, сострадательному и масштабируемому здравоохранению», заявляют Кунг и ее команда. Ее клиника уже экспериментирует с тем, чтобы ChatGPT редактировал письма пациентов, чтобы сделать их более понятными для неспециалистов.