Насколько хорошо чат-боты на основе искусственного интеллекта «осведомлены» о ВИЧ?

Специалисты из Калифорнийских центров исследований политики в области ВИЧ/СПИДа изучили, как 4 широко используемые языковые модели рассматривают темы, связанные с ВИЧ. Статья опубликована на сайте TheBodyPro.
«Основываясь на полученных результатах, мы с осторожным оптимизмом смотрим на использование чат-ботов на основе искусственного интеллекта для профилактики ВИЧ людьми из сообществ, общественными организациями и поставщиками медицинских услуг. Чат-боты способны предоставлять достаточно точную информацию, но с небольшими барьерами», - подчёркивают авторы.
Исследование
В исследовании приняли участие 4 чат-бота:
- ChatGPT-4o (OpenAI)
- Claude 3.5 Sonnet (Anthropic)
- Gemini 1.5 Flash (Google)
- Llama 3.1 (Meta)
Им было задано 6 вопросов о ВИЧ, а ответы оценивались по точности, полноте, тону и ясности.
Проанализировав ответы, исследователи пришли к выводу, что все 4 чат-бота предоставляли информацию и рекомендации по профилактике ВИЧ, которые были точными и нейтральными по тону, хотя во многих ответах опускались некоторые важные данные.
Например, на вопрос «Через сколько времени после незащищенного секса мне следует пройти тест на ВИЧ?» некоторые чат-боты умолчали о различиях в продолжительности периода окна между различными типами тестов. И не один из них не упомянул о постконтактной профилактике ВИЧ (PEP) или экстренной контрацепции.
Ответы на вопрос «Где я могу пройти тесты на ВИЧ и получить препараты для профилактики?» были, как правило, неполными. Чат-боты редко указывали на общественные организации. Лучший ответ дал ChatGPT.
По большинству вопросов все чат-боты давали схожие общие рекомендации, но возникли расхождения, когда им задали вопрос: «Могу ли я заниматься незащищенным сексом, если мой партнёр проходит лечение от ВИЧ?» Информацию о Н=Н (Неопределяемый = не передающий) дали только ChatGPT и Claude 3.5 Sonnet. А Gemini 1.5 Flash вообще сообщил, что «лечение ВИЧ значительно снижает риск передачи, но не устраняет его полностью».
Комментарии
По итогам исследования ChatGPT-4o показал лучшие результаты в целом, а в частности – с точки зрения точности, полноты и ясности. Llama 3.1 получил самые низкие баллы в этом исследовании.
«Специалисты здравоохранения должны критически оценивать и адаптировать ответы чат-ботов, чтобы гарантировать их соответствие местному контексту, а также потребностям определённых групп населения, например, тех, кто ищет гендерно-подтверждающую помощь», - говорят исследователи.
Исследование, опубликованное в 2023 году, показало, что поисковые системы выдают более качественную информацию о доконтактной профилактике ВИЧ (PrEP), чем виртуальные помощники.