Новая модель машинного обучения повышает точность прогнозирования рака печени
Исследователи из Германии разработали модель машинного обучения, которая способна прогнозировать риск развития гепатоцеллюлярной карциномы* (ГЦК) на основе демографических данных, электронных медицинских карт и результатов анализов крови. Работа опубликована в журнале Cancer Discovery.
Исследование
Текущие рекомендации по скринингу ГЦК ориентированы на пациентов с подтвержденным циррозом или тяжелым заболеванием печени, но многие люди из группы риска остаются вне поля наблюдения. Дополнительными факторами риска являются мужской пол, курение и чрезмерное употребление алкоголя.
Для обучения модели были использованы данные более 500 000 человек из британского биобанка, среди которых 538 случаев ГЦК, 69% из которых приходились на пациентов без ранее диагностированного цирроза или хронических заболеваний печени. Затем модель проверили на независимой выборке из США, где было более 400 000 участников и 445 случаев ГЦК. Разнообразные этнические группы в различных когортах позволили оценить, насколько алгоритм применим к разным популяциям и сохраняет точность прогнозов.
Модель использовала архитектуру случайного леса** и показала наилучшие результаты при объединении демографических данных, медицинских карт и анализов крови (AUROC*** 0,88). Добавление геномных или метаболомных данных почти не повысило точность модели, что означает: для надёжного прогноза достаточно обычных клинических данных.
В сравнении с существующими алгоритмами прогнозирования риска, включая FIB-4, APRI, NFS и aMAP, новая модель точнее выявляла истинные случаи ГЦК при меньшем числе ложноположительных результатов. Упрощенная версия модели, анализирующая всего 15 клинических признаков, также превзошла традиционные методы.
Комментарии
По мнению авторов, модель позволит врачам эффективно выявлять пациентов из группы риска для раннего скрининга ГЦК, что может улучшить прогноз и результаты лечения. Ограничениями исследования являются ретроспективный дизайн и низкая доля пациентов с вирусным гепатитом; для подтверждения эффективности модели требуется дополнительные исследования, заявляют эксперты.
Ранее опубликованное исследование показало, что к 2050 году число новых случаев рака печени может удвоиться. Эксперты призывают к международным инициативам по профилактике вирусных гепатитов и изменению образа жизни для снижения глобальной нагрузки.
*наиболее распространённый тип рака печени.
**Суть метода случайного леса заключается в создании большого количества независимых микро-прогнозов, которые затем объединяются в один максимально точный результат.
***ключевая метрика в машинном обучении, которая показывает общую эффективность модели в задачах классификации.