ШІ проти вірусів. Чи зможуть алгоритми передбачити наступну пандемію

Єлизавета Гогілашвілі
18 трав.
Читати 4 хв

30 грудня 2019 року канадський стартап BlueDot, що займався відстеженням інфекційних хвороб за допомогою машинного навчання, зафіксував кластер випадків «атипової пневмонії» в китайському Ухані. Компанія повідомила своїх клієнтів з державного і корпоративного секторів. Світ дізнався про COVID-19 тільки за пʼять днів.

Пройшло шість років. 2 травня 2026 року ВООЗ отримала повідомлення про спалах хантавірусу на нідерландському круїзному судні MV Hondius. Як виявили пізніше, як мінімум 12 пасажирів та членів команди захворіли на вірус Андеc — єдиний з хантавірусів, що може передаватися від людини людині. Інформацію про спалах від ВООЗ опублікували за цілих три тижні з першої смерті на борту.

Як змінюється розпізнавання епідемій і чому ШІ-системи на кшталт BlueDot не допомогли передбачити спалах хантавірусу — розбирається HBJ.

Як ШІ-моніторинг та аналіз ризиків допомагають швидше виявляти епідемії / MacIntyre et al., Journal of International Medical Research

Ключові проблеми ШІ у передбаченні епідемій

ШІ-епідеміологи звикли до мегаполісів

У ситуації з COVID-19 алгоритмам BlueDot вдалося не тільки знайти початкові спалахи, а й точно назвати 11 міст, де у першу чергу буде поширюватися вірус. Компанія спиралась, зокрема, на глобальні дані продажу авіаквитків. Крім цього, система була налаштована на специфіку міст із їхньою щільністю і кількістю контактів для мешканців.

Тому BlueDot та ідентичні системи, натреновані ідентифікувати сигнали популяції багатомільйонних міст не змогли передбачити вірус в ізольованому мінливому середовищі (на кораблі).

Точність ШІ залежить від розповсюдженості хвороби

Спалах хантавірусу показав, що здатність ШІ бачити можливу епідемію напряму повʼязаний із кількістю даних, які аналізує модель.

Чим більше зареєстрованих хвороб, а відповідно й даних для навчання, тим кращим буде перформанс моделі. Для рідкісних хвороб (якою і є вірус Андес) точність передбачень нижча. Про це ще минулого року писали вчені з Каліфорнії, які навчали ШІ на 4,5 млн історій хвороб пацієнтів мережі Kaiser Permanente з 2010 по 2022 рік.

Моделі, натреновані на даних одних регіонів, показують гірші результати в інших

Як зазначають індійські дослідники, ШІ-моделі, навчені в специфічних географічних чи епідеміологічних контекстах, часто погано працюють в нових середовищах. На це впливають кліматичні розбіжності, різниця у системах охорони здоровʼя, поведінці населення та екології патогенів.

Так, модель, натренована на даних кітайського Шеньчженю, добре відрізняла хворих на туберкульоз людей від здорових у регіоні. Коли ж вона почала працювати з даними США, її чутливість зросла, а специфічність (здатність правильно ідентифікувати здорових — Ред.) впала. Тобто, модель стала занадто «тривожною», і 45 з 80 здорових людей назвала хворими на туберкульоз.

Логіка ШІ залишається «чорною скринькою»

Більшість ШІ-моделей працюють за принципом «чорної скриньки», коли ми маємо тільки результат, але не знаємо, як саме алгоритми до нього прийшли.

Якщо модель дає точний прогноз, але не показує причинно-наслідковий звʼязок, державні органи охорони здоровʼя не можуть спиратися на висновки ШІ.

Тим не менш, вчені вважають, що цю проблему розвʼяжуть гібридні моделі (які використовують методи глибинного навчання разом з інтерпретованими алгоритмами на кшталт дерев рішень — Ред.) та інструмент SHAP (SHapley Additive exPlanations), що вміє пояснювати прогнози алгоритмів.

ШІ-системи не поєднують сигнали з різних джерел даних

ШІ-алгоритми в епідеміології обробляють кожне джерело даних окремо і не здатні спіймати кореляції між ними.

Уявимо: міська лікарня фіксує сплеск випадків ГРВІ, мешканці міста пишуть у соцмережах про застуду з дивними симптомами, одночасно ВООЗ просить місцеву владу надати інформацію про атипові випадки пневмонії. Система бачить всі ці сигнали і не може поєднати їх у попередження про спалах.

Додатково їй заважає ще й те, що кожне з цих джерел оновлюється із різною швидкістю, містить дані різної якості і з різним рівнем деталізації.

Цю перешкоду також називають «connecting the dots problem».

ШІ-інструменти не можуть коректно працювати у глобальному масштабі

Дані різних частин світу, країн, регіонів підпорядковуються різним юрисдикціям. Вони обмежені різними нормами приватності та обміну інформацією (зокрема — заборонами на обмін медичними даними у реальному часі).

До того ж, EU AI Act — закон Євросоюзу, який регулює розробку, впровадження та використання ШІ-систем на території ЄС — позначає ШІ-інструменти для попередження епідемій як високоризикові. З серпня 2026 року ця частина закону набуває чинності в ЄС. Кожне рішення, що фіксуватиме ризик спалаху, повинно бути обґрунтовано документально і впроваджуватися під людським наглядом.

Кейс хантавірусу підсвітив цю проблему. Нідерландське судно відпливло з Аргентини, ендемічної країни по хантавірусу. Перший померлий на борту був громадянином Нідерландів. Вірус Андес підтвердила лабораторія в Південній Африці, а британський IHR Focal Point повідомив про спалах ВООЗ.

Крім цього, якраз напередодні — у березні 2026 року — Аргентина офіційно припинила членство у ВООЗ. Країна, де зафіксували зріст випадків хантавірусу вдвічі за рік, юридично вийшла з ВООЗ якраз перед тим, як стало відомо про першого хворого на борту MV Hondius.

У чому «штучні» епідеміологи кращі за людей

ШІ здатний передбачити хворобу швидше за лікаря-епідеміолога

Кейс BlueDots та COVID-19 — найвідоміший приклад, але існують і інші. Приміром, індійські дослідники навчили ШІ-алгоритм передбачати спалахи гарячки денге у місті Пуна за два місяці до виникнення.

У статті, опублікованої у січні 2025 року, науковці розповідають: у цьому мегаполісі підвищення температури до 27 °C у поєднанні з помірними опадами і високою вологістю створюють ідеальні умови для денге, яку переносять москіти.

Великі мовні моделі та NLP-алгоритми сканують текстові дані, написані десятками мов

LLM у реальному часі обробляють новини, публікації в соцмережах, пошукові запити та іншу відкриту інформацію різними мовами.

Це значно пришвидшує детекцію епідемії у порівнянні з ручними методами.

У країнах зі слабкою медичною інфраструктурою такі дані можуть стати єдиним джерелом для попередження епідемії.

ШІ бачить «повнішу» картину

Класичні статистичні моделі зазвичай бачать прості взаємозвʼязки. Наприклад, вони вважали, що спалахи лихоманки Західного Нілу повʼязані із підвищенням температури.

ШІ-моделі здатні знаходити неочевидні патерни, поєднуючи різні кліматичні фактори.

Так, у випадку гарячки Західного Нілу, ШІ зрозумів, що ризик епідемії зростає, коли посуха в регіоні поєднується зі спекою. Через посуху птахи збираються біля води, де є комарі, а спека пришвидшує розмноження вірусу. Здогадки ШІ пізніше підтвердили незалежні вчені.