
Останній понеділок січня 2025 року розпочався для Nvidia непогано: її ринкова вартість була рекордною у світі й становила понад $3,4 трильйона. Однак уже до вечора американський виробник мікросхем опустився на третє місце, поступившись першістю Apple та Microsoft. Цього ж дня компанія побила ще один рекорд: її капіталізація впала на 17% — це майже $600 млрд. Водночас впали показники індексів Nasdaq та S&P 500 — на 3,1% та 1,5% відповідно.
У Європі сталося дещо подібне: ціна акцій ASML, голландського виробника обладнання для виробництва мікросхем, впала більш ніж на 10%, а акції Siemens Energy, що виробляє апаратне забезпечення, пов'язане зі штучним інтелектом — на 21%.
«Постраждали» також 500 найбагатших людей світу, зокрема співзасновник Nvidia Дженсен Хуанг (він втратив $20,1 млрд, тобто 20% своїх статків), засновник Oracle Ларрі Еллісон ($22,6 млрд) та засновник Dell Майкл Делл ($13 млрд). Загалом найбагатші люди світу залишилися без $108 мільярдів.
Причину настільки амплітудного коливання ринку штучного інтелекту слід шукати у китайському місті Ханчжоу. Саме там знаходиться дослідницька лабораторія DeepSeek, яка і наробила галасу у всьому світі.
Що варто знати про DeepSeek
DeepSeek заснували 2023 року під крилом китайського хедж-фонду High-Flyer, який використовував машинне навчання для торгівлі акціями. Очільником нового проєкту став Лян Веньфен, один з трьох співзасновників High-Flyer. Лабораторія на пов'язана з торгівлею акціями й працює окремо від фінансового бізнесу High-Flyer.
Лян Веньфен почав скуповувати графічні процесори Nvidia ще 2021 року — до того, як США заборонили їхній експорт до Китаю. Спочатку всі розцінили цей крок як нове екзотичне хобі мільярдера, однак потім виявилося, що все не так просто. Випущені раніше графічні процесори Nvidia у парі з дешевшими мікросхемами, які все ще може імпортувати Китай, дозволили Ляну запустити чат-бот. Лян особисто бере участь у дослідженнях DeepSeek, а його кадрова політика щодо технічних фахівців базується на наймі молодих докторантів та недавніх випускників провідних китайських вишів.
У чому феномен DeepSeek
Перший чат-бот з’явився у грудні минулого року. Але по-справжньому дослідницькою лабораторією зацікавилися після випуску новішої моделі, DeepSeek R1. За можливостями продукт не поступається продуктам OpenAI, Google та Anthropic.

«Чутки, що ця модель краща — перебільшення. Це логічний розвиток технологій ефективного тренування моделей», — каже Ігор. Чим же DeepSeek вдалося так сильно вразити технологічний світ?
По-перше, для запуску нейромережі знадобилося близько 2048 чипів Nvidia та близько $6 млн, стверджують розробники. Це повністю змінює правила гри на ШІ-ринку, де провідні гравці не фокусуються на оптимізації процесі тренування та витрачають на них та підтримку інфраструктури мільярди доларів.

По-друге, DeepSeek R1 — open-source проєкт. Відкривати ваги моделі — це доволі розповсюджена практика: так давно роблять Meta, Google, Mistral, аби пришвидчити ШІ-революцію. «Деякі компанії стимулють використання своїх open source напрацювань. Meta, наприклад започаткувала ініціативу Llama Impact Grants, видаючи гранти за рішення з найбільшим впливом на основі своєї моделі Llama, а Google проводить конкурси на платформі Kaggle повʼязані з використанням open source моделі Gemma. Втім, DeepSeek пішли далі: вони опублікували технічний звіт для state-of-the-art моделі. Знову таки, подібні звіти викладали й раніше, але тоді мовні моделі не були настільки потужними. Зараз це роблять набагато рідше, тобто рішення DeepSeek — це майже безпрецедентний кейс», — говорить Ігор Крашений.
По-третє, командна значно просунулася у розвитку автономного навчання моделей ШІ, мінімізуючи залежність від великих обсягів даних і оптимізуючи використання обчислювальних ресурсів. Вони вдосконалили архітектуру своїх моделей за допомогою власних схем зв’язку між мікросхемами, зменшення пам’яті та інноваційного поєднання існуючих методів, як-от Multi-head Latent Attention (MLA) і Mixture-of-Experts. Найважливіше — моделі DeepSeek навчилися генерувати інформацію автономно завдяки чистому навчанню з підкріпленням і ретельно розробленим функціям винагороди. Вони також можуть генерувати довгі ланцюжки думок і навіть самостійно перевіряти власну роботу.
Ще одна особливість — цензура, яка, утім, не оминає й інші китайські чат-боти, як-от Ernie Bot від Baidu. На запитання про Сі Цзіньпіна, політику щодо уйгурів чи Тайвань DeepSeek R1 пропонує «поговорити про щось інше».
Оновлено: Perplexity уже інтегрувала R1 у свій сервіс — пошукову систему на основі штучного інтелекту. Завдяки цьому користувачі можуть уникнути цензури, оскільки дані оброблятимуться на серверах у США. Правда, щоб використовувати «прокачаний» пошуковик потрібна платна підписка.
Як відреагували ринки
Розробка DeepSeek R1 спричинила дискусію у Кремнієвій долині: чи вдасться американським компаніям зберегти першість у ніші штучного інтелекту.
Венчурний інвестор та засновник а16z Марк Андріссен назвав DeepSeek «одним із найдивовижніших і вражаючих проривів, які він коли-небудь бачив».
Олександр Ван, СEO Scale AI визнав, що модель від китайців «має найкращі або приблизно однакові з найкращими показниками американських моделей» і додав, що це «wake-up call для індустрії в Штатах».
Джим Фан, Senior Research Manager у Nvidia оцінив хід з open source код: «Ми живемо в часи, коли неамериканська компанія підтримує оригінальну місію OpenAI — справді відкриті передові дослідження, які дають змогу всім».
Сем Альтман, CEO OpenAI вважає, що «R1 дійсно вражаюча модель, особливо за свою ціну» (вартість обробки мільйона токенів у DeepSeek — $0,14, тоді як OpenAI бере за це $2,5 — ред.). Однак додав, що «ми [OpenAI] запропонуємо набагато кращі моделі», а «те, що у компанії з'явився новий конкурент, дуже надихає».
До релізу R1 ніхто не думав конкурувати з гігантами на кшталт OpenAI чи Meta на цьому полі. Але тепер «стало цілком зрозуміло, що інші компанії можуть створювати такі системи. DeepSeek використовував методи, які кожен може скопіювати», — говорить Тім Деттмерс, дослідник Інституту штучного інтелекту Аллена в Сіетлі та професор інформатики в Університеті Карнегі-Меллона.
Тим часом Лян став предметом національної гордості на батьківщині. Цього тижня його запросили на зустріч підприємців із другим за впливовістю у країні Лі Цяном. Підприємцям запропонували «сконцентрувати зусилля на прориві в ключових базових технологіях».

Утім, не встигнувши запуститися компанія уже зіштовхнулася з певними труднощами. По-перше, через день після запуску реєстрацію нових користувачів призупинили через масштабну кібератаку. По-друге, OpenAI звинуватила DeepSeek у використанні їхніх моделей для навчання власної нейромережі. Заявляють про ознаки «дистиляції» — методу, за якого вихідні дані потужніших моделей застосовують для покращення продуктивності слабших, що порушує умови користувацької угоди OpenAI.
Крім того, релізу багатообіцяючої моделі o3 від OpenAI ще не було, але, за чутками, її продуктивність у стандартних еталонних тестах була більш вражаючою, ніж будь-що інше на ринку.
«Глобальна експансія R1 можлива, і, ймовірно, роботи з продуктизації відкритої версії моделі вже ведуться. Люди люблять безкоштовне. Навіть OpenAI уже відреагував і знизив ціну для ChatGPT Plus до $10 для нових користувачів. Але я думаю, що такий прецедент призведе скоріше до більш агресивної гонки великих мовних моделей, і, замість гонитви за відсотками на бенчмарках, вони будуть ганятись ще і за відсотками в ефективності тренування й дешевизни продуктизації», — розмірковує Ігор Крашений.