За лаштунками Claude: хто придумав Anthropic та ідею безпечного ШІ

Катерина Мещерякова
2 дні тому
Читати 7 хв

Як часто ви бачили родичів з однаковими поглядами на штучний інтелект? Даріо та Даніела Амодеї — саме такі. До того, як побудувати одну з найбільш потужних ШІ-компаній, обидва вже мали сильні кар’єри: Даріо — у фізиці та нейронауці, Даніела — в політиці та залученні талантів. Згодом їхні шляхи перетнулися в OpenAI, де вони ще чіткіше сформулювали для себе спільну позицію: штучний інтелект має розвиватися не лише швидко, а й безпечно.

HBJ розповідає про бекграунд засновників Anthropic, їхню роль у OpenAI та причини звільнення, і те, як вони започаткували власну компанію з фокусом на безпечність технологій.

Це перший текст із нашої серії матеріалів про Claude. У наступних розповімо про те, як Anthropic перетворила постійні релізи на конкурентну перевагу, технічні іновації Claude, і те, чи виходить у компанії балансувати між ідеями безпечного ШІ та контрактами з державою.

Даріо Амодей

Ще зі школи Даріо Амодей тягнувся до науки — і поступово ця цікавість привела його до штучного інтелекту. Він починав навчання у Каліфорнійському технологічному інституті, а бакалаврат із фізики завершив у Стенфорді. Далі була аспірантура в Принстоні, де він досліджував зв’язок між фізикою й нейронаукою.

Після захисту дисертації він ще ненадовго повернувся до Стенфорда, але справжній поворот стався після переходу в ШІ-індустрію. У 2014 році Даріо Амодеї приєднався до AI-відділу Baidu, де долучився до створення Deep Speech 2 — системи розпізнавання мовлення, яку видання MIT Technology Review включило до списку десяти найважливіших технологічних проривів 2016 року. Та саме в Google Brain він почав глибше замислюватися не лише про потужність моделей, а й про те, наскільки їм можна довіряти. Це був важливий зсув: від інтересу до можливостей ШІ до питання щодо його контролю і надійності.

Найважливіший етап у цій траєкторії почався в OpenAI. Саме там Амодей опинився всередині компанії, яка визначала темп усієї індустрії, і отримав доступ до роботи над моделями, що згодом стали переломними для ринку. Він став однією з ключових фігур дослідницького напряму, працював над масштабуванням моделей, зокрема над ідеєю, що збільшення даних, обчислень і розміру систем відкриває для ШІ якісно нові можливості. На посаді Vice President of Research він брав участь у роботі, яка вивела OpenAI до GPT-2 і GPT-3, а також долучився до розвитку RLHF — підходу, що допоміг зробити моделі кориснішими, передбачуванішими й безпечнішими.

Досвід в OpenAI остаточно показав Амодею межу між технічним проривом і відповідальністю за його наслідки. Він побачив, як швидко штучний інтелект може ставати потужнішим, і водночас — як важливо не втратити над ним контроль. Це стало фундаментом для його подальшого рішення будувати Anthropic навколо безпеки, а не лише масштабування.

Даніела Амодей

Даніела Амодеї — молодша сестра Даріо Амодея та одна з ключових фігур у становленні Anthropic. Якщо Даріо прийшов у сферу штучного інтелекту через фізику, нейронауку та академічні дослідження, то шлях Даніели був зовсім іншим.

Вона вивчала англійську літературу, політологію та музику в Університеті Каліфорнії в Санта-Крусі, а початок її кар’єри був пов’язаний з міжнародними проєктами, політичними кампаніями та залученням талантів.

На ранньому етапі кар'єри Даніела працювала в IRIS Center і займалася програмами боротьби з бідністю, мікрофінансуванням і прямими грошовими виплатами. Потім був досвід в угандійській організації Conservation Through Public Health.

У 2012 році Даніела Амодеї долучилася до передвиборчої кампанії Метта Картрайта. Її запросили відповідати за організацію роботи з виборцями — від набору та координації волонтерів до реалізації кампанії безпосередньо в окрузі. Саме ця діяльність стала одним із чинників перемоги Картрайта, який спочатку здолав чинного конгресмена на праймеріз, а потім упевнено виграв загальні вибори.

Після цього Даніела приєдналася до тоді ще молодого бізнесу Stripe. Амодей починала як технічна рекрутерка, однак її роль швидко вийшла далеко за межі найму. Даніела допомогла масштабувати команду, а згодом перейшла в напрям ризиків, де аналізувала шахрайські кейси й керувала кількома командами, що зменшували фінансові втрати компанії.

Ще більше зона її відповідальності розширилася у OpenAI. Спочатку Даніела керувала командою, яка працювала над GPT-2, а згодом, на посаді Vice President of Safety and Policy, зосередилася на питаннях безпеки штучного інтелекту та формуванні політик у цій сфері. Відповідно, якщо Даріо приносив у Anthropic наукову глибину й бачення того, як розвивати потужні ШІ-системи, то внеском Даніели були навички роботи з людьми, ризиками, політиками та інституціями.

Від OpenAI до Anthropic

Попри те, що Даріо Амодей відіграв одну з ключових ролей у дослідницькій роботі OpenAI, з часом він дійшов висновку, що хоче рухатися власним шляхом. Його рішення не було пов’язане ні з партнерством OpenAI з Microsoft, ні з комерціалізацією технологій. Причина полягала в іншому.

«Протягом багатьох років у мене поступово сформувалося чітке бачення того, яким має бути розвиток штучного інтелекту і на яких принципах повинна працювати компанія, що його створює. Коли у вас є власне бачення, найкраще рішення — побудувати щось своє. Намагатися переконати інших у правильності цього підходу часто виявляється непродуктивним», — казав дослідник в подкасті Lex Fridman.

Такої ж позиції дотримувалася і Даніела. Брат і сестра вважали, що індустрія розвивається надто швидко: компанії створюють дедалі потужніші моделі, не маючи достатньо надійних механізмів контролю. На їхню думку, нові ШІ-системи слід було запускати лише після ретельного тестування та оцінки потенційних ризиків. Такий підхід неминуче сповільнював вихід продуктів, але для Амодеїв це була цілком прийнятна ціна за вищий рівень безпеки.

Ще одним принциповим питанням була прозорість. Даріо та Даніела виступали за те, щоб ШІ-компанії детальніше розкривали інформацію про ризики своїх моделей і дозволяли зовнішнім експертам оцінювати їхню безпечність. Вони вважали, що настільки потужні технології не повинні повністю залежати від внутрішніх рішень окремих компаній.

Саме тому у 2021 році Даріо та Даніела Амодеї разом із групою колишніх співробітників OpenAI заснували Anthropic. Це був закономірний крок для команди однодумців, які добре знали одне одного, роками обговорювали ризики, пов’язані з розвитком штучного інтелекту, і спільно шукали способи зробити ці технології безпечнішими. Нову компанію створили як майданчик, де питання безпеки та відповідального розвитку ШІ із самого початку стали пріоритетом.

Як Claude допоміг Anthropic закріпитися на ринку

На відміну від багатьох конкурентів, Anthropic робила ставку не тільки на збільшення можливостей моделей. Компанія зосередилася на AI safety та підході Constitutional AI — методі, який мав допомогти узгодити поведінку моделей із людськими цінностями (детальніше про нього розповімо у наступному блоці).

Першим великим результатом цієї роботи став Claude. У березні 2023 року Anthropic вперше представила свою мовну модель після закритого alpha-тестування з партнерами, серед яких були Notion, Quora та DuckDuckGo. Уже тоді стало зрозуміло, що Claude може бути не лише корисним, а й помітно безпечнішим та більш керованим, ніж багато інших моделей на ринку.

Далі Anthropic зробила те, що швидко змінило її позиції в індустрії: компанія почала не просто нарощувати якість моделей, а будувати власну конкурентну перевагу на практичній користі для складних задач. Claude 2 із контекстним вікном у 100 тисяч токенів, а згодом Claude 2.1 із 200 тисячами токенів зробили модель особливо сильною там, де важливо працювати з великими масивами інформації — довгими документами, кодовими базами та аналітикою. Для ринку це був важливий сигнал: Anthropic не просто наздоганяє лідерів, а пропонує інший стандарт того, яким корисним може бути ШІ у щоденній роботі.

По-справжньому закріпитися серед лідерів ринку Anthropic вдалося в березні 2024 року, коли компанія представила сімейство моделей Claude 3: Haiku, Sonnet і Opus. Саме цей реліз остаточно поставив Anthropic в один ряд із головними гравцями ринку: флагманський Claude 3 Opus уже напряму конкурував із GPT-4, а подекуди й перевершував його. А уже в червні, коли з’явився Claude 3.5 Sonnet, стало очевидно, що Anthropic може не лише випускати сильні флагмани, а й перегравати очікування ринку: модель середнього класу в багатьох сценаріях обігнала попередній топ, залишаючись швидшою і дешевшою.

Constitutional AI: технічна ставка Anthropic

Ключові принципи, на яких ґрунтується підхід Anthropic, компанія сформулювала в грудні 2022 року в науковій роботі Constitutional AI: Harmlessness from AI Feedback. У ній дослідники запропонували спосіб навчати ШІ так, ніби він не просто відповідає, а спершу звіряє свою відповідь із набором базових правил — своєю «конституцією». Ідея була в тому, щоб зробити поведінку моделі ближчою до людських цінностей, але без постійного ручного контролю з боку людей.

На той час основним способом налаштування мовних моделей був RLHF. Простими словами, люди переглядали відповіді моделі, оцінювали їх і цими оцінками допомагали їй вчитися далі. Підхід працював, але мав свої межі: він вимагав багато часу, коштів і залежав від того, наскільки послідовно й точно працюють анотувальники. А людські оцінки, як відомо, не завжди однакові — вони можуть змінюватися залежно від контексту, містити упередження або просто бути неточними.

Ще одна проблема RLHF полягала в тому, що моделі часто опинялися перед вибором: або залишатися корисними, але іноді відповідати небажано, або ставати надто обережними й уникати складних тем. В обох випадках щось важливе губилося — або точність, або відкритість.

Constitutional AI запропонував інший шлях. Замість того щоб кожного разу залучати людей до оцінювання, моделі дали набір принципів, за якими вона могла перевіряти й переписувати власні відповіді. Це трохи схоже на внутрішнього редактора: модель спершу генерує відповідь, потім сама ж перечитує її й уточнює, чи не суперечить вона заданим правилам.

Навчання відбувалося у два етапи. Спочатку модель створювала відповідь, оцінювала її з погляду цих принципів і формувала покращену версію. Саме на таких самовідредагованих прикладах її потім донавчали. На другому етапі, який отримав назву Reinforcement Learning from AI Feedback, одна ШІ-система створювала кілька варіантів відповіді, а інша визначала, який із них найкраще відповідає принципам «конституції». Так Anthropic будувала навчання без постійної ручної розмітки.

Результат виявився важливим не лише для досліджень, а й для ринку. Моделі, навчені за цим підходом, були водночас і кориснішими, і безпечнішими за ті, що навчалися традиційним методом RLHF. Це поставило під сумнів уявлення, ніби між якістю відповіді та безпечністю обов’язково треба обирати одне з двох. Замість того щоб просто уникати складних запитань, такі моделі могли пояснювати свою логіку й чітко окреслювати межі власної впевненості.

Важливо й те, що цей підхід виявився значно масштабованішим. Головним обмеженням став уже не людський час, а обчислювальні ресурси, а вони з роками дешевшають і стають доступнішими. Для Anthropic це було не лише науковим проривом, а й стратегічною перевагою: компанія отримала спосіб швидше навчати безпечні моделі, не спираючись надто сильно на повільний і дорогий людський фідбек.

Загалом, Anthropic виріс не з гонки за швидкістю, а з бажання побудувати інший тип штучного інтелекту — більш контрольований і передбачуваний. Але щоб ця ставка справді спрацювала, Anthropic треба постійно удосконалювати та покращувати свій продукт. Саме про це буде наступний текст серії — як нові фічі та релізи стали конкрурентною перевагою Claude.