Богдан Кіт — про нативні платформи, концепт AI Native та голосових асистентів

Єлизавета Гогілашвілі
20 бер. 2024 р.
Читати 5 хв

Оновлено: 4 жовт. 2024 р.

Богдан Кіт, співзасновник фонду KOLO та VP of Product в Automattic, досліджує концепт AI Native. Ми дізнались в Богдана, що таке нативність у контексті продуктів, яких ШІ-рішень не вистачає людству й у чому майбутнє інтерфейсів. Ділимось головним із розмови.

Що таке нативні сервіси та як вони зʼявляються

Нативність виникає разом із платформою та використовує можливості, які та має.

З розвитком мобайлу зʼявився Uber та інші сервіси, які використовували геолокацію в реальному часі, що до цього було просто неможливо — не було мобільного девайсу, який би давав GPS-навігацію. Uber є нативною мобільною платформою, тому що використовує унікальні можливості смартфонів.

Нативні платформи зсувають наші поведінкові характеристики. Instagram зʼявився, тому що в телефоні з'явилися камери, і можливість фотографувати виросла в рази. Але ніхто не міг подумати, що люди почнуть показувати приватне життя тисячам підписників. Платформа стимулювала зміну поведінкових патернів.

Як створити нативний продукт

Щоби створити нативний продукт, потрібно зрозуміти, які спроможності відкрились завдяки новій платформі, і як їх поєднання в рамках одного пристрою чи віртуального середовища може змінити поведінковий патерн. Наприклад, CNN створює власного бота, який за заданими інтересами користувача шукає та інформує його про новини, може відповісти на уточнювальні питання і дати оцінку того, що відбувається.

Грати на випередження має сенс — варто досліджувати, як нові платформенні зсуви можуть змінити поведінкові патерни. Але варто також розрахувати запас ходу. У Facebook не спрацювала ставка на Metaverse, тому що компанія робила продукт так, ніби ми вже в метавсесвіті, але це не так. Тоді Facebook довелось сповільнітись і краще диверсифікувати продукт.

Нативність у контексті ШІ

Нативним ШІ буде вважатись будь-яке технологічне рішення, яке розвʼязує проблему користувача шляхом використання унікальних фіч ШІ. Питання у тому, як консолідувати унікальні спроможності, які ШІ відкрив — генерація тексту, розуміння контексту, створення картинок, аналіз візуального контексту.

Найбанальніший приклад — це голосовий асистент на кшталт Jarvis із «Залізної людини» — його всі хочуть повторити, зокрема, над ним працює OpenAI.

Голосовий асистент, який буде повноцінним власним помічником людини, стане першим AI ground breaking застосунком і змінить дуже багато. У контексті нативності важливо, що відбудеться конвергенція всіх спроможностей ШІ в одному місці.

Питання у тому, як поєднати хороший UX з технічними спроможностями ШІ — наразі забезпечити ефективний голосовий інтерфейс складно, тому що ШІ працює через хмари, і обчислення в клауді впливають на затримку відповіді. Через це розмова вже не виглядає природною. Свіжий приклад — робот Figure 01 від Figure AI та OpenAI. На відео помітно, наскільки повільні відповіді робота.

https://www.youtube.com/watch?v=Sq1QZB5baNw

З голосових інтерфейсів мені подобається застосунок Call Annie, де можна перебивати бота. Є інший продукт, Eleven Labs, де хороший голос з погляду емоцій і просодії, але ти не можеш його використовувати в лайв-режимі. Той, хто зможе поєднати ці два рішення, створить ШІ-нативний голосовий інтерфейс.

Є фундаментальні проблеми людства, і там ШІ може створити найбільше користі. Наприклад, дитяча освіта. Репетиторство є найбільш ефективною формою освітньої інтервенції. І в освіті ШІ дозволяє надати гіперперсоналізацію — кожна дитина може мати власного репетитора за замовчуванням. Компанії, які створять ефективного ШІ тьютора, будуть нативними.

Що потрібно компанії, щоб створити AI-native рішення

Важливо вміти ефективно поєднувати технологічні спроможності. Наприклад, якщо ми створимо голосового психолога, це буде ШІ-нативним рішенням, оскільки ми поєднали, генерацію тексту ChatGPT, озвучку від Eleven Labs і унікальний підхід до психотерапії (автоматизували процес, який раніше автоматизувати було неможливо через брак технологічної спроможності).

В першу чергу, компанії потрібні людські мізки й правильна культура. Тому що без якісного розуміння, на що спроможні технології, і водночас які проблем є в користувача, важко знайти рішення. Треба думати спочатку, яке ідеальне розвʼязання цієї проблеми можливе, і вже потім — як його можна втілити? Якщо це нереально, то чого не вистачає? І чи ми можемо це створити самі? При цьому не всі юзкейси потребують AI native рішення.

Зрозуміти потребу користувача можна експериментально. Наприклад, WordPress стоїть на 43,2% сайтів в інтернеті. Люди використовують систему, щоб управляти своїм контентом. Щоби побудувати вебсайт, треба розуміти, як працює HTML та CSS. Як можна переосмислити цей досвід? Можна, щоби ШІ створював вебсайт. Люди зможуть написати в текстовому інтерфейсі, який сайт потрібен, і він буде готовий за лічені хвилини. Це рішення і буде AI native, тому що буде давати якісно новий досвід використання.

Завдяки success-метрикам можна зрозуміти, чи буде рішення мати якісний вплив на проблему. Якщо ми зменшуємо кількість кроків, які людині треба пройти, щоби досягти результату, це є якісним покращенням досвіду.

Нині в індустрії вже є тяжіння до AI-native девайсів, наприклад, є Rabbit R1, який я бачив на виставці CES в Лас-Вегасі цього року. Це маленький мобільний девайс — по суті, ChatGPT в кишені.

Чим такий гаджет буде кращий за смартфон із застосунком ChatGPT? Розробники кажуть, що він матиме контекстуальну обізнаність — у межах простору, де ти перебуваєш, давати тобі поради. У смартфоні досвід обмежений тим, чого хоче платформа. Цей гаджет — спроба вийти за межі того, що дозволено Apple та Google. Чи вийде в них? Час покаже.

Я дуже вірю в концепт VR. Це просто якісно новий рівень досвіду в цьому середовищі, що людям і так подобається. Ми вже звикли до ескапізму — багато часу проводимо з Netflix, або у відеоіграх. Шанс на стрімкий розвиток поки є лише в Apple Vision Pro, тому що це якісно новий досвід і при цьому імерсивний.

Багато хто говорить, що основна проблема першого такого продукту, Google Glass, була в тому, що окуляри мали поганий вигляд. Facebook запартнерились із Ray Ban. Вони просто додали до окулярів свої технічні рішення. Я впевнений, що це було повʼязано з тим, що вони вивчили досвід Google Glass, і зрозуміли, в чому були їх помилки. Я думаю, що Google Glass зʼявились зарано — тоді ми ще не були готові до того, щоб носити гаджет на собі.

Чого не вистачає AI-рішенням, які оптимізують роботу

Рішень багато, але в них немає інтероперабельності. Наприклад, сьогодні мені треба провести сегментацію користувачів. В мене є список адрес їх вебсайтів. Якщо розвʼязувати задачу мануально, мені треба піти на кожний вебсайт, зрозуміти, який це тип бізнесу, яка індустрія, хто потенційний користувач цього сайту, хто його створив, яка його мета. Але я можу написати скрипт, який автоматично робить скриншоти усіх сайтів, і передає їх у ChatGPT Vision API. Потім я запитую, про що цей сайт. І таким чином за кілька годин у мене є вся інформація по цих сайтах. В ідеалі ChatGPT мав би передати дані ще кудись. Але для цього все ще потрібні сторонні рішення, що інтегрують застосунки. Наприклад, Zapier. І я витрачу на нього стільки часу, що простіше розвʼязати моє завдання мануально.

Рішення мають бути простими з погляду інтеграції. Наприклад, Google вже запустили Gemini, що має доступ до пошти. Але це все ще залишається в межах їхньої екосистеми. Найбільше мені не вистачає помічника в моєму робочому процесі, який би розвʼязував рутинні задачі й мав ряд готових інтеграцій на кшталт Basepilot.

Майбутнє інтерфейсів

Голос буде найефективнішим інтерфейсом взаємодії. Коли я їду в машині, мені простіше попросити Siri забронювати квитки, ніж переписуватися в чаті.

Я користувався застосунком для коучингу Wave.ai, і мені в цілому сподобався формат. Там був голосовий інпут, що значно спрощує взаємодію з інтерфейсом. Там якісні контекстуальні відповіді, а також дуже високий рівень персоналізації. Щоправда, голосової відповіді не було, і мені треба було все читати.

Водночас із людиною-коучем я говорю по Zoom. Це жива розмова. Тут цієї живості бракує, але це вже якісно новий досвід. І якщо цей коуч буде мати ще доступ до мого звичайного щоденного контексту, це буде на голову вищий досвід, тому що люди-коучі не можуть бути постійно поряд. Нам це поки здається диким, але й концепт Instagram Influencing було важко уявити років 15 тому.

Те, що відбувається у творах попкультури, є моделлю того, що буде можливо в реальному світі. Ми зараз йдемо до реальності книги та фільму Ready Player One. Перед тим був Blade Runner, де ми вперше побачили ШІ-компаньонів та голограми.

Зараз технології голограм існують, але вони дуже дорогі й у них не такий інтенсивний апгрейд. Якщо AI дозволить створити ці технології значно дешевше, це відкриє нові категорії нативних рішень.