top of page

Майбутнє macOS на автопілоті: як MacPaw Research навчає ШІ керувати вашим комп’ютером

Майбутнє macOS на автопілоті: як MacPaw Research навчає ШІ керувати вашим комп’ютером — конференція INSCIENCE 2026


13-14 червня у Києві проходила науково-популярна та deeptech-конференція INSCIENCE Conference 2026. Одним із цьогорічних спікерів був Максим Шамрай, Senior AI Research Scientist у MacPaw Research — відділі продуктової компанії MacPaw, який займається дослідженнями.


Максим Шамрай, Senior AI Research Scientist у MacPaw Research

Максим розповів, над чим у галузі ШІ працює він та його команда. HBJ ділиться головним з його виступу. 


Що робить фреймворк Screen2AX і до чого тут доступність


Accessibility-дерево (дерево доступності) — це ієрархічне відображення інтерфейсу застосунку. Його структура виглядає так: 


  • Верхній рівень: кореневий вузол (вікно, AXWindow), 


  • Середній рівень: групи елементів (тулбари, бічні панелі, секції),


  • Кінцеві вузли: окремі елементи: кнопки (AXButton), текст (AXStaticText), поля вводу (AXTextArea), зображення (AXImage), посилання (AXLink). 


Кожен вузол має ім'я, роль, опис, позицію і розмір. 


Це дерево потрібно, по-перше, щоб люди з порушеннями зору могли користуватися застосунком; по-друге, щоб ШІ-агенти могли отримати текстове відтворення інтерфейсу. 

Проблема в тому, що лише 29% macOS-застосунків мають повну підтримку доступності, а 33% — взагалі її не мають. Яскравий приклад — GitHub Desktop: підтримку accessibility мають лише кнопки у верхній панелі. Тобто агент може лише закрити застосунок, і більше нічого.


Для розв’язання цієї проблеми команда розробила Screen2AX — фреймворк, який будує повне accessibility-дерево macOS-застосунку з одного скриншоту.


Фреймворк розпізнає UI-елементи через Object Detection, а через опис за допомогою vision-language моделі, власне, генерує accessibility-дерево. 


Оцінка показала, що якість ШІ-агентів покращилася вдвічі. 


Для порівняння: ліворуч — оригінальний інтерфейс застосунку, по центру — дерево доступності, згенероване вбудованими інструментами macOS, праворуч — дерево, створене за допомогою Screen2AX.


ліворуч — оригінальний інтерфейс застосунку, по центру — дерево доступності, згенероване вбудованими інструментами macOS, праворуч — дерево, створене за допомогою Screen2AX
Джерело: MacPaw


GUIrilla: автоматичний збір даних для macOS


Другий проєкт MacPaw Research, фреймворк GUIrilla, стосується computer use агентів. Computer use дозволяє агентам керувати комп'ютером: він робить скриншот, модель передбачає наступну дію — «клікни сюди», «введи текст» — і виконує операції. Таким чином агент може завантажити відео з YouTube, знайти щось в інтернеті, заповнити таблицю в Excel. Ви описуєте задачу природною мовою — він її виконує.


На macOS майже немає якісних computer use агентів через відсутність даних, збирати які — дуже дорого. ШІ-платформа GUIrilla розвʼязує цю проблему. Вона краулить застосунки, тобто автоматично натискає на всі доступні кнопки і будує граф застосунку. 

Вершини графу — це скриншоти екранів, ребра — дії для переходу між ними. 

Таким чином команда MacPaw зібрала графи з 1108 застосунків і на їх основі побудувала датасет із понад 27 000 задач. 


Натреновані на цих даних агенти перевершили конкурентів на бенчмарку ScreenSpot-Pro (він перевіряє здатність агента точно клікати потрібні елементи в реальному повноекранному середовищі macOS — Ред.). При цьому, як каже команда, знадобилося в 300 разів менше даних, ніж використовують аналоги.


Фреймворк GUIrilla від MacPaw / DOU
Фреймворк GUIrilla від MacPaw / DOU

MacArena: бенчмарк для macOS


Наступна робота, MacArena, стосується бенчмаркінгу, тобто оцінювання моделей. Бенчмарки існують переважно для Linux, рідше — для Windows, і набагато рідше — для macOS.


У MacPaw Research зробили свій: зібрали 421 задачу на 50 застосунках. Всі задачі виконуються у віртуальній машині — агент може робити що завгодно, нічого не зламавши. 

Оцінка детермінована: є функція, яка просто перевіряє, чи виконана задача. Таким чином ми точно знаємо результат і можемо порівнювати різні підходи.На бенчмарку MacArena найкраща модель досягла 32% — є куди рости.


HBJ Telegram-канал

Ефективність моделей і персональний ШІ


Оскільки команда будує персональний ШІ, для неї принципово, щоб великі мовні моделі працювали на пристрої macOS: швидко, з мінімальним споживанням пам'яті — і при цьому знали про юзера певну інформацію.


Ефективність моделей охоплює три компоненти: швидкість, пам'ять і точність. Отримати всі три одночасно практично неможливо, але два за рахунок третього — можна. 


Один із напрямків — компресія моделей. Є чотири основних підходи до цього процесу:


  • Квантизація — зменшення кількості бітів для кодування кожної ваги. Заощаджує пам'ять і прискорює обрахунки.


  • Прунінг — видалення зв'язків у графі нейронної мережі. Менша кількість ваг — менше витрат пам'яті.


  • Факторизація низького рангу: матрицю ваг розкладають на дві матриці меншого рангу, що потребують менше пам'яті для зберігання.


  • Дистиляція, за якою спочатку тренують величезну модель (іноді на трильйонах параметрів), а потім переносять її знання в меншу. У результаті отримують компактну модель, яка за точністю майже не поступається великій.


Альтернатива архітектурі Transformers


Трансформери, що з'явилися у 2017 році, досі лежать в основі LLM, але вони не оптимальні: квадратична складність інференсу робить генерацію нових токенів дорогою. Тому з'являються альтернативи — наприклад, State Space Models (архітектура нейромережі, яка памʼятає не кожне слово, а лише стислий підсумок — і оновлює його, коли бачить нове слово — Ред.) з лінійною складністю, а також гібридні архітектури, що поєднують трансформери зі State Space Models. 


Це активна сфера досліджень MacPaw Research зараз.


Вчора ми використовували ШІ, щоб просто ставити йому питання. Сьогодні ми можемо давати йому задачі, які він виконує на нашому комп'ютері. Наступний крок — приватний ШІ, який працює повністю на вашому пристрої без передачі даних у хмару, і побудований саме під ваші потреби.


High Bar Journal Розсилка

© 2035 by Business Name. Made with Wix Studio™

bottom of page