Автор: merakiki
Переклад: TechFlow
Десятиліттями сфера робототехніки мала дуже вузьке застосування, переважно зосереджене на виконанні повторюваних завдань у структурованих заводських умовах. Проте сучасний штучний інтелект (AI) докорінно змінює галузь робототехніки, дозволяючи роботам розуміти та виконувати інструкції користувачів, а також адаптуватися до динамічного середовища.
Ми вступаємо в епоху стрімкого зростання. За прогнозами Citibank, до 2035 року у світі буде розгорнуто 1,3 мільярда роботів, а сфера їх застосування розшириться від заводів до домашнього та сервісного секторів. Тим часом Morgan Stanley очікує, що лише ринок людиноподібних роботів до 2050 року може досягти 5 трильйонів доларів.
Попри величезний ринковий потенціал такого розширення, воно супроводжується серйозними викликами, пов’язаними з централізацією, довірою, приватністю та масштабованістю. Технології Web3, підтримуючи децентралізовані, верифіковані, приватні та колаборативні мережі роботів, пропонують революційні рішення для цих проблем.
У цій статті ми детально розглянемо еволюцію ланцюга створення вартості AI-роботів, особливо зосередившись на людиноподібних роботах, та розкриємо захопливі можливості, які відкриває інтеграція AI-роботів із Web3.
Ланцюг створення вартості AI-роботів
Ланцюг створення вартості AI-роботів складається з чотирьох базових рівнів: апаратне забезпечення, інтелект, дані та агенти. Кожен рівень базується на попередньому, дозволяючи роботам сприймати, міркувати та діяти у складному реальному світі.
Останніми роками апаратний рівень досяг значного прогресу завдяки лідерам галузі, таким як Unitree та Figure AI. Однак на неапаратних рівнях залишаються ключові виклики, зокрема нестача якісних датасетів, відсутність універсальних базових моделей, поганасумісність між пристроями та потреба у надійних edge-обчисленнях. Тому наразі найбільші можливості для розвитку зосереджені на рівнях інтелекту, даних та агентів.
1.1 Апаратний рівень: “Тіло”
Сьогодні виробництво та розгортання сучасного “тіла робота” стало простішим, ніж будь-коли. На ринку вже представлено понад 100 різних типів людиноподібних роботів, зокрема Optimus від Tesla, G1 від Unitree, Digit від Agility Robotics та Figure 02 від Figure AI.
Джерело: Morgan Stanley, “100 Humanoids: Карта ланцюга створення вартості людиноподібних роботів”
Цей прогрес став можливим завдяки проривам у трьох ключових компонентах:
-
Приводи (Actuators): “М’язи” робота, які перетворюють цифрові інструкції на точні рухи. Інновації у високопродуктивних двигунах дозволяють роботам виконувати швидкі та точні дії, а діелектричні еластомерні приводи (Dielectric Elastomer Actuators, DEAs) підходять для делікатних завдань. Ці технології значно підвищили гнучкість роботів, наприклад, Optimus Gen 2 від Tesla має 22 ступенісвободи (DoF), а також G1 від Unitree, які демонструють майже людську гнучкість і вражаючі рухові можливості.
Джерело: Unitree демонструє свого останнього людиноподібного робота на боксерському поєдинку на WAIC 2025
-
Датчики (Sensors): Сучасні датчики забезпечують роботам сприйняття та інтерпретацію середовища через зір, LIDAR/RADAR, дотик та аудіо. Ці технології дозволяють роботам безпечно орієнтуватися, точно маніпулювати об’єктами та розуміти контекст.
-
Вбудовані обчислення (Embedded Computing): Процесори, GPU та AI-акселератори (TPU, NPU) на пристрої дозволяють обробляти дані з датчиків у реальному часі та запускати AI-моделі для автономного прийняття рішень. Надійне низьколатентне з’єднання забезпечує безперебійну координацію, а гібридна edge-cloud архітектура дозволяє роботам передавати ресурсоємні обчислення у хмару за потреби.
1.2 Рівень інтелекту: “Мозок”
Зі зростанням зрілості апаратного забезпечення увага галузі зміщується до створення “мозку робота”: потужних базових моделей та передових стратегій керування.
До інтеграції AI роботи покладалися на правил-орієнтовану автоматизацію, виконуючи запрограмовані дії без адаптивного інтелекту.
Базові моделі поступово впроваджуються у сферу робототехніки. Однак універсальних великих мовних моделей (LLMs) недостатньо, оскільки роботи мають сприймати, міркувати та діяти у динамічному фізичному світі. Для цього галузь розробляє стратегічно-орієнтовані end-to-end базові моделі для роботів. Вони дозволяють роботам:
-
Сприймати (Perceive): отримувати мультимодальні дані з датчиків (зір, аудіо, дотик)
-
Планувати (Plan): оцінювати власний стан, створювати карту середовища, інтерпретувати складні інструкції, напряму поєднувати сприйняття з діями, зменшуючи ручну інженерію
-
Діяти (Act): генерувати рухові плани та видавати команди для виконання в реальному часі
Ці моделі навчаються універсальним “стратегіям” взаємодії зі світом, дозволяючи роботам адаптуватися до різних завдань і працювати з більшою автономією та інтелектом. Передові моделі також використовують безперервний зворотний зв’язок, навчаючи роботів на досвіді для ще кращої адаптації у динамічних умовах.
Моделі VLA напряму поєднують сенсорні дані (переважно візуальні та мовні інструкції) з діями робота, дозволяючи йому видавати відповідні команди на основі “побаченого” та “почутого”. Серед прикладів — RT-2 від Google, Isaac GR00T N1 від Nvidia та π0 від Physical Intelligence.
Для посилення цих моделей зазвичай інтегрують кілька взаємодоповнюючих підходів, зокрема:
-
Світові моделі (World Models): створюють внутрішню симуляцію фізичного середовища, допомагаючи роботам вивчати складну поведінку, прогнозувати результати та планувати дії. Наприклад, нещодавно Google представила Genie 3 — універсальну світову модель, здатну генерувати безпрецедентно різноманітні інтерактивні середовища.
-
Глибоке підкріплене навчання (Deep Reinforcement Learning): допомагає роботам навчатися поведінці методом спроб і помилок.
-
Дистанційне управління (Teleoperation): дозволяє віддалено керувати роботами та збирати тренувальні дані.
-
Навчання за демонстрацією (LfD)/Імітаційне навчання (Imitation Learning): навчає роботів новим навичкам шляхом імітації людських дій.
На малюнку нижче показано, як ці підходи інтегруються у базові моделі для роботів.
Джерело: World models: the physical intelligence core driving us toward AGI
Останні відкриття з відкритим кодом, такі як π0 від Physical Intelligence та Isaac GR00T N1 від Nvidia, знаменують важливий прогрес у цій сфері. Однак більшість базових моделей для роботів залишаються централізованими та закритими. Такі компанії, як Covariant, Tesla, зберігають власний код і датасети, переважно через відсутність відкритих стимулюючих механізмів.
Відсутність прозорості обмежує співпрацю та інтероперабельність між робототехнічними платформами, підкреслюючи потребу у безпечному та прозорому обміні моделями, ончейн-стандартах для спільного управління та інтероперабельності між пристроями. Такий підхід сприятиме довірі, співпраці та розвитку галузі.
1.3 Рівень даних: “Знання мозку”
Потужні датасети для роботів базуються на трьох стовпах: кількість, якість і різноманітність.
Попри певний прогрес у накопиченні даних, масштаб існуючих датасетів для роботів досі недостатній. Наприклад, GPT-3 від OpenAI навчався на 300 мільярдах токенів, тоді як найбільший відкритий датасет для роботів Open X-Embodiment містить лише понад 1 мільйон реальних траєкторій роботів, що охоплюють 22 типи роботів. Це значно менше, ніж потрібно для потужної генералізації.
Деякі пропрієтарні підходи, наприклад, збір даних Tesla через data factory, де працівники носять костюми захоплення руху для генерації тренувальних даних, дійсно допомагають отримати більше реальних рухових даних. Однак такі методи дорогі, обмежені у різноманітності та важко масштабуються.
Щоб подолати ці виклики, у сфері робототехніки використовують три основні джерела даних:
-
Інтернет-дані: Інтернет-дані масштабовані та легко розширюються, але переважно є спостережними й не містять сенсорних та рухових сигналів. Попереднє навчання великих візуально-мовних моделей (наприклад, GPT-4V, Gemini) на інтернет-даних забезпечує цінні семантичні та візуальні апріорі. Додавання кінематичних міток до відео дозволяє перетворити їх на придатні для навчання дані.
-
Синтетичні дані: Дані, згенеровані у симуляціях, дозволяють швидко проводити масштабні експерименти та охоплювати різноманітні сценарії, але не повністю відображають складність реального світу — це обмеження відоме як “розрив між симуляцією та реальністю” (sim-to-real gap). Дослідники вирішують цю проблему через адаптацію домену (data augmentation, domain randomization, adversarial learning) та трансфер з симуляції у реальність, ітеративно оптимізуючи моделі та донавчаючи їх у реальних умовах.
-
Дані реального світу: Хоча вони рідкісні та дорогі, дані реального світу критично важливі для впровадження моделей і подолання розриву між симуляцією та реальністю. Якісні реальні дані зазвичай містять егоцентричні відео (egocentric views), що фіксують “бачене” роботом під час виконання завдань, а також рухові дані, що записують точні дії. Рухові дані зазвичай збирають через людські демонстрації або дистанційне управління з використанням VR, костюмів захоплення руху чи тактильного навчання, щоб моделі навчалися на точних реальних прикладах.
Дослідження показують, що поєднання інтернет-даних, реальних та синтетичних даних для навчання роботів значно підвищує ефективність тренування та стійкість моделей (прим. TechFlow: стійкість — здатність системи залишатися надійною у разі аномалій чи небезпеки).
Водночас, хоча збільшення кількості даних допомагає, різноманітність даних ще важливіша, особливо для генералізації на нові завдання та форми роботів. Для досягнення такої різноманітності потрібні відкриті платформи даних і колаборативний обмін, зокрема створення крос-інстансних датасетів для різних форм роботів, що стимулює розвиток потужніших базових моделей.
1.4 Рівень агентів: “Фізичні AI-агенти”
Тренд розвитку фізичних AI-агентів прискорюється — це автономні роботи, здатні діяти у реальному світі самостійно. Прогрес на рівні агентів залежить від тонкого налаштування моделей, безперервного навчання та практичної адаптації до унікальної форми кожного робота.
Ось кілька нових можливостей для прискорення розвитку фізичних AI-агентів:
-
Безперервне навчання та адаптивна інфраструктура: Завдяки циклам зворотного зв’язку в реальному часі та обміну досвідом під час розгортання роботи можуть постійно вдосконалюватися.
-
Автономна агентна економіка: Роботи функціонують як незалежні економічні агенти — торгують ресурсами (обчислювальна потужність, дані з датчиків) на ринку роботів і генерують дохід через токенізовані послуги.
-
Багатоагентні системи: Платформи та алгоритми нового покоління дозволяють групам роботів координуватися, співпрацювати та оптимізувати колективну поведінку.
Інтеграція AI-роботів і Web3: розкриття величезного ринкового потенціалу
У міру того, як AI-роботи переходять від досліджень до реального розгортання, низка хронічних вузьких місць гальмує інновації та обмежує масштабованість, стійкість і економічну доцільність екосистеми роботів. Серед них — централізовані ізольовані дані та моделі, відсутність довіри та прозорості, обмеження приватності та відповідності, а такожнедостатня інтероперабельність.
2.1 Проблеми, з якими стикаються AI-роботи
-
Централізовані ізольовані дані та моделі
Моделі роботів потребують великих і різноманітних датасетів. Однак сьогодні розробка даних і моделей надто централізована, розрізнена й дорога, що призводить до фрагментації систем і низької адаптивності. Роботи, розгорнуті у динамічному реальному світі, часто демонструють низьку продуктивність через недостатню різноманітність даних і обмежену стійкість моделей.
-
Довіра, прозорість і надійність
Відсутність прозорих і аудиторських записів (джерела даних, процес навчання моделей, історія операцій роботів) підриває довіру та відповідальність. Це є основною перешкодою для впровадження роботів користувачами, регуляторами та бізнесом.
-
Приватність, безпека та відповідність
У чутливих сферах, як-от медичні чи домашні роботи, захист приватності критично важливий, а також необхідно дотримуватися суворих регіональних норм (наприклад, GDPR у Європі). Централізована інфраструктура не може забезпечити безпечну та приватну AI-колаборацію, що обмежує обмін даними й стримує інновації у регульованих чи чутливих сферах.
-
Масштабованість таінтероперабельність
Робототехнічні системи стикаються з серйозними труднощами у спільному використанні ресурсів, колективному навчанні та інтеграції між різними платформами й формами. Це призводить до фрагментації мережевих ефектів і гальмує швидку передачу можливостей між різними типами роботів.
2.2 AI-роботи x Web3: структурні рішення, що стимулюють інвестиційні можливості
Технології Web3 завдяки децентралізованим, верифікованим, приватним і колаборативним мережам роботів фундаментально вирішують зазначені проблеми. Така інтеграція відкриває нові інвестиційні можливості:
-
Децентралізована колаборативна розробка: Завдяки стимулюючим мережам роботи можуть обмінюватися даними, спільно розробляти моделі та інтелектуальних агентів.
-
Верифікована прозорість і відповідальність: Технологія блокчейн гарантує незмінність записів про джерела даних і моделей, ідентичність роботів та історію операцій, що критично для довіри та відповідності.
-
Приватна колаборація: Сучасні криптографічні рішення дозволяють роботам спільно навчати моделі й ділитися інсайтами без розкриття власних чи чутливих даних.
-
Громадське управління: Децентралізовані автономні організації (DAOs) керують і контролюють роботу роботів через ончейн-прозорі та інклюзивні правила й політики.
-
Крос-форматнаінтероперабельність: Відкриті блокчейн-фреймворки сприяють безшовній співпраці між різними платформами роботів, знижуючи витрати на розробку та прискорюючи передачу можливостей.
-
Автономна агентна економіка: Інфраструктура Web3 надає роботам незалежний економічний статус, дозволяючи їм здійснювати p2p-транзакції, вести переговори та брати участь у токенізованих ринках без людського втручання.
-
Децентралізовані фізичні інфраструктурні мережі (DePIN): Блокчейн-орієнтований p2p-обмін обчисленнями, сенсорними, сховищними та мережевими ресурсами підвищує масштабованість і стійкість мереж роботів.
Ось кілька інноваційних проєктів, що розвивають цю сферу. Вони демонструють потенціал і тренди інтеграції AI-роботів із Web3. Звісно, це не є інвестиційною порадою.
Децентралізована розробка даних і моделей
Платформи на базі Web3 стимулюють внесок (наприклад, костюми захоплення руху, обмін сенсорами, завантаження відео, анотація даних, навіть генерація синтетичних даних), демократизуючи розробку даних і моделей. Це дозволяє створювати багатші, різноманітніші та репрезентативніші датасети й моделі, ніж може забезпечити окрема компанія. Децентралізовані фреймворки також краще охоплюють edge-випадки, що критично для роботів у непередбачуваних умовах.
Приклади:
-
Frodobots: Протокол для краудсорсингу реальних датасетів через ігри з роботами. Вони запустили проєкт “Earth Rovers” — тротуарного робота та глобальну гру “Drive to Earn”, створивши датасет FrodoBots 2K, що містить відео з камер, GPS-дані, аудіозаписи та дані дистанційного управління, охоплюючи понад 10 міст і близько 2000 годин керування роботами.
-
BitRobot: Крипто-стимульована платформа, спільно розроблена FrodoBots Lab і Protocol Labs, базується на блокчейні Solana та субмережах. Кожна субмережа — це публічний челендж, де учасники отримують токени за внесок моделей чи даних, стимулюючи глобальну співпрацю та open-source інновації.
-
Reborn Network: Базовий рівень відкритої екосистеми AGI-роботів, пропонує костюм Rebocap для захоплення руху, що дозволяє кожному записувати та монетизувати власні рухові дані, сприяючи відкритості складних датасетів для людиноподібних роботів.
-
PrismaX: Використовує глобальну спільноту для забезпечення різноманітності та достовірності даних через децентралізовану інфраструктуру, впроваджуючи потужні механізми верифікації та стимулювання для масштабування датасетів роботів.
Доказ прозорості та надійності
Технологія блокчейн забезпечує end-to-end прозорість і відповідальність у екосистемі роботів. Вона гарантує верифіковану прозорість даних і моделей, автентифікацію ідентичності та фізичного розташування роботів, а також ведення історії операцій і внесків. Крім того, колаборативна верифікація, ончейн-репутаційні системи та механізми перевірки на основі стейкінгу гарантують якість даних і моделей, запобігаючи шахрайству чи низькоякісним внескам.
Приклади:
-
OpenLedger: AI-блокчейн-інфраструктура для тренування та розгортання спеціалізованих моделей на спільних датасетах. Механізм “Proof of Attribution” гарантує справедливу винагороду за якісний внесок даних.
Токенізоване право власності, ліцензування та монетизація
Web3-орієнтовані інструменти інтелектуальної власності підтримують токенізоване ліцензування спеціалізованих датасетів, можливостей роботів, моделей та інтелектуальних агентів. Внески можуть містити ліцензійні умови у смарт-контрактах, що гарантує автоматичну виплату роялті при повторному використанні чи монетизації даних або моделей. Це сприяє прозорому, бездозвільному доступу та створює відкритий і справедливий ринок для даних і моделей роботів.
Приклади:
-
Poseidon: Повноцінний децентралізований рівень даних, побудований на Story Protocol, орієнтований на IP, забезпечує юридично авторизовані AI-тренувальні дані.
Рішення для захисту приватності
Дані, згенеровані у лікарнях, готелях чи домівках, мають високу цінність, але їх складно отримати через публічні канали. Проте їхній багатий контекст може суттєво покращити базові моделі. Криптографічні рішення дозволяють перетворювати приватні дані на ончейн-активи, роблячи їх відстежуваними, комбінованими та монетизованими із захистом приватності. Технології, як-от Trusted Execution Environments (TEEs) і Zero-Knowledge Proofs (ZKPs), дозволяють безпечно обробляти та верифікувати результати без розкриття сирих даних. Це дає змогу організаціям тренувати AI-моделі на розподілених чутливих даних, зберігаючи приватність і відповідність.
Приклади:
-
Phala Network: Дозволяє розробникам розгортати додатки у безпечному TEE для конфіденційної обробки AI та даних.
Відкрите та аудиторське управління
Навчання роботів зазвичай базується на закритих “чорних скриньках” із низькою прозорістю та адаптивністю. Прозоре та верифіковане управління критично важливе для зниження ризиків і підвищення довіри користувачів, регуляторів і бізнесу. Технології Web3 забезпечують спільну розробку відкритого коду для роботів під контролем спільноти на блокчейні.
Приклади:
-
Openmind: Відкрита AI-орієнтована програмна платформа, що допомагає роботам мислити, навчатися та співпрацювати. Вони запропонували стандарт ERC7777 для створення верифікованої, регульованої екосистеми роботів із фокусом на безпеці, прозорості та масштабованості. Стандарт визначає інтерфейси для управління ідентичністю людей і роботів, виконання соціальних правил, а також реєстрації й видалення учасників із чітким визначенням прав і обов’язків.
Останні роздуми
Із конвергенцією AI-роботів і технологій Web3 ми вступаємо в нову еру, де автономні системи можуть масштабно співпрацювати та адаптуватися. Наступні 3–5 років стануть вирішальними: стрімкий розвиток апаратного забезпечення стимулюватиме появу потужніших AI-моделей, що базуватимуться на багатших реальних датасетах і децентралізованих механізмах співпраці. Очікується, що спеціалізовані AI-агенти з’являться у готельному бізнесі, логістиці та інших галузях, створюючи величезні нові ринкові можливості.
Однак така інтеграція AI-роботів і криптотехнологій також породжує виклики. Дизайн збалансованих і ефективних стимулюючих механізмів залишається складним і постійно еволюціонує — системи мають справедливо винагороджувати учасників і водночас запобігати зловживанням. Технічна складність також є серйозною проблемою: необхідно розробити надійні та масштабовані рішення для безшовної інтеграції різних типів роботів. Крім того, технології захисту приватності мають бути достатньо надійними, щоб завоювати довіру стейкхолдерів, особливо при роботі з чутливими даними. Динамічне регуляторне середовище також вимагає обережності для забезпечення відповідності у різних юрисдикціях. Подолання цих ризиків і досягнення сталого прибутку є ключем до стимулювання технологічного прогресу та широкого впровадження.
Давайте разом стежити за розвитком цієї сфери, сприяти прогресу через співпрацю та скористатися можливостями, що з’являються на цьому швидкозростаючому ринку.
Інновації у сфері робототехніки — це подорож, яку найкраще долати разом :)
Насамкінець хочу подякувати Chain of Thought за “Robotics & The Age of Physical AI”, що став цінною підтримкою для мого дослідження.