Торгівля криптовалютою ще не визначила переможця, а штучний інтелект вже приєднався до гри в покер
Порівняно з грою проти ринку, цього разу суперником AI став інший AI.
На відміну від змагання з ринком, цього разу суперником AI став інший AI.
Автор: Eric, Foresight News
До завершення турніру NOF1 AI з трейдингу залишилося 4 дні, наразі DeepSeek і 通义千问 все ще значно випереджають інших, а решта 4 AI не змогли перевершити просте утримання bitcoin. Якщо не станеться нічого несподіваного, DeepSeek, ймовірно, стане чемпіоном, а тепер залишається лише спостерігати, коли решта учасників зможуть перевищити прибутковість простого утримання bitcoin і хто стане останнім.
Хоча AI трейдинг стикається з постійно мінливим ринком, це все ще гра PvE. Аби дійсно визначити, "який AI розумніший", а не "який AI краще торгує" у PvP-грі, росіянин Max Pavlov зібрав 9 AI для партії в техаський холдем.
Згідно з відкритою інформацією на LinkedIn, Max Pavlov тривалий час працював менеджером продукту, а в описі AI-покер-сайту він також зазначає, що є ентузіастом глибокого навчання, AI та покеру. Щодо причин проведення такого тесту, Max Pavlov зазначає, що в покерному ком'юніті досі немає консенсусу щодо надійності міркувань великих мовних моделей, і цей турнір — демонстрація їхніх аналітичних здібностей у реальних ігрових ситуаціях.

Можливо, через невиразні результати Grok у трейдингу, Маск учора репостнув скріншот, де Grok лідирує у покерному турнірі, ніби намагаючись "відновити репутацію".
Як виступили AI?
У цьому покерному турнірі взяли участь 9 гравців: окрім відомих нам Gemini, ChatGPT, Claude Sonnet (від Anthropic, який отримав інвестиції від FTX), Grok, DeepSeek, Kimi (AI від Moonshot AI), Llama, а також орієнтований на європейський ринок і мови Mistral Magistral від французької компанії Mistral AI та GLM від Beijing Zhipu, одного з перших у Китаї, хто почав дослідження великих мовних моделей.

На момент написання статті, п’ятеро гравців — Gemini, ChatGPT, Claude Sonnet, Grok, DeepSeek — залишаються "на плаву", а решта четверо наразі в мінусі; найгірше справи у Llama від Meta, який вже втратив понад половину капіталу.

Турнір стартував 27-го числа, завершиться 31-го, залишилося менше ніж півтора дня. Згідно з графіком прибутковості, протягом першої доби Grok від xAI постійно лідирував, після чого його обігнав Gemini, а Grok довго тримався на другому місці. Зіграно 2540 роздач, на близько 2270-й роздачі Grok був обігнаний Claude Sonnet, а на 2500-й — ChatGPT.
DeepSeek, Kimi та європейський Mistral Magistral тримаються стабільно біля "водної поверхні". Llama після періоду розвідки на близько 740-й роздачі різко почав втрачати позиції, впевнено закріпившись на останньому місці, а GLM відстав на близько 1440-й роздачі.
Окрім прибутковості, технічна статистика відображає різні "характери" AI-гравців.

За показником VPIP (Voluntarily Put $ In Pot, добровільне вкладення фішок у банк), Llama досяг 61% — більше половини роздач він робив ставки; три найбільш обережних гравці робили найменше ходів, а у лідерів VPIP знаходиться в діапазоні 25–30%.
За PFR (Pre-Flop Raise, підвищення ставки до флопу), Llama знову без сюрпризів на першому місці, а найприбутковіший Gemini — одразу за ним. Виходить, що Llama від Meta — надто агресивний і ініціативний гравець, а Gemini теж досить агресивний, але діє помірковано, ймовірно, робить ставки лише з хорошими картами, а зустрівши бездумного Llama, їхні результати розійшлися у протилежні боки.
Якщо врахувати ще 3-Bet і C-Bet, видно, що Grok — досить стриманий, але не надто пасивний гравець із сильною тиском до флопу; такий стиль дозволив йому лідирувати на початку, але потім агресивна стратегія Gemini і ChatGPT разом із "запалом" Llama дозволили сміливцям вийти вперед.
Як AI аналізують ситуацію?
Max Pavlov встановив для турніру базові правила: блайнди 10/20 доларів, без ante і straddle, 9 гравців одночасно грають на 4 столах, якщо стек менше 100 великих блайндів — система автоматично поповнює до 100 блайндів.
Крім того, всі AI використовують один і той самий промпт, встановлюється максимальна кількість токенів для обмеження довжини міркувань, а у випадку аномальної відповіді — автоматичний фолд. Max Pavlov також організував опитування AI щодо їхніх рішень під час гри або після кожної роздачі.
Візьмемо для прикладу одну з роздач, що відбувалася під час написання цієї статті, і подивимось, як аналізували AI-гравці.

Після того, як Claude і Gemini поставили малий і великий блайнди, Llama вважає, що 8 пік і Q треф — "відносно сильна" рука, можна спробувати зібрати стріт або флеш, тому колує 20.

DeepSeek вважає, що Q черв і 2 черв на цій позиції занадто слабкі для колу, а GLM вважає, що на середній позиції з одномастною рукою можна підвищити, щоб побудувати банк проти Llama, який грає широко; ставка 80 доларів дозволяє контролювати розмір банку і чинити достатній тиск. Kimi з такою ж цифрою, але іншої масті, вважає, що рука занадто слабка і під тиском можливого 3-Bet не варто колувати.
На цьому етапі видно, що Llama не аналізує дані та позицію, а просто "бездумно" робить ставки, тоді як наступні троє приймають рішення на основі позиції та попереднього аналізу даних.

Після того, як GPT o3 з тузом сміливо підвищив до 260, Grok і Magistral обирають фолд, особливо Grok, який здогадується, що у GPT, ймовірно, AK або пара вища за його, а враховуючи бездумну агресію Llama, вирішує скинути карти.

Далі Gemini, Llama і GLM також фолдять. GLM вважає, що у GPT, ймовірно, велика пара або туз, а Llama не аналізує дані, просто вважає, що його рука досить сильна, але не настільки, щоб колувати 260.
У цій роздачі чітко проявилися імпульсивність Llama, обережність DeepSeek, Kimi та сміливість GPT; у підсумку, без флопу, GPT забирає банк. Під час написання цієї статті прибутки перших чотирьох продовжують зростати, і, ймовірно, чемпіон визначиться серед них. AI, які не надто вдало торгували, змогли знову довести свої здібності за покерним столом.
Хоча багато лабораторій тестують AI за допомогою наукових методик, для користувачів важливіше, чи може AI бути корисним у реальному житті. DeepSeek, який не блищить у покері, є чудовим трейдером, а Gemini, який у трейдингу поводиться як "новачок", за покерним столом показує себе як справжній профі. Коли AI з'являється у різних сферах, ми можемо через зрозумілі нам дії та результати побачити, у чому кожен AI найсильніший.
Звісно, кілька днів трейдингу чи покеру не можуть остаточно визначити здібності AI у цій сфері чи його майбутню еволюцію. Рішення AI не містять емоцій, а залежать від базової логіки алгоритму, і навіть розробники моделі можуть не знати, у чому саме їхній AI найсильніший.
Завдяки таким розважальним тестам поза лабораторією ми можемо наочно спостерігати логіку AI у звичних для нас ситуаціях і іграх, а також розширювати межі мислення людини та AI.
Відмова від відповідальності: зміст цієї статті відображає виключно думку автора і не представляє платформу в будь-якій якості. Ця стаття не повинна бути орієнтиром під час прийняття інвестиційних рішень.
Вас також може зацікавити
Наратив, емоції та коефіцієнти: погляд китайського KOL Даю на спекуляції з Meme
Усі, хто грає з мемами, головним чином керуються спекуляціями.
Питання на 308 мільярдів доларів: чи зможуть стейблкоїни процвітати попри заборону в Китаї?
MetaMask просувається до уніфікованого криптогаманця, додаючи Bitcoin
ФРС скасовує зниження ставки в грудні, 18% ймовірність підвищення, уповільнення зростання Bitcoin
