A disputa nas criptomoedas ainda não terminou, e as IAs já estão se juntando para uma partida de pôquer.
Desta vez, em vez de competir com o mercado, a IA está enfrentando outra IA.
Em vez de competir com o mercado, desta vez a adversária da IA tornou-se outra IA.
Escrito por: Eric, Foresight News
Faltam apenas 4 dias para o encerramento do NOF1 AI Trading Tournament. Atualmente, DeepSeek e Tongyi Qianwen continuam liderando com folga, enquanto as outras 4 IAs não conseguiram superar o simples ato de manter Bitcoin. Se nada mudar, DeepSeek deve conquistar o título, restando saber quando os demais conseguirão superar o rendimento de apenas manter Bitcoin e quem ficará em último lugar.
Embora o trading de criptomoedas por IA enfrente um mercado em constante mudança, ainda é um jogo PvE. Para realmente comparar "qual IA é mais inteligente" em vez de "qual IA negocia melhor" em um jogo PvP, o russo Max Pavlov reuniu 9 IAs para uma mesa de pôquer Texas Hold'em.
De acordo com informações públicas no LinkedIn, Max Pavlov trabalha há muito tempo como gerente de produto. Na apresentação do site de pôquer de IA, ele também afirma ser entusiasta de deep learning, IA e pôquer. Sobre o motivo de realizar esse teste, Max Pavlov explica que a comunidade do pôquer ainda não chegou a um consenso sobre a confiabilidade do raciocínio dos grandes modelos de linguagem, e este torneio serve para demonstrar a capacidade de raciocínio desses modelos em situações reais de jogo.

Talvez porque Grok não tenha se destacado no trading, Elon Musk compartilhou ontem uma captura de tela mostrando Grok na liderança do torneio de pôquer, numa tentativa de "recuperar o prestígio".
Como as IAs estão se saindo?
O torneio de pôquer convidou 9 participantes: além dos conhecidos Gemini, ChatGPT, Claude Sonnet (lançado pela Anthropic, que já recebeu investimento da FTX), Grok, DeepSeek, Kimi (IA da Moonshot AI), Llama, também participaram o Mistral Magistral, focado no mercado e idioma europeu e lançado pela francesa Mistral AI, e o GLM, da Beijing Zhipu, pioneira em pesquisa de grandes modelos de linguagem na China.

No momento da redação, Gemini, ChatGPT, Claude Sonnet, Grok e DeepSeek estão no azul, enquanto os outros 4 estão com prejuízo. O participante Llama, da Meta, é o que está em pior situação, já perdeu mais da metade do saldo inicial.

O torneio começou no dia 27 e termina no dia 31, restando menos de um dia e meio. Pela curva de rendimento, Grok da xAI liderou durante o primeiro dia, depois foi ultrapassado por Gemini, mantendo-se em segundo lugar por um bom tempo. Em cerca de 2.270 mãos, Grok foi superado por Claude Sonnet, e por volta da mão 2.500, por ChatGPT.
DeepSeek, Kimi e o europeu Mistral Magistral mantiveram-se estáveis próximos ao ponto de equilíbrio. Llama começou a desandar após a mão 740, ficando em último lugar, enquanto GLM começou a cair a partir da mão 1.440.
Além do rendimento, as estatísticas técnicas mostram as diferentes "personalidades" das IAs participantes.

No VPIP (Voluntariamente Colocou Dinheiro no Pote), Llama atingiu 61%, apostando em mais da metade das rodadas. Os três participantes mais estáveis apostaram menos vezes, enquanto os líderes ficaram com VPIP entre 25% e 30%.
No PFR (Aumento Pré-Flop), Llama novamente lidera, seguido de perto pelo Gemini, que tem o maior rendimento. Isso mostra que Llama, da Meta, é um participante excessivamente agressivo e ativo, enquanto Gemini também é agressivo, mas de forma mais equilibrada, apostando forte quando tem boas cartas e aproveitando a impulsividade de Llama, o que levou ambos a extremos opostos de rendimento.
Analisando também os dados de 3-Bet e C-Bet, Grok se mostra um participante relativamente sólido, mas não excessivamente passivo, com forte pressão pré-flop. Esse estilo o manteve na liderança no início, mas depois as estratégias agressivas de Gemini e ChatGPT, somadas à impulsividade de Llama, permitiram que os mais ousados assumissem o topo.
Como as IAs analisam as jogadas?
Max Pavlov definiu algumas regras básicas para o torneio: blinds de US$10/20, sem ante e sem straddle, 9 participantes jogando em 4 mesas simultâneas, e sempre que o stack caísse abaixo de 100 big blinds, o sistema recarregava automaticamente até 100 big blinds.
Além disso, todas as IAs usam o mesmo conjunto de prompts, com limite máximo de tokens para restringir o comprimento do raciocínio, e caso a resposta seja anormal, o padrão é fold. Max Pavlov projetou o sistema para perguntar à IA sobre seu processo de decisão durante a ação ou ao final de cada mão.
Vamos analisar uma mão jogada durante a redação deste artigo para ver como as IAs analisam as situações.

Após Claude e Gemini pagarem as blinds, Llama considerou que 8 de espadas e Q de paus eram "relativamente fortes", podendo buscar uma sequência ou flush, então pagou 20.

DeepSeek avaliou que Q de copas e 2 eram muito fracas para pagar naquela posição, enquanto GLM considerou que, estando em posição intermediária e com cartas do mesmo naipe, poderia aumentar para construir o pote contra o estilo solto de Llama; US$80 seria suficiente para pressionar mantendo o pote controlado. Kimi, com cartas do mesmo valor, mas de naipes opostos a Llama, achou que a mão era fraca e, diante da possibilidade de um 3-Bet, não valia a pena pagar.
Até aqui, percebe-se que Llama não analisou dados nem posição, apenas apostou "sem pensar", enquanto os outros três basearam suas decisões em posição e análise prévia.

Quando GPT o3 apostou corajosamente 260 com um Ás, Grok e Magistral optaram por fold, especialmente Grok, que suspeitou que GPT tinha AK ou um par maior, e considerando o ritmo impulsivo de Llama, decidiu desistir.

Depois disso, Gemini, Llama e GLM também deram fold. GLM achou que GPT provavelmente tinha um par alto ou um Ás, enquanto Llama não fez análise de dados, apenas sentiu que sua mão era forte, mas não o suficiente para pagar 260.
A impulsividade de Llama, a cautela de DeepSeek e Kimi, e a ousadia de GPT ficaram evidentes nesta mão, que terminou sem flop, com GPT levando o pote. Enquanto este artigo era escrito, os lucros dos quatro primeiros continuavam crescendo, indicando que o campeão provavelmente sairá desse grupo. As IAs que não se destacaram no trading estão mostrando sua capacidade no pôquer.
Embora muitos laboratórios testem a capacidade das IAs com métodos científicos, para os usuários o mais importante é saber se a IA pode ser útil para eles. DeepSeek, que não foi bem no pôquer, é um excelente trader, enquanto Gemini, que se sai mal no trading, domina nas cartas. Quando a IA aparece em diferentes cenários, podemos observar, por meio de comportamentos e resultados compreensíveis, em quais áreas cada IA se destaca.
Claro, alguns dias de trading ou de pôquer não são suficientes para concluir sobre a capacidade de uma IA ou seu potencial de evolução futura. As decisões da IA não envolvem emoção, sendo determinadas pela lógica do algoritmo, e talvez nem mesmo os desenvolvedores saibam em quais aspectos sua IA é realmente melhor.
Esses testes de entretenimento fora do laboratório nos permitem observar de forma mais intuitiva a lógica da IA diante de situações e jogos do cotidiano, expandindo ainda mais as fronteiras do pensamento entre humanos e IA.
Aviso Legal: o conteúdo deste artigo reflete exclusivamente a opinião do autor e não representa a plataforma. Este artigo não deve servir como referência para a tomada de decisões de investimento.
Talvez também goste
Narrativa, sentimento e probabilidades: a visão especulativa de Meme do KOL chinês Dayu
A maioria das pessoas que brincam com Meme são principalmente impulsionadas pela especulação.
A questão de US$ 308 bilhões: As stablecoins podem prosperar mesmo com a proibição da China?
MetaMask avança para uma carteira de criptomoedas unificada ao adicionar Bitcoin
Fed cancela corte de juros em dezembro, 18% de chance de aumento, desacelerando a alta do Bitcoin
