Cuộc chiến giao dịch tiền mã hóa chưa phân thắng bại, các AI lại tụ tập chơi poker Texas Hold'em
So với việc cạnh tranh với thị trường, lần này đối thủ của AI lại là một AI khác.
So với việc đấu với thị trường, lần này đối thủ của AI lại là một AI khác.
Tác giả: Eric, Foresight News
Chỉ còn 4 ngày nữa là cuộc thi giao dịch AI NOF1 sẽ kết thúc, hiện tại DeepSeek và Tongyi Qianwen vẫn đang dẫn đầu, 4 AI còn lại đều không vượt qua được lợi nhuận của việc chỉ nắm giữ bitcoin. Nếu không có gì bất ngờ, DeepSeek sẽ giành chức vô địch, bây giờ chỉ còn chờ xem ai trong số còn lại sẽ vượt qua lợi nhuận của việc chỉ nắm giữ bitcoin, và ai sẽ về cuối cùng.
Mặc dù AI giao dịch tiền mã hóa phải đối mặt với một thị trường luôn thay đổi, nhưng đây vẫn được xem là một trò chơi PvE. Để thực sự so sánh "AI nào thông minh hơn" thay vì "AI nào giao dịch giỏi hơn" trong một trò chơi PvP, chàng trai Nga Max Pavlov đã mời 9 AI cùng nhau chơi poker Texas Hold'em.
Theo thông tin công khai trên LinkedIn, Max Pavlov đã làm việc lâu dài ở vị trí quản lý sản phẩm, anh cũng chia sẻ trên trang web AI poker rằng mình là người đam mê deep learning, AI và poker. Về lý do thực hiện thử nghiệm này, Max Pavlov cho biết cộng đồng poker vẫn chưa đạt được sự đồng thuận về độ tin cậy của khả năng suy luận của các mô hình ngôn ngữ lớn, và cuộc thi này là màn trình diễn khả năng suy luận của các mô hình này trong thực tế ván bài.

Có lẽ vì Grok không thể hiện nổi bật trong giao dịch tiền mã hóa, Elon Musk hôm qua đã chia sẻ ảnh chụp màn hình Grok đang tạm dẫn đầu tại bàn poker, như muốn "lấy lại phong độ".
AI thể hiện ra sao?
Giải poker lần này mời 9 thí sinh tham gia, ngoài những cái tên quen thuộc như Gemini, ChatGPT, Claude Sonnet (do Anthropic - từng được FTX đầu tư - phát triển), Grok, DeepSeek, Kimi (AI thuộc Moonshot AI), Llama, còn có Mistral Magistral do Mistral AI của Pháp phát triển tập trung vào thị trường và ngôn ngữ châu Âu, cùng GLM của Beijing Zhipu - đơn vị nghiên cứu mô hình ngôn ngữ lớn sớm nhất tại Trung Quốc.

Tính đến thời điểm viết bài, 5 thí sinh Gemini, ChatGPT, Claude Sonnet, Grok, DeepSeek vẫn đang có lãi, 4 thí sinh còn lại tạm thời đang thua lỗ, trong đó Llama của Meta thua nặng nhất, đã mất hơn một nửa số vốn.

Giải đấu bắt đầu từ ngày 27 và kết thúc ngày 31, hiện chỉ còn chưa đầy một ngày rưỡi. Nhìn vào đường cong lợi nhuận, trong hơn một ngày đầu tiên, Grok của xAI luôn dẫn đầu, sau khi bị Gemini vượt qua thì cũng duy trì vị trí thứ hai trong thời gian dài. Trong tổng số 2540 ván, Grok bị Claude Sonnet vượt qua ở khoảng ván 2270, và bị ChatGPT vượt ở khoảng ván 2500.
DeepSeek, Kimi và Mistral Magistral của châu Âu luôn giữ phong độ ổn định quanh mức hòa vốn. Llama thì sau khoảng ván 740, kết thúc giai đoạn thăm dò, bắt đầu tụt dốc không phanh, vững vàng ở vị trí cuối bảng, còn GLM thì tụt lại sau ở khoảng ván 1440.
Ngoài tỷ suất lợi nhuận, các số liệu thống kê kỹ thuật còn thể hiện "tính cách" khác nhau của từng AI.

Ở chỉ số VPIP (Voluntarily Put $ In Pot - tự nguyện bỏ tiền vào pot), Llama đạt 61%, tức là hơn một nửa số vòng đều chọn cược, ba AI chơi chắc thì số lần ra tay cũng ít nhất, các AI xếp hạng cao có VPIP trong khoảng 25% đến 30%.
Ở chỉ số PFR (Pre-Flop Raise - tố trước flop), Llama lại tiếp tục dẫn đầu, Gemini - AI có lợi nhuận cao nhất - theo sát phía sau. Nhìn vào đây, có thể thấy Llama của Meta là một thí sinh quá hiếu chiến và chủ động, còn Gemini tuy cũng khá chủ động nhưng ở mức vừa phải, có thể dám cược khi bài mạnh và gặp đúng Llama "liều mạng", khiến lợi nhuận của hai bên đi về hai thái cực.
Kết hợp thêm các số liệu về 3-Bet và C-Bet, có thể thấy Grok thực chất là một AI khá điềm tĩnh nhưng không quá bị động, và có sức ép lớn trước flop, phong cách này giúp Grok dẫn đầu ở giai đoạn đầu, nhưng sau đó chiến lược tấn công của Gemini và ChatGPT cộng thêm sự "lên đồng" của Llama đã giúp các AI này vượt lên.
Các AI phân tích như thế nào?
Max Pavlov đã đặt ra một số quy tắc cơ bản cho giải đấu này: blind 10/20 USD, không có ante và không cho phép straddle, 9 thí sinh cùng lúc chơi trên 4 bàn, khi chip dưới 100 big blind thì hệ thống tự động bổ sung lên 100 big blind.
Thêm vào đó, tất cả AI dùng chung một bộ prompt, giới hạn số token tối đa để hạn chế độ dài suy luận, nếu phản hồi bất thường thì mặc định fold. Max Pavlov còn thiết kế việc hỏi AI về quá trình ra quyết định khi AI hành động hoặc sau mỗi ván bài.
Lấy một ván bài đang diễn ra khi viết bài này làm ví dụ để xem các AI phân tích ra sao.

Sau khi Claude và Gemini chia nhau small blind và big blind, Llama cho rằng 8 bích và Q chuồn là bài "tương đối mạnh", có thể hy vọng vào sảnh hoặc thùng nên theo cược 20.

DeepSeek cho rằng Q cơ và 2 cơ ở vị trí của mình quá yếu không đáng để theo, GLM thì cho rằng ở vị trí giữa có thể tố với bài đồng chất để xây pot với Llama chơi lỏng, 80 USD cũng đủ gây áp lực mà vẫn kiểm soát được pot. Kimi cầm bài cùng số với Llama nhưng khác chất thì cho rằng bài quá yếu và đối mặt với áp lực 3-Bet sau đó nên không đáng để theo.
Đến đây có thể thấy Llama không phân tích dữ liệu và vị trí, cơ bản là "đánh liều" cược, còn ba AI sau đều dựa vào vị trí và dữ liệu trước đó để đưa ra phán đoán.

Sau khi GPT o3 mạnh dạn tố 260 vì cầm A, Grok và Magistral đều chọn fold, đặc biệt Grok đã đoán được GPT có thể cầm AK hoặc đôi lớn hơn mình, cộng thêm nhịp độ "liều mạng" của Llama nên chỉ còn cách bỏ bài.

Sau đó, Gemini, Llama và GLM cũng đều chọn fold. GLM cũng cho rằng GPT rất có thể cầm đôi lớn hoặc có A, còn Llama thì không phân tích dữ liệu, chỉ cảm thấy bài mình cũng khá mạnh nhưng không đủ mạnh để theo cược 260.
Sự "lên đồng" của Llama, sự thận trọng của DeepSeek, Kimi và sự táo bạo của GPT đều thể hiện rõ trong ván này, cuối cùng GPT thắng pot mà không cần lật bài. Khi bài viết này đang được thực hiện, lợi nhuận của bốn AI dẫn đầu vẫn tiếp tục tăng, có thể dự đoán chức vô địch sẽ thuộc về một trong bốn AI này, những AI không thể hiện tốt ở mảng giao dịch tiền mã hóa đã chứng minh được năng lực ở bàn poker.
Dù nhiều phòng thí nghiệm sẽ dùng các phương pháp khoa học để kiểm tra năng lực AI, nhưng với người dùng, điều quan tâm hơn là AI có thể phục vụ mình không. DeepSeek chơi poker không tốt nhưng lại là một nhà giao dịch xuất sắc, còn Gemini thì "gà mờ" trong giao dịch nhưng lại "bá đạo" trên bàn poker. Khi AI xuất hiện ở các bối cảnh khác nhau, chúng ta có thể nhìn thấy lĩnh vực mà mỗi AI thực sự mạnh thông qua những hành vi và kết quả dễ hiểu.
Tất nhiên, vài ngày giao dịch hay vài ngày chơi poker không thể kết luận về năng lực của một AI ở lĩnh vực này cũng như khả năng tiến hóa trong tương lai. Quyết định của AI không bị chi phối bởi cảm xúc, quá trình ra quyết định phụ thuộc vào logic thuật toán nền tảng, thậm chí ngay cả nhà phát triển cũng không rõ AI tự phát triển của mình mạnh ở điểm nào.
Thông qua những thử nghiệm giải trí ngoài phòng thí nghiệm này, chúng ta có thể quan sát trực quan hơn logic của AI khi đối mặt với những việc và trò chơi quen thuộc, từ đó mở rộng thêm ranh giới tư duy giữa con người và AI.
Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.
Bạn cũng có thể thích
Câu chuyện, cảm xúc và tỷ lệ cược: Góc nhìn đầu cơ Meme của KOL Trung Quốc Đại Vũ
Hầu hết những người tham gia vào Meme đều bị thúc đẩy bởi động cơ đầu cơ.
Câu hỏi 308 tỷ đô la: Liệu stablecoin có thể phát triển mạnh mẽ giữa lệnh cấm của Trung Quốc?
MetaMask tiến tới việc hợp nhất ví crypto bằng cách thêm Bitcoin
Fed hủy bỏ việc cắt giảm lãi suất vào tháng 12, khả năng tăng lãi suất là 18%, làm chậm đà tăng của Bitcoin
