Bitget App
Giao dịch thông minh hơn
Mua CryptoThị trườngGiao dịchFutures‌EarnWeb3Quảng trườngThêm
Giao dịch
Spot
Mua bán tiền điện tử
Ký quỹ
Gia tăng vốn và tối ưu hiệu quả đầu tư
Onchain
Tương tác on-chain dễ dàng với Onchain
Convert & GD khối lượng lớn
Chuyển đổi tiền điện tử chỉ với một nhấp chuột và không mất phí
Khám phá
Launchhub
Giành lợi thế sớm và bắt đầu kiếm lợi nhuận
Sao chép
Sao chép elite trader chỉ với một nhấp
Bots
Bot giao dịch AI đơn giản, nhanh chóng và đáng tin cậy
Giao dịch
USDT-M Futures
Futures thanh toán bằng USDT
USDC-M Futures
Futures thanh toán bằng USDC
Coin-M Futures
Futures thanh toán bằng tiền điện tử
Khám phá
Hướng dẫn futures
Hành trình giao dịch futures từ người mới đến chuyên gia
Chương trình ưu đãi futures
Vô vàn phần thưởng đang chờ đón
Bitget Earn
Sản phẩm kiếm tiền dễ dàng
Simple Earn
Nạp và rút tiền bất cứ lúc nào để kiếm lợi nhuận linh hoạt không rủi ro
On-chain Earn
Kiếm lợi nhuận mỗi ngày và được đảm bảo vốn
Structured Earn
Đổi mới tài chính mạnh mẽ để vượt qua biến động thị trường
Quản lý Tài sản và VIP
Dịch vụ cao cấp cho quản lý tài sản thông minh
Vay
Vay linh hoạt với mức độ an toàn vốn cao
Nút thắt tỷ đô của AI: Dữ liệu chất lượng, không phải mô hình | Ý kiến

Nút thắt tỷ đô của AI: Dữ liệu chất lượng, không phải mô hình | Ý kiến

CryptoNewsNetCryptoNewsNet2025/09/06 22:42
Hiển thị bản gốc
Theo:crypto.news

AI có thể sẽ trở thành ngành công nghiệp nghìn tỷ đô tiếp theo, nhưng nó đang âm thầm tiến gần đến một điểm nghẽn lớn. Trong khi mọi người đều chạy đua để xây dựng các mô hình lớn hơn và mạnh mẽ hơn, một vấn đề đang lơ lửng lại phần lớn chưa được giải quyết: chúng ta có thể sẽ cạn kiệt dữ liệu huấn luyện có thể sử dụng chỉ trong vài năm tới.

Tóm tắt
  • AI đang cạn kiệt nhiên liệu: Bộ dữ liệu huấn luyện đã tăng trưởng 3,7 lần mỗi năm, và chúng ta có thể sẽ sử dụng hết nguồn dữ liệu công khai chất lượng trên thế giới từ năm 2026 đến 2032.
  • Thị trường gắn nhãn dữ liệu đang bùng nổ từ 3,7 tỷ USD (2024) lên 17,1 tỷ USD (2030), trong khi quyền truy cập vào dữ liệu thực tế của con người ngày càng bị thu hẹp bởi các "khu vườn có tường rào" và quy định.
  • Dữ liệu tổng hợp là chưa đủ: Vòng lặp phản hồi và thiếu sắc thái thực tế khiến nó trở thành lựa chọn thay thế rủi ro cho dữ liệu đầu vào lộn xộn do con người tạo ra.
  • Quyền lực đang chuyển sang tay những người nắm giữ dữ liệu: Khi các mô hình trở nên phổ biến, yếu tố khác biệt thực sự sẽ là ai sở hữu và kiểm soát các bộ dữ liệu độc đáo, chất lượng cao.

Theo EPOCH AI, kích thước của các bộ dữ liệu huấn luyện cho các mô hình ngôn ngữ lớn đã tăng trưởng với tốc độ khoảng 3,7 lần mỗi năm kể từ năm 2010. Với tốc độ đó, chúng ta có thể sẽ cạn kiệt nguồn dữ liệu huấn luyện công khai, chất lượng cao trên thế giới vào khoảng từ năm 2026 đến 2032.

Ngay cả trước khi chúng ta chạm đến giới hạn đó, chi phí thu thập và xử lý dữ liệu đã được gắn nhãn đang tăng vọt. Thị trường thu thập và gắn nhãn dữ liệu được định giá 3,77 tỷ USD vào năm 2024 và dự kiến sẽ tăng vọt lên 17,10 tỷ USD vào năm 2030.

Bạn cũng có thể thích: Tương lai phụ thuộc vào AI mà chúng ta xây dựng: Tập trung hóa vs phi tập trung | Ý kiến

Sự tăng trưởng bùng nổ như vậy cho thấy một cơ hội rõ ràng, nhưng cũng là một điểm nghẽn rõ ràng. Các mô hình AI chỉ tốt khi dữ liệu huấn luyện của chúng tốt. Nếu không có một nguồn cung cấp dữ liệu mới, đa dạng và không thiên lệch có thể mở rộng, hiệu suất của các mô hình này sẽ đạt đến giới hạn và tính hữu ích của chúng sẽ bắt đầu suy giảm.

Vậy câu hỏi thực sự không phải là ai sẽ xây dựng mô hình AI vĩ đại tiếp theo. Mà là ai sở hữu dữ liệu và dữ liệu đó sẽ đến từ đâu?

Vấn đề dữ liệu của AI lớn hơn những gì bạn nghĩ

Trong thập kỷ qua, đổi mới AI chủ yếu dựa vào các bộ dữ liệu công khai: Wikipedia, Common Crawl, Reddit, kho mã nguồn mở và nhiều hơn nữa. Nhưng nguồn này đang cạn kiệt rất nhanh. Khi các công ty siết chặt quyền truy cập vào dữ liệu của họ và các vấn đề bản quyền ngày càng chồng chất, các công ty AI buộc phải suy nghĩ lại về cách tiếp cận của mình. Chính phủ cũng đang ban hành các quy định để hạn chế việc thu thập dữ liệu, và dư luận công chúng cũng đang chuyển sang phản đối ý tưởng huấn luyện các mô hình trị giá hàng tỷ đô la trên nội dung do người dùng tạo ra mà không được trả công.

Dữ liệu tổng hợp là một giải pháp được đề xuất, nhưng nó là một lựa chọn thay thế đầy rủi ro. Các mô hình được huấn luyện trên dữ liệu do mô hình tạo ra có thể dẫn đến vòng lặp phản hồi, ảo giác và hiệu suất suy giảm theo thời gian. Cũng có vấn đề về chất lượng: dữ liệu tổng hợp thường thiếu sự lộn xộn và sắc thái của dữ liệu thực tế, điều mà các hệ thống AI thực sự cần để hoạt động tốt trong các tình huống thực tế.

Điều đó khiến dữ liệu thực tế, do con người tạo ra trở thành tiêu chuẩn vàng, và nó ngày càng khó tiếp cận hơn. Hầu hết các nền tảng lớn thu thập dữ liệu con người, như Meta, Google và X (trước đây là Twitter), đều là các "khu vườn có tường rào". Quyền truy cập bị hạn chế, thương mại hóa hoặc bị cấm hoàn toàn. Tệ hơn, các bộ dữ liệu của họ thường thiên về các khu vực, ngôn ngữ và nhân khẩu học cụ thể, dẫn đến các mô hình thiên lệch và thất bại trong các trường hợp sử dụng thực tế đa dạng.

Tóm lại, ngành công nghiệp AI sắp phải đối mặt với một thực tế mà họ đã lâu bỏ qua: xây dựng một LLM khổng lồ chỉ là một nửa cuộc chiến. Nuôi dưỡng nó là nửa còn lại.

Tại sao điều này thực sự quan trọng

Có hai phần trong chuỗi giá trị AI: tạo mô hình và thu thập dữ liệu. Trong năm năm qua, gần như tất cả vốn và sự chú ý đều đổ vào việc tạo mô hình. Nhưng khi chúng ta đẩy giới hạn về kích thước mô hình, sự chú ý cuối cùng cũng chuyển sang nửa còn lại của phương trình.

Nếu các mô hình đang trở nên phổ biến, với các lựa chọn mã nguồn mở, phiên bản nhỏ gọn hơn và thiết kế tiết kiệm phần cứng, thì yếu tố khác biệt thực sự sẽ là dữ liệu. Các bộ dữ liệu độc đáo, chất lượng cao sẽ là nhiên liệu quyết định mô hình nào vượt trội hơn.

Chúng cũng mang lại các hình thức tạo giá trị mới. Người đóng góp dữ liệu trở thành các bên liên quan. Các nhà xây dựng có quyền truy cập vào dữ liệu mới hơn và năng động hơn. Và các doanh nghiệp có thể huấn luyện các mô hình phù hợp hơn với đối tượng mục tiêu của họ.

Tương lai của AI thuộc về các nhà cung cấp dữ liệu

Chúng ta đang bước vào một kỷ nguyên mới của AI, nơi ai kiểm soát dữ liệu sẽ nắm giữ quyền lực thực sự. Khi cuộc cạnh tranh để huấn luyện các mô hình tốt hơn, thông minh hơn ngày càng nóng lên, rào cản lớn nhất sẽ không còn là tính toán. Đó sẽ là việc tìm nguồn dữ liệu thực tế, hữu ích và hợp pháp để sử dụng.

Bây giờ câu hỏi không còn là liệu AI có thể mở rộng quy mô hay không, mà là ai sẽ cung cấp nhiên liệu cho sự mở rộng đó. Không chỉ là các nhà khoa học dữ liệu. Đó sẽ là những người quản lý dữ liệu, nhà tổng hợp, người đóng góp và các nền tảng kết nối họ lại với nhau. Đó chính là biên giới tiếp theo.

Vì vậy, lần tới khi bạn nghe về một biên giới mới trong trí tuệ nhân tạo, đừng hỏi ai đã xây dựng mô hình. Hãy hỏi ai đã huấn luyện nó, và dữ liệu đến từ đâu. Bởi vì cuối cùng, tương lai của AI không chỉ nằm ở kiến trúc. Nó nằm ở đầu vào.

Đọc thêm: Lưu trữ, không phải silicon, sẽ kích hoạt đột phá tiếp theo của AI | Ý kiến

Max Li

Max Li là nhà sáng lập và CEO tại OORT, nền tảng đám mây dữ liệu cho AI phi tập trung. Tiến sĩ Li là giáo sư, kỹ sư giàu kinh nghiệm và là nhà phát minh với hơn 200 bằng sáng chế. Ông từng làm việc về hệ thống 4G LTE và 5G với Qualcomm Research và có nhiều đóng góp học thuật về lý thuyết thông tin, học máy và công nghệ blockchain. Ông là tác giả cuốn sách có tựa đề “Reinforcement Learning for Cyber-physical Systems,” xuất bản bởi Taylor & Francis CRC Press.

0

Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.

PoolX: Khóa để nhận token mới.
APR lên đến 12%. Luôn hoạt động, luôn nhận airdrop.
Khóa ngay!

Bạn cũng có thể thích

Chris Larsen: Người tiên phong tái cấu trúc thanh toán xuyên biên giới

Từ thất bại khi còn nhỏ sửa xe mà không nhận được tiền, đến việc ba lần cách mạng hóa hệ thống tài chính với E-Loan, Prosper và Ripple, hãy xem Chris Larsen đã thay đổi thế giới thanh toán của người bình thường như thế nào.

Block unicorn2025/09/10 22:24
Chris Larsen: Người tiên phong tái cấu trúc thanh toán xuyên biên giới

Các cổ đông của Asset Entities phê duyệt việc sáp nhập với Strive của Ramaswamy để thành lập công ty kho bạc bitcoin

Công ty hợp nhất sẽ được đổi tên thành Strive, Inc. và tiếp tục giao dịch trên sàn Nasdaq với mã chứng khoán ASST. Cổ phiếu ASST đã đóng cửa phiên giao dịch thứ Ba tăng 17% và tiếp tục tăng thêm 35% trong phiên giao dịch ngoài giờ sau tin tức về việc phê duyệt sáp nhập.

The Block2025/09/10 21:57
Các cổ đông của Asset Entities phê duyệt việc sáp nhập với Strive của Ramaswamy để thành lập công ty kho bạc bitcoin

POP Culture Group mua 33 triệu đô la Bitcoin, lên kế hoạch mở rộng sang các khoản nắm giữ tiền mã hóa liên quan đến 'giải trí'

POP Culture Group (mã chứng khoán CPOP) vừa mua 300 BTC đầu tiên, trị giá khoảng 33 triệu USD. Công ty dự định xây dựng một “quỹ đầu tư tiền mã hóa đa dạng” bao gồm các tài sản tăng trưởng cao khác và các token liên quan đến “lĩnh vực giải trí Web3 toàn diện”.

The Block2025/09/10 21:57
POP Culture Group mua 33 triệu đô la Bitcoin, lên kế hoạch mở rộng sang các khoản nắm giữ tiền mã hóa liên quan đến 'giải trí'