Đánh giá AI từ góc độ định lượng: Kỳ vọng lợi nhuận của tất cả mọi người đều dưới 1, trí tuệ nhân tạo còn xa bao nhiêu để thay thế các nhà giao dịch?

PANews

2025-11-24 06:43:22

Tác giả: Frank, PANews

Nếu bạn có 10000 đô la, bạn sẽ chọn tin tưởng vào trí tuệ nhân tạo nào để điều hành cho bạn?

Trước đây, PANews đã có một bài tổng kết về cuộc thi giao dịch AI của nof1.ai (Bài viết liên quan: Sáu “nhà giao dịch” AI, mười ngày đối đầu: Một lớp học công khai về xu hướng, kỷ luật và tham lam). Tuy nhiên, thời gian diễn ra cuộc thi của nof1.ai chỉ áp dụng cho một khoảng thời gian cụ thể, và dường như khả năng giao dịch cuối cùng của các mô hình AI lớn không thể hoàn toàn thể hiện dưới những chu kỳ giao dịch nhất định. Thêm vào đó, mọi người cũng cần một câu trả lời cho khả năng dự đoán thực tế của các mô hình AI trong các điều kiện khác nhau. Hơn nữa, gần đây, các công ty AI đã công bố các mô hình lớn mới nhất, và thứ hạng khả năng của các mô hình cũng đang trong giai đoạn tái xếp hạng.

Để giải mã bí ẩn này, PANews đã tổ chức một cuộc thi “Đấu trường Trader AI”. Tìm hiểu khả năng đánh giá tình hình và lập kế hoạch giao dịch của mô hình AI trong các tình huống khác nhau. Ví dụ, mô hình nào chuyên về phân tích tình hình trên khung thời gian nào, và liệu tỷ lệ dự đoán của AI có tăng lên khi có các chỉ số hỗ trợ hay không.

Chúng tôi đã kéo dài thời gian từ năm 2017 đến nay, từ dữ liệu lịch sử BTC của Binance, đã ngẫu nhiên chọn 100 mẫu thị trường thực, xây dựng ba kịch bản kiểm tra cấp độ địa ngục: “K bare 4 giờ”, “Ngắn hạn 15 phút”, “Toàn bộ chỉ số 4 giờ”. Sáu thí sinh tham gia là đỉnh cao sức mạnh tính toán hiện nay của Trung Quốc và Mỹ: Gemini-3-pro, Doubao-1.6-vision, DeepSeek V3.2, Grok 4.1, GPT-5.1, Qwen3-max.

Bài kiểm tra này đã thu thập dữ liệu nến 15 phút của cặp giao dịch BTC trên sàn Binance từ tháng 8 năm 2017 đến nay và dữ liệu nến 4 giờ từ năm 2021 đến nay, với mỗi chu kỳ ngẫu nhiên tạo ra 50 bức ảnh có thời gian 100 nến, trong đó chu kỳ 4 giờ được chia thành hai loại, một là chỉ có nến và khối lượng giao dịch, loại còn lại là biểu đồ nến có thông tin về EMA, SMA, Bollinger Bands, MACD, RSI và các chỉ số khác. Biểu đồ nến 15 phút đều là biểu đồ nến trần (có khối lượng giao dịch). Đồng thời, cung cấp cho AI giá trị dữ liệu giá cụ thể hoặc giá trị dữ liệu chỉ số tương ứng với biểu đồ nến hiện tại. Tất cả các kết quả đầu ra của AI có thể xem tại đây.

Biểu đồ chỉ số trong 4 giờ

Hình minh họa biểu đồ nến thuần 4 giờ

Trong quá trình thử nghiệm, thông tin dữ liệu và lệnh mà mỗi mô hình lớn nhận được là hoàn toàn giống nhau. Từ một góc độ khác, điều này cũng thử thách khả năng đa phương thức của những mô hình lớn này (DeepSeek chỉ có mô hình văn bản, cuối cùng chỉ nhận được thông tin dữ liệu, không truyền tải hình ảnh).

Gemini 3: Vị vua của naked K bị “chỉ báo” phong ấn

Gemini 3 là mô hình AI lớn nhất và hot nhất hiện nay, từ các bình luận và thử nghiệm truyền thông sau khi phát hành vào ngày 18 tháng 11, có thể nói là mô hình AI đa phương tiện mạnh nhất hiện tại. Tuy nhiên, trong bài kiểm tra dự đoán giao dịch lần này, kết quả của Gemini 3 không phải là tốt nhất, chỉ có thể coi là đạt tiêu chuẩn. Trong ba kịch bản (nến trần không có chỉ báo trong 4 giờ, nến trần có chỉ báo trong 4 giờ, nến trần không có chỉ báo trong 15 phút), Gemini 3 thể hiện tốt nhất ở kịch bản nến trần không có chỉ báo trong 4 giờ, tỷ lệ thắng đạt 39.58%, tiếp theo là kịch bản nến trần không có chỉ báo trong 15 phút với 34.04%, trong khi ở tình huống có chỉ báo (khung thời gian tương tự), độ chính xác của chu kỳ 4 giờ lại giảm xuống 31%, là kịch bản kém nhất trong ba kịch bản.

Từ góc độ này, Gemini 3 dường như giỏi hơn trong việc phân tích trạng thái hình thái nến thuần túy, việc thêm các chỉ báo lại dễ bị nhiễu hơn. Trong quá trình thao tác cụ thể, không có chỉ báo, Gemini 3 dường như dám mở giao dịch hơn, trong trường hợp nến thuần túy, 95% thị trường sẽ chọn vào lệnh, trong khi tỷ lệ này giảm xuống còn 71% khi thêm chỉ báo. Đáng chú ý, Gemini 3 là mô hình duy nhất có lợi nhuận trong trường hợp nến thuần túy 4 giờ.

Trong bối cảnh 15 phút, tình hình lợi nhuận tổng thể của Gemini 3 là tốt nhất, tổng vị thế có lợi nhuận 15,34%, nhưng trong tình huống có chỉ báo lại thua lỗ 21,18%. Tuy nhiên, lợi nhuận này cũng chỉ là một sự may mắn ngắn hạn, dựa trên dữ liệu tỷ lệ lãi/lỗ mỗi lần, kỳ vọng lợi nhuận của Gemini 3 (tỷ lệ thắng* tỷ lệ lãi/lỗ) đều dưới 1, điều này có nghĩa là về lâu dài đều là trạng thái thua lỗ.

DeepSeek V3.2: “Máy quét lệnh siêu ngắn hạn ổn định như chó già”

DeepSeek là mô hình có hiệu suất thắng tổng hợp tốt nhất trong sáu mô hình, tương đối cũng là mô hình ổn định nhất. Trong ba kịch bản (K nến trần 4 giờ, K nến trần 4 giờ có chỉ báo, K nến trần 15 phút), tỷ lệ thắng lần lượt là 40%, 41.38%, 42.86%. Từ điều này, có thể thấy khả năng dự đoán của DeepSeek tương đối ổn định trong các chu kỳ khác nhau và có hay không chỉ báo.

Tuy nhiên, tình hình lợi nhuận cuối cùng của DeepSeek không khả quan, nguyên nhân là do tỷ lệ lợi nhuận trên rủi ro quá thấp, chỉ trung bình là 1.25. Tỷ lệ lợi nhuận trên rủi ro như vậy cũng cho thấy DeepSeek thiếu khả năng để để lợi nhuận chạy trong quá trình giao dịch. Do đó, tổng thể dẫn đến kỳ vọng lợi nhuận của nó gần như chỉ ở khoảng 0.5, và về lâu dài cũng thiếu khả năng sinh lợi. Hơn nữa, DeepSeek cũng tương đối bảo thủ trong quyết định mở vị thế, tỷ lệ mở vị thế tổng thể chỉ là 58%.

Doubao (豆包)：Giải thưởng “MVP toàn diện” của cuộc thi này

Trong cuộc thi thử nghiệm này, kết quả tổng hợp của Doubao1.6-vision là tốt nhất. Trong bối cảnh có chỉ báo trong 4 giờ, tỷ lệ thắng của Doubao1.6-vision đạt mức cao nhất trong thử nghiệm, đạt 50%, và lợi nhuận cuối cùng đạt 22,2%. Đồng thời, trong chu kỳ ngắn 15 phút, tổng thể cũng đạt được mức lợi nhuận 8,2%. Đây là mô hình duy nhất có thể ổn định sinh lời ở hai chiều khác nhau (ngắn hạn và chỉ báo 4 giờ).

Ngoài ra, kết quả của Doubao1.6-vision không được đạt được trong một phong cách tương đối bảo thủ, mà được thực hiện với tỷ lệ mở vị thế trung bình trên 92%. Điều này có nghĩa là Doubao1.6-vision đã chọn mở vị thế trong hầu hết các tình huống. Tuy nhiên, nhìn chung, khả năng của Doubao1.6-vision cũng rất phụ thuộc vào tín hiệu chỉ báo, trong trường hợp không có chỉ báo, tổng lợi nhuận chênh lệch 38%. Thêm vào đó, từ dữ liệu tỷ lệ lợi nhuận và thua lỗ, tỷ lệ thua lỗ của Doubao1.6-vision trong hai chu kỳ có lợi nhuận dương đều khá cao, điều này cũng là lý do khiến nó thể hiện tốt tổng thể.

Grok 4.1: “Người đánh cược quyết liệt” từ xAI

Phong cách tổng thể của Grok 4.1 là táo bạo nhưng phụ thuộc vào các chỉ số theo quý, đồng thời sẵn sàng theo đuổi lợi nhuận lớn hơn. Trong ba kịch bản, chỉ có kịch bản có chỉ số trong 4 giờ trong tuần, Grok 4.1 đạt tỷ lệ thắng 34,69%, trong khi tỷ lệ thắng ở hai kịch bản còn lại rất thấp. Trong trường hợp chỉ sử dụng nến 4 giờ, tỷ lệ thắng chỉ là 14,58%, còn trong chu kỳ 15 phút là 26,53%. Nhưng tỷ lệ mở lệnh trung bình lại cao tới 98%, gần như sẵn sàng mở lệnh trong tất cả các tình huống nến. Từ góc độ này, phong cách của Grok 4.1 giống như một con bạc không thể kiềm chế.

Tuy nhiên, tỷ lệ lãi lỗ của Grok 4.1 thường khá cao, với giá trị trung bình đạt 2, là cao nhất trong tất cả các mô hình. Nhưng tổng thể mà nói, nếu bạn giao tiền cho Grok 4.1, đó không phải là một lựa chọn khôn ngoan.

GPT 5.1: Những kẻ bi quan “hết sức thận trọng” trong tình trạng “chết ngạt”

Phong cách mở lệnh của GPT 5.1 và Grok 4.1 hoàn toàn đối lập. GPT 5.1 có thể nói là cực kỳ cẩn trọng trong mức độ này, trong hầu hết các trường hợp, nó đều chọn cách quan sát. Cuối cùng, trong 150 lần kiểm tra, chỉ mở lệnh 52 lần, tỷ lệ mở vị thế trung bình chỉ có 0,34%.

Tuy nhiên, ngay cả với sự cẩn trọng nhỏ như vậy, cũng không mang lại hiệu suất tỷ lệ thắng tốt hơn cho GPT 5.1. Trong những tình huống tốt nhất, nó chỉ đạt được tỷ lệ thắng 35%. Và so với các khung thời gian 4 giờ và 15 phút sau đó, GPT 5.1 rõ ràng không giỏi trong việc mở vị thế dài hạn, ngay cả khi có thêm các chỉ báo kỹ thuật, tỷ lệ thắng trong khung thời gian 4 giờ cũng chỉ có 27%. Trong khi đó, ở khung thời gian 15 phút, với tỷ lệ lợi nhuận trên rủi ro cao (2.02), nó mới có được phản hồi lợi nhuận dương, kết quả cuối cùng là 9.9%.

Ngoài ra, GPT 5.1 còn có một đặc điểm là chủ nghĩa bi quan rõ rệt, rất thích bán khống. Hơn 70% các đơn hàng là đơn hàng bán.

Qwen 3：Người “sợ rủi ro” như vàng từng chữ

Qwen 3 rõ ràng là mô hình lớn cẩn thận nhất, nó chỉ mở vị thế 44 lần trong tất cả các bài kiểm tra, tỷ lệ mở vị thế chỉ có 29%. Tuy nhiên, giống như GPT, sự cẩn thận cực đoan này cũng không mang lại tỷ lệ thắng cao hơn. Tỷ lệ thắng trung bình của nó chỉ có 34%, và tình huống tốt nhất của nó là trong bối cảnh có chỉ báo trong 4 giờ.

Ngoài ra, tỷ lệ lợi nhuận và thua lỗ của Qwen 3 cũng khá cao, đạt 1.96. Có vẻ như nó thuộc về những người chơi có tâm lý tránh rủi ro, giỏi hơn trong việc giảm số lần mở lệnh, nhưng để lợi nhuận tiếp tục chạy. Trong bối cảnh chỉ báo 4 giờ, kỳ vọng lợi nhuận của Qwen 3 cũng gần với mức có lãi nhất, đạt 0.95, là mức cao nhất trong tất cả các mô hình.

Tình hình tổng hợp dữ liệu

Tóm tắt:

Tổng quan, chúng ta có thể rút ra một số điểm từ quá trình giao dịch mô phỏng của những AI này.

Đầu tiên, đối với hầu hết các mô hình, việc có chỉ báo sẽ đáng tin cậy hơn so với biểu đồ nến thuần túy. Trong trường hợp có chỉ báo, tỷ lệ thắng trung bình của sáu mô hình này đạt 38%, trong khi tỷ lệ thắng chỉ có 30% khi không có chỉ báo.

Thứ hai, AI có thể giỏi hơn trong giao dịch ngắn hạn, chứ không phải giao dịch dài hạn. Trong kịch bản K-line thuần túy 15 phút, tỷ lệ thắng trung bình của sáu mô hình lớn đạt 34%, cao hơn 30% của chu kỳ 4 giờ. Trong sáu mô hình, có ba mô hình có lãi (Gemini, GPT, Doubao), và tỷ lệ lợi nhuận trung bình thường khá tốt.

Thứ ba, việc hoàn toàn giao vị thế cho AI là không nên. Trong quá trình thử nghiệm này, tất cả các mô hình AI đều có kỳ vọng lợi nhuận thấp hơn 1, điều này cũng cho thấy nếu giữ theo tỷ lệ thắng và tỷ lệ lỗ lãi như vậy trong thời gian dài, kết quả cuối cùng của họ đều là thua lỗ. Chỉ là khác nhau về tốc độ thua lỗ (tuy nhiên, ở đây do không thực hiện đào tạo chuyên biệt cho các mô hình AI, các chỉ số sử dụng cũng chỉ là các chỉ số thông dụng khá đơn giản). Do đó, nếu bạn muốn để AI thay thế bạn thực hiện giao dịch, có thể bạn sẽ cần một quá trình đào tạo phức tạp hơn và nhiều dữ liệu kiểm tra lại hơn.

Khi cuộc chiến sức mạnh tính toán này kết thúc, nhìn vào con số cuối cùng của số dư tài khoản, bài học quan trọng nhất mà chúng ta có thể rút ra có lẽ không phải là “mô hình nào mạnh nhất”, mà là “ranh giới của giao dịch AI ở đâu”. Kết luận cuối cùng là, AI ngày nay có lẽ vẫn chưa thể thay thế trực tiếp một nhà quản lý quỹ xuất sắc, nhưng chúng đã tiến hóa thành một trợ lý giao dịch tương đối trưởng thành về một mặt, có cái giỏi nhìn biểu đồ, có cái giỏi kiểm soát rủi ro, có cái giỏi phân tích dữ liệu để đạt được tỷ lệ thắng ổn định. Còn về kỳ vọng ngày càng cao của mọi người đối với AI, việc để AI thay thế con người trong giao dịch vẫn là một đề bài phức tạp.

BTC1.54%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.