Evaluasi AI dari sudut pandang kuantitatif: harapan keuntungan semua orang kurang dari 1, seberapa jauh kecerdasan buatan dari menggantikan trader?

PANews

2025-11-24 06:43:22

Penulis: Frank, PANews

Jika Anda diberikan 10000 dolar, kecerdasan buatan mana yang akan Anda percayai untuk mengelola investasi Anda?

Sebelumnya, PANews pernah melakukan tinjauan terhadap kompetisi perdagangan AI dari nof1.ai (baca selengkapnya: Enam “pedagang” AI, sepuluh hari duel: sebuah pelajaran publik tentang tren, disiplin, dan keserakahan). Namun, dalam kompetisi nof1.ai, efektivitasnya ditujukan untuk periode pasar tertentu, dan kemampuan perdagangan akhir dari setiap model AI besar tampaknya tidak sepenuhnya dapat ditunjukkan dalam periode perdagangan tertentu. Selain itu, orang juga sangat membutuhkan jawaban tentang kemampuan prediksi aktual model AI dalam kondisi yang berbeda. Ditambah lagi, baru-baru ini berbagai perusahaan AI telah merilis model besar terbaru, dan peringkat kemampuan model sedang dalam tahap peringkat ulang.

Untuk mengungkap misteri ini, PANews merancang sebuah “Turnamen Trader AI”. Memahami kemampuan model AI dalam menilai pasar dan merencanakan perdagangan dalam berbagai skenario. Misalnya, analisis pasar pada kerangka waktu tertentu mana yang lebih unggul, serta apakah tingkat keberhasilan prediksi AI akan meningkat dengan adanya indikator sebagai kondisi pendukung.

Kami memperpanjang garis waktu dari 2017 hingga sekarang, mengambil 100 potongan data pasar nyata secara acak dari data historis BTC Binance, dan membangun tiga skenario pengujian tingkat neraka: “4 jam naked K”, “15 menit trading jangka pendek”, dan “4 jam semua indikator”. Enam peserta adalah puncak kekuatan komputasi saat ini di Tiongkok dan Amerika: Gemini-3-pro, Doubao-1.6-vision, DeepSeek V3.2, Grok 4.1, GPT-5.1, Qwen3-max.

Uji coba ini mengumpulkan data K-line 15 menit dari pasangan perdagangan spot BTC Binance dari Agustus 2017 hingga sekarang serta data K-line 4 jam dari 2021 hingga sekarang. Setiap periode secara acak menghasilkan 50 gambar dengan rentang waktu 100 K-line, di mana periode 4 jam dibagi menjadi dua jenis: satu hanya gambar K-line dan volume perdagangan, yang lainnya adalah grafik K-line yang dilengkapi dengan informasi indikator seperti EMA, SMA, Bollinger Bands, MACD, RSI, dan lainnya. Grafik K-line 15 menit semuanya adalah grafik K-naked (dengan volume perdagangan). Dan secara bersamaan memberikan data nilai harga spesifik atau nilai data indikator yang sesuai dengan grafik K-line saat ini kepada AI. Semua hasil keluaran AI dapat dilihat di sini.

Diagram indikatif dengan indikator 4 jam

Diagram K-line 4 jam murni

Selama proses pengujian, informasi data dan perintah yang diperoleh oleh setiap model besar adalah sama persis. Dari sudut pandang lain, ini juga menguji kemampuan multimodal dari model-model besar ini (DeepSeek hanya memiliki model teks, sehingga yang diterima pada akhirnya hanyalah informasi data, tanpa gambar yang ditransmisikan).

Gemini 3 : Raja K telanjang yang disegel oleh “indikator”

Gemini 3 adalah model AI besar yang paling populer saat ini. Berdasarkan komentar media dan pengujian setelah diluncurkan pada 18 November, bisa dikatakan bahwa ini adalah model AI multimodal dengan kemampuan komprehensif terbaik saat ini. Namun, dalam pengujian prediksi perdagangan kali ini, hasil Gemini 3 tidak bisa dianggap yang terbaik, hanya berada dalam kategori rata-rata. Di antara tiga skenario (4 jam naked K, 4 jam dengan indikator, 15 menit naked K), Gemini 3 menunjukkan performa terbaik di skenario 4 jam naked K, dengan tingkat kemenangan mencapai 39,58%, diikuti oleh skenario 15 menit naked K sebesar 34,04%. Dalam kondisi dengan indikator (periode waktu yang sama), akurasi siklus 4 jam justru turun menjadi 31%, yang merupakan yang terburuk di antara ketiga skenario.

Dari sudut pandang ini, Gemini 3 tampaknya lebih mahir dalam kondisi murni pola candlestick, dan setelah menambahkan indikator, justru menjadi lebih mudah terganggu. Dalam proses operasional yang spesifik, tanpa indikator, Gemini 3 tampaknya lebih berani membuka posisi, dalam kondisi candlestick murni, 95% pasar akan memilih untuk masuk, sementara setelah menambahkan indikator, proporsi ini turun menjadi 71%. Perlu dicatat bahwa Gemini 3 adalah satu-satunya model yang menghasilkan keuntungan dalam kondisi candlestick murni 4 jam.

Dalam skenario 15 menit, kinerja profitabilitas keseluruhan Gemini 3 adalah yang terbaik, dengan total posisi menguntungkan 15,34%, sedangkan dalam skenario dengan indikator justru mengalami kerugian sebesar 21,18%. Namun, keuntungan ini juga merupakan keberuntungan jangka pendek, jika dilihat dari data rasio profit dan rugi setiap kali, harapan profit Gemini 3 (tingkat kemenangan*rasio profit dan rugi) semuanya di bawah 1, yang berarti dalam jangka panjang tetap dalam keadaan merugi.

DeepSeek V3.2: Mesin “pembelian cepat” yang stabil seperti anjing tua

DeepSeek adalah model dengan kinerja kemenangan terbaik di antara enam model, dan relatif juga yang paling stabil. Dalam tiga skenario (4 jam naked K, 4 jam dengan indikator, 15 menit naked K), tingkat kemenangannya masing-masing adalah 40%, 41,38%, 42,86%. Dari sini, dapat dilihat bahwa kemampuan prediksi DeepSeek relatif stabil di berbagai periode, baik dengan maupun tanpa indikator.

Namun, kinerja keuntungan DeepSeek pada akhirnya tidak baik, disebabkan oleh rasio untung-rugi yang terlalu rendah, dengan rata-rata hanya 1,25. Rasio untung-rugi yang cenderung untuk mengambil keuntungan ini juga mencerminkan kurangnya kemampuan DeepSeek untuk membiarkan keuntungan berkembang selama proses perdagangan. Oleh karena itu, secara keseluruhan menyebabkan harapan keuntungan mereka hampir berada di sekitar 0,5, yang juga kurang memiliki kemungkinan keuntungan dalam jangka panjang. Selain itu, DeepSeek juga relatif konservatif dalam hal keputusan membuka posisi, dengan proporsi pembukaan posisi secara keseluruhan hanya 58%.

Doubao (豆包): Kompetisi ini memiliki “MVP Serba Bisa”

Dalam pertandingan uji coba ini, hasil keseluruhan Doubao1.6-vision adalah yang terbaik. Dalam skenario dengan indikator 4 jam, tingkat kemenangan Doubao1.6-vision mencapai data tertinggi dalam pengujian, mencapai 50%, dengan total keuntungan mencapai 22,2%. Sementara itu, dalam periode pendek 15 menit, secara keseluruhan juga memperoleh tingkat keuntungan sebesar 8,2%. Ini adalah satu-satunya model yang dapat menghasilkan keuntungan secara stabil pada dua dimensi yang berbeda (jangka pendek dan indikator 4 jam).

Dan, hasil dari Doubao1.6-vision ini tidak dicapai dalam gaya yang relatif konservatif, melainkan dicapai dengan rasio pembukaan posisi rata-rata di atas 92%. Dengan kata lain, Doubao1.6-vision memilih untuk membuka posisi dalam sebagian besar skenario. Namun, jika dilihat secara relatif, kemampuan Doubao1.6-vision juga sangat bergantung pada sinyal indikator, di mana tanpa indikator, total keuntungan berbeda sebesar 38%. Selain itu, dari data rasio untung-rugi, Doubao1.6-vision memiliki rasio kerugian rata-rata yang cukup tinggi dalam dua periode dengan hasil positif, yang juga merupakan alasan mengapa kinerjanya secara keseluruhan sangat baik.

Grok 4.1: “Petaruh Radikal” dari xAI

Grok 4.1 memiliki gaya keseluruhan yang berani namun tergantung pada indikator kuartalan, sambil bersedia mengejar profit yang lebih besar. Dalam tiga skenario, hanya dalam skenario 4 jam dengan indikator, Grok 4.1 memperoleh tingkat kemenangan sebesar 34,69%, sementara dua skenario lainnya memiliki tingkat kemenangan yang sangat rendah. Dalam kasus murni candlestick 4 jam, tingkat kemenangannya hanya 14,58%, dan dalam periode 15 menit adalah 26,53%. Namun, rasio pembukaan posisi rata-ratanya mencapai 98%, hampir selalu bersedia membuka posisi dalam semua skenario candlestick. Dari sudut pandang ini, gaya Grok 4.1 lebih mirip dengan seorang penjudi yang tidak bisa menahan diri.

Namun, rasio untung rugi Grok 4.1 seringkali cukup tinggi, dengan rata-rata mencapai 2, yang merupakan yang tertinggi di antara semua model. Tetapi secara keseluruhan, jika Anda menyerahkan dana Anda kepada Grok 4.1, itu bukanlah pilihan yang bijak.

GPT 5.1: Skeptis ekstrem “short seller” yang sangat hati-hati

Gaya pembukaan posisi GPT 5.1 dan Grok 4.1 benar-benar bertolak belakang. GPT 5.1 sangat berhati-hati, dalam sebagian besar kasus, ia memilih untuk mengamati. Dalam 150 pengujian yang dilakukan, hanya membuka posisi sebanyak 52 kali, dengan rata-rata pembukaan posisi hanya 0,34%.

Namun, meskipun dengan kehati-hatian semacam itu, itu tidak dapat memberikan kinerja tingkat kemenangan yang lebih baik untuk GPT 5.1. Dalam skenario terbaik, ia hanya memperoleh tingkat kemenangan 35%. Dan dibandingkan dengan periode 4 jam dan 15 menit, GPT 5.1 jelas tidak terlalu ahli dalam membuka posisi jangka panjang, bahkan dengan tambahan indikator teknis, tingkat kemenangan 4 jam hanya 27%. Sementara dalam periode 15 menit, dengan rasio laba rugi yang tinggi (2.02), baru bisa mendapatkan umpan balik positif, dengan hasil akhir 9.9%.

Selain itu, GPT 5.1 memiliki ciri khas yang jelas berupa pesimisme, sangat antusias untuk melakukan short. Lebih dari 70% pesanan adalah posisi short.

Qwen 3: penakut risiko yang sangat berhati-hati

Qwen 3 jelas merupakan model besar yang paling hati-hati, dia hanya membuka posisi sebanyak 44 kali dalam semua pengujian, dengan rasio pembukaan posisi hanya 29%. Namun, seperti GPT, kehati-hatian ekstrim ini juga tidak menghasilkan tingkat kemenangan yang lebih tinggi. Tingkat kemenangannya rata-rata hanya 34%, dengan kinerja terbaik terjadi pada skenario dengan indikator 4 jam.

Selain itu, rasio untung rugi Qwen 3 juga cukup tinggi. Mencapai 1,96. Tampaknya ia termasuk dalam kategori pemain yang menghindari risiko, lebih mahir dalam mengurangi jumlah open order, tetapi membiarkan keuntungan berjalan. Dan dalam skenario dengan indikator jalur 4 jam, ekspektasi keuntungan Qwen 3 juga paling mendekati profit, mencapai 0,95 yang merupakan yang tertinggi di antara semua model.

Ringkasan Data

Ringkasan:

Secara keseluruhan, kita mungkin mendapatkan beberapa wawasan dari proses perdagangan simulasi AI ini.

Pertama, untuk sebagian besar model, grafik dengan indikator lebih dapat diandalkan dibandingkan dengan grafik candlestick murni. Dengan indikator, rata-rata tingkat kemenangan dari enam model ini mencapai 38%, sedangkan tanpa indikator, tingkat kemenangan hanya 30%.

Kedua, AI mungkin lebih mahir dalam perdagangan jangka pendek, bukan perdagangan jangka panjang. Dalam skenario murni candlestick 15 menit, rata-rata tingkat kemenangan dari enam model besar mencapai 34%, lebih tinggi dari 30% pada periode 4 jam. Dari enam model, tiga di antaranya menguntungkan (Gemini, GPT, Doubao), dan rasio keuntungan terhadap kerugian umumnya cukup baik.

Ketiga, menyerahkan posisi sepenuhnya kepada AI tidaklah bijaksana. Selama proses pengujian ini, semua model AI memiliki harapan keuntungan yang lebih rendah dari 1, dan jika dilihat dari tingkat kemenangan dan rasio untung-rugi seperti itu, hasil akhirnya adalah kerugian. Hanya saja perbedaannya terletak pada seberapa cepat kerugian tersebut terjadi (namun, di sini karena model AI tidak dilatih secara khusus, indikator yang digunakan juga hanyalah indikator umum yang relatif sederhana). Oleh karena itu, jika Anda ingin AI menggantikan diri Anda dalam melakukan perdagangan, mungkin diperlukan proses pelatihan yang lebih kompleks dan lebih banyak data backtesting.

Ketika pertarungan kekuatan ini berakhir, melihat angka akhir saldo akun, pelajaran terpenting yang kita dapatkan mungkin bukan “model mana yang paling kuat”, tetapi “di mana batasan perdagangan AI”. Kesimpulan akhirnya adalah, AI hari ini mungkin masih belum bisa langsung menggantikan seorang manajer investasi yang baik, tetapi mereka telah berevolusi menjadi asisten perdagangan yang relatif matang dalam satu aspek, ada yang ahli dalam analisis grafik, ada yang mahir dalam manajemen risiko, dan ada yang ahli dalam analisis data untuk mencapai tingkat kemenangan yang stabil. Dan untuk harapan yang semakin meningkat terhadap AI, menginginkan AI menggantikan manusia dalam melakukan perdagangan tetap merupakan sebuah proposisi yang kompleks.

BTC1.54%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.