Evaluación de IA desde una perspectiva cuantitativa: ¿las expectativas de ganancias son inferiores a 1 para todos, cuán lejos está la inteligencia artificial de reemplazar a los traders?

PANews

2025-11-24 06:43:22

Autor: Frank, PANews

Si te dieran 10000 dólares, ¿en qué inteligencia artificial confiarías para que operara por ti?

Anteriormente, PANews realizó un análisis sobre el concurso de trading de IA de nof1.ai (lectura relacionada: Seis “traders” de IA, diez días de duelo: una clase pública sobre tendencias, disciplina y codicia). Sin embargo, durante la competencia de nof1.ai, la efectividad de los plazos estaba dirigida a un período de mercado específico, y la capacidad de trading final de los grandes modelos de IA parece no poder mostrarse completamente en un ciclo de trading particular. Además, se necesita una respuesta sobre la capacidad de predicción real de los modelos de IA bajo diferentes condiciones. Sumado a esto, recientemente varias empresas de IA han lanzado sus últimos grandes modelos, y el ranking de las capacidades de los modelos también está en un proceso de reordenamiento.

Para desvelar este misterio, PANews ha organizado un “Campeonato de Traders de IA”. Se busca comprender la capacidad de juicio y planificación de trading de los grandes modelos de IA en diferentes escenarios. Por ejemplo, cuál es el marco temporal en el que son más hábiles para el análisis del mercado, y si la tasa de éxito de las predicciones de la IA se incrementa bajo condiciones auxiliares con indicadores.

Hemos ampliado la línea de tiempo desde 2017 hasta hoy, extrayendo aleatoriamente 100 muestras de mercado reales de los datos históricos de BTC de Binance, construyendo tres escenarios de prueba de nivel infernal: “K desnudo de 4 horas”, “corto de 15 minutos” y “todas las métricas de 4 horas”. Seis competidores son la cima del poder de cálculo entre China y Estados Unidos en la actualidad: Gemini-3-pro, Doubao-1.6-vision, DeepSeek V3.2, Grok 4.1, GPT-5.1, Qwen3-max.

En esta prueba se recopilaron datos de velas de 15 minutos del par de trading spot BTC de Binance desde agosto de 2017 hasta la fecha, así como datos de velas de 4 horas desde 2021 hasta la fecha. Para cada periodo, se generaron aleatoriamente 50 imágenes con un total de 100 velas por intervalo de tiempo. Las velas de 4 horas se dividen en dos tipos: una con solo las velas y el volumen de transacciones, y otra que incluye información de indicadores como EMA, SMA, bandas de Bollinger, MACD, RSI, entre otros. Los gráficos de velas de 15 minutos son gráficos de velas desnudas (con volumen de transacciones). Además, se sincroniza con la IA los valores de datos de precios o de indicadores correspondientes al gráfico de velas actual. Todos los resultados de salida de la IA se pueden ver aquí.

Diagrama de indicadores de 4 horas

Diagrama de velas puras de 4 horas

Durante el proceso de prueba, la información de datos y los comandos obtenidos por cada uno de los grandes modelos son completamente idénticos. Desde otro punto de vista, esto también pone a prueba la capacidad multimodal de estos grandes modelos (DeepSeek, al ser solo un modelo de texto, recibe únicamente información de datos y no transmite imágenes).

Gemini 3: El rey desnudo de K sellado por “indicadores”

Gemini 3 es el modelo AI más popular en este momento. Según los comentarios de los medios y pruebas realizadas desde su lanzamiento el 18 de noviembre, se puede considerar el modelo AI multimodal con la capacidad más completa actualmente. Sin embargo, en la prueba de predicción de transacciones, los resultados de Gemini 3 no son los mejores, se puede decir que son promedio. En tres escenarios (K en bruto de 4 horas, K en bruto de 4 horas con indicadores, K en bruto de 15 minutos), Gemini 3 tuvo su mejor desempeño en el escenario de K en bruto de 4 horas, con una tasa de éxito del 39.58%, seguido del escenario de K en bruto de 15 minutos con un 34.04%. En el caso de usar indicadores (en el mismo intervalo de tiempo), la precisión en el ciclo de 4 horas bajó al 31%, siendo el peor de los tres escenarios.

Desde este punto de vista, Gemini 3 parece ser más competente en el estado de forma pura de velas, mientras que al superponer indicadores, se vuelve más susceptible a interferencias. En el proceso operativo específico, sin indicadores, Gemini 3 parece ser más atrevido al abrir posiciones, ya que en el caso de velas puras, el 95% de los mercados optan por entrar, mientras que al añadir indicadores, esta proporción disminuye al 71%. Cabe destacar que Gemini 3 es el único modelo que obtiene beneficios en el caso de velas puras de 4 horas.

En un escenario de 15 minutos, la rentabilidad general de Gemini 3 es la mejor, con una ganancia total de la posición del 15.34%, mientras que en el escenario con indicadores, en realidad perdió un 21.18%. Sin embargo, esta ganancia también es una suerte a corto plazo; al combinar los datos de la relación de ganancias y pérdidas en cada ocasión, se observa que la expectativa de ganancias de Gemini 3 (tasa de éxito*relación de ganancias y pérdidas) es inferior a 1, lo que significa que a largo plazo está en una situación de pérdida.

DeepSeek V3.2: La “máquina de órdenes ultracortas” tan estable como un perro viejo

DeepSeek es el modelo con el mejor rendimiento de tasa de ganancia entre los seis modelos, y también es el más estable en comparación. En tres escenarios (K en bruto de 4 horas, K con indicadores de 4 horas, K en bruto de 15 minutos), las tasas de ganancia son del 40%, 41.38% y 42.86%, respectivamente. Desde este punto de vista, la capacidad de predicción de DeepSeek es relativamente estable en diferentes períodos y en presencia o ausencia de indicadores.

Sin embargo, la situación de ganancias de DeepSeek no es buena, debido a su baja relación de ganancias y pérdidas, que tiene un promedio de solo 1.25. Esta relación de ganancias y pérdidas que se cierra cuando hay beneficios también refleja la falta de capacidad de DeepSeek para dejar que las ganancias crezcan durante el proceso de trading. Por lo tanto, en conjunto, esto lleva a que su expectativa de ganancias esté casi alrededor de 0.5, y a largo plazo también carezca de posibilidades de ganancias. Además, DeepSeek también es relativamente conservador en cuanto a la determinación de abrir posiciones, con un porcentaje total de apertura de solo el 58%.

Doubao (豆包): El “MVP total” de esta competencia

En esta prueba de competición, el resultado global de Doubao1.6-vision fue el mejor. En el escenario de 4 horas con indicadores, la tasa de victoria de Doubao1.6-vision alcanzó el dato más alto de la prueba, llegando al 50%, con un rendimiento final del 22.2%. Al mismo tiempo, en el ciclo corto de 15 minutos, también se obtuvo un nivel de rendimiento general del 8.2%. Es el único modelo que puede obtener ganancias estables en dos dimensiones diferentes (corto plazo e indicadores de 4 horas).

Y, el resultado de Doubao1.6-vision no se logró bajo un estilo relativamente conservador, sino que se alcanzó con un ratio de apertura promedio superior al 92%. En otras palabras, Doubao1.6-vision eligió abrir posiciones en la gran mayoría de los escenarios. Sin embargo, en comparación, la capacidad de Doubao1.6-vision también depende mucho de las señales de los indicadores; en ausencia de indicadores, la diferencia en las ganancias totales es del 38%. Además, desde la perspectiva de la relación de ganancias y pérdidas, Doubao1.6-vision tiene una relación de pérdidas altas en dos períodos de rendimiento positivo, lo que también es una razón por la cual su rendimiento general es excepcional.

Grok 4.1: “Apostador Radical” de xAI

El estilo general de Grok 4.1 es audaz pero depende de indicadores trimestrales, al mismo tiempo que está dispuesto a perseguir mayores ganancias. En los tres escenarios, solo con indicadores en el marco de 4 horas durante la semana, Grok 4.1 obtuvo una tasa de éxito del 34.69%, mientras que en los otros dos escenarios la tasa de éxito es extremadamente baja. En el caso de las velas puras de 4 horas, la tasa de éxito es solo del 14.58%, y en un periodo de 15 minutos es del 26.53%. Sin embargo, su proporción promedio de apertura de posiciones alcanza el 98%, mostrando disposición a abrir posiciones en casi todos los escenarios de velas. Desde esta perspectiva, el estilo de Grok 4.1 se asemeja más al de un apostador que no puede contenerse.

Sin embargo, la relación de ganancias y pérdidas de Grok 4.1 suele ser bastante alta, alcanzando un promedio de 2, que es la más alta entre todos los modelos. Pero en general, no es una elección sabia confiar tus fondos a Grok 4.1.

GPT 5.1: El pesimista “short seller” extremadamente cauteloso

El estilo de apertura de GPT 5.1 es completamente opuesto al de Grok 4.1. GPT 5.1 es extremadamente cauteloso y, en la mayoría de los casos, opta por esperar. En un total de 150 pruebas, solo abrió 52 veces, lo que da un promedio de tasa de apertura de solo el 0.34%.

Sin embargo, incluso con tanta precaución, GPT 5.1 no logró una mejor tasa de victoria. En el mejor de los casos, solo obtuvo una tasa de victoria del 35%. Además, en comparación con los finales de 4 horas y 15 minutos, GPT 5.1 claramente no es bueno para abrir posiciones en ciclos largos, incluso con la adición de indicadores técnicos, la tasa de victoria de 4 horas es solo del 27%. Y en el ciclo de 15 minutos, gracias a una alta relación de ganancia y pérdida (2.02), logró obtener un retorno positivo, con un resultado final del 9.9%.

Además, GPT 5.1 tiene una característica de pesimismo evidente, y está muy interesado en vender en corto. Más del 70% de las órdenes son posiciones cortas.

Qwen 3: “Los aversos al riesgo que valoran cada palabra como oro”

Qwen 3 es claramente el modelo de gran tamaño más cauteloso, ya que en todas las pruebas solo abrió posiciones 44 veces, con una tasa de apertura del 29%. Sin embargo, al igual que GPT, esta extrema precaución no logró traer una tasa de ganancia más alta. Su tasa de ganancia promedio también es solo del 34%, siendo el mejor rendimiento en escenarios de 4 horas con indicadores.

Además, la relación de ganancias y pérdidas de Qwen 3 también es alta, alcanzando 1.96. Parece que pertenece a un jugador averso al riesgo, que se especializa en reducir la cantidad de operaciones, pero permite que las ganancias corran. En el escenario con el indicador de 4 horas, la expectativa de ganancias de Qwen 3 también es la más cercana a ser rentable, alcanzando 0.95, que es la más alta entre todos los modelos.

Resumen de datos

Resumen:

En general, es posible que hayamos obtenido las siguientes lecciones de los procesos de trading simulado de estas IA.

Primero, para la gran mayoría de los modelos, los gráficos con indicadores son más confiables que los gráficos de velas simples. Con indicadores, la tasa de éxito promedio de estos seis modelos alcanzó el 38%, mientras que sin indicadores, la tasa de éxito fue solo del 30%.

En segundo lugar, la IA puede ser más competente en el comercio a corto plazo, en lugar de en el comercio a largo plazo. En un escenario puramente de K líneas de 15 minutos, la tasa de ganancia promedio de seis grandes modelos alcanzó el 34%, superior al 30% del período de 4 horas. De los seis modelos, tres son rentables (Gemini, GPT, Doubao), y la relación promedio de ganancias y pérdidas es generalmente buena.

Tercero, confiar completamente en la IA para gestionar las posiciones no es recomendable. Durante este proceso de prueba, todas las expectativas de ganancias de los modelos de IA fueron inferiores a 1, lo que significa que, a largo plazo, considerando esa tasa de éxito y la relación de ganancias y pérdidas, sus resultados finales son pérdidas. Solo hay una diferencia en la rapidez con la que se pierde (aunque aquí, dado que no se realizó un ajuste especializado en el modelo de IA, los indicadores utilizados son solo indicadores comunes y relativamente simples). Por lo tanto, si deseas que la IA reemplace tu toma de decisiones en las transacciones, podría requerir un proceso de ajuste más complejo y más datos de retroceso.

Cuando esta competencia de poder de cálculo llegue a su fin, al mirar el número final en el saldo de la cuenta, la lección más importante que obtendremos puede no ser “cuál modelo es el más fuerte”, sino “cuáles son los límites del comercio de IA”. La conclusión final es que la IA de hoy quizás aún no pueda reemplazar directamente a un excelente gerente de fondos, pero ya ha evolucionado a un asistente de comercio relativamente maduro en un sentido unidimensional; algunos son buenos en el análisis gráfico, otros en la gestión de riesgos, y algunos en el análisis de datos para lograr una tasa de éxito estable. Sin embargo, en vista de las crecientes expectativas de las personas hacia la IA, hacer que la IA reemplace a las personas en el comercio sigue siendo un tema complicado.

BTC-0.28%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.