Alpha Arena revela defectos en el trading con IA: los modelos occidentales pierden el 80% del capital en una semana
El mercado es la prueba definitiva para la IA.
Escrito por: Juan Galt
Traducción: AididiaoJP, Foresight News
¿Puede la IA operar criptomonedas? Jay Azhang, ingeniero informático y profesional financiero de Nueva York, está poniendo a prueba esta pregunta a través de Alpha Arena. Este proyecto enfrenta a los modelos de lenguaje más potentes entre sí, cada uno con un capital de 10.000 dólares, para ver cuál puede ganar más dinero operando criptomonedas. Entre estos modelos se encuentran Grok 4, Claude Sonnet 4.5, Gemini 2.5 pro, ChatGPT 5, Deepseek v3.1 y Qwen3 Max.
Ahora probablemente estés pensando: "¡Guau, qué idea brillante!" Y te sorprenderá saber que, al momento de escribir este artículo, tres de las cinco IA están en números rojos, mientras que Qwen3 y Deepseek, ambos modelos open source chinos, lideran la competencia.

Así es, las IA más poderosas de Occidente, cerradas y operadas por gigantes como Google y OpenAI, han perdido más de 8.000 dólares en poco más de una semana, es decir, el 80% de su capital de trading en criptomonedas, mientras que sus pares open source de Oriente están obteniendo ganancias.
¿La operación más exitosa hasta ahora? Qwen3 se mantiene rentable y sigue generando ganancias simplemente con una posición long de bitcoin apalancada 20 veces. Grok 4, como era de esperarse, pasó la mayor parte del tiempo en la competencia con una posición long de dogecoin apalancada 10 veces, y en un momento llegó a estar en la cima junto a Deepseek, pero ahora está cerca de perder un 20%. Quizás Elon Musk debería publicar algún meme de dogecoin para sacar a Grok del apuro.

Mientras tanto, Gemini de Google mantiene una postura bajista, apostando en corto contra todos los criptoactivos disponibles, una posición que refleja su política general hacia las criptomonedas en los últimos 15 años.
Al final, tomó todas las decisiones equivocadas posibles durante una semana entera, lo cual también requiere cierta habilidad, especialmente cuando Qwen3 simplemente se mantuvo long en bitcoin. Si este es el mejor nivel que puede ofrecer una IA cerrada, tal vez OpenAI debería seguir siendo cerrada para evitar que suframos pérdidas.
Un nuevo estándar para la IA
La idea de enfrentar modelos de IA en una arena de trading de criptomonedas ofrece perspectivas muy profundas. Primero, la IA no puede obtener las respuestas a las pruebas de trading de criptomonedas durante su preentrenamiento, ya que son impredecibles, lo que no ocurre con otros benchmarks. En otras palabras, muchos modelos de IA reciben algunas respuestas de las pruebas durante el entrenamiento, por lo que naturalmente obtienen buenos resultados en los tests. Pero algunas investigaciones muestran que modificar ligeramente estas pruebas puede provocar cambios drásticos en los resultados de los benchmarks de IA.
Esta controversia plantea una pregunta: ¿cuál es la prueba definitiva de la inteligencia? Según el creador de Grok 4 y fanático de Iron Man, Elon Musk, la capacidad de predecir el futuro es la medida definitiva de la inteligencia.

Y hay que admitirlo: no hay un futuro más incierto que el precio a corto plazo de las criptomonedas. En palabras de Azhang, "el objetivo de nuestra Alpha Arena es acercar los benchmarks a la realidad, y el mercado es perfecto para eso. Son dinámicos, competitivos, abiertos y siempre impredecibles. Desafían a la IA de una manera que los benchmarks estáticos no pueden. El mercado es la prueba definitiva para la IA".
Esta visión sobre el mercado está profundamente arraigada en los principios libertarios que dieron origen a bitcoin. Economistas como Murray Rothbard y Milton Friedman señalaron hace más de cien años que los mercados son, en esencia, impredecibles para los gobiernos centrales, y que solo los individuos que asumen riesgos reales pueden tomar decisiones económicas racionales.
En otras palabras, el mercado es lo más difícil de predecir porque depende de las opiniones y decisiones individuales de personas inteligentes de todo el mundo, por lo que es la mejor prueba de inteligencia.
Azhang menciona en la descripción de su proyecto que instruir a la IA para operar no solo busca obtener ganancias, sino también considerar el retorno ajustado al riesgo. Esta dimensión del riesgo es crucial, ya que una mala operación puede borrar todas las ganancias anteriores, como se vio en el colapso de la cartera de Grok 4.
Existe otro problema: si estos modelos realmente aprenden de su experiencia operando criptomonedas, algo técnicamente difícil de lograr porque el preentrenamiento de una IA es extremadamente costoso. Pueden afinarse con su propio historial de trading o el de otros, e incluso pueden mantener sus operaciones recientes en la memoria a corto plazo o en la ventana de contexto, pero eso solo los lleva hasta cierto punto. El modelo de IA de trading correcto probablemente deba aprender verdaderamente de su propia experiencia, una tecnología que recientemente ha sido anunciada en el ámbito académico, pero que aún está lejos de convertirse en un producto. MIT los llama modelos de IA auto-adaptativos.
¿Cómo sabemos que esto no es solo suerte?
Otro análisis sobre este proyecto y sus resultados hasta ahora es que podría no diferenciarse de un "paseo aleatorio". Un paseo aleatorio es como lanzar un dado para cada decisión. ¿Cómo se vería esto en un gráfico? De hecho, existe un simulador que puedes usar para responder a esta pregunta; en realidad, no se ve muy diferente.

El problema de la suerte en los mercados también ha sido descrito en detalle por intelectuales como Nassim Taleb en su libro "Antifrágil". En él, argumenta que, desde un punto de vista estadístico, es completamente normal y posible que un trader, como Qwen3, tenga suerte durante una semana entera, lo que puede dar la impresión de que tiene una capacidad de razonamiento superior. Taleb va más allá y sostiene que hay suficientes traders en Wall Street como para que uno de ellos tenga suerte durante 20 años seguidos, construyendo una reputación casi divina, y que todos a su alrededor crean que es un genio, hasta que la suerte se le acaba.
Por lo tanto, para que Alpha Arena genere datos valiosos, debe funcionar durante mucho tiempo y sus patrones y resultados deben ser replicados de manera independiente, involucrando riesgos de capital real, antes de poder considerarse diferentes de un paseo aleatorio.
En definitiva, hasta ahora, es interesante ver que modelos open source y rentables como DeepSeek superan a sus pares cerrados. Alpha Arena ha sido una gran fuente de entretenimiento hasta ahora, ya que se ha vuelto viral en X.com la semana pasada. Nadie sabe hacia dónde irá en el futuro; tendremos que ver si la apuesta de su creador —dar 50.000 dólares a cinco chatbots para apostar en criptomonedas— finalmente dará frutos.
Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.
También te puede gustar
¿25 puntos básicos no son suficientes? El mercado apuesta a que la Reserva Federal seguirá bajando las tasas, ¿Powell cederá esta vez?
Frente a las divisiones internas y la gran presión política, ¿cómo insinuará Jerome Powell, presidente de la Reserva Federal, el rumbo futuro de la política monetaria? Esto podría ser la clave para determinar la dirección del mercado.
Perspectiva de 70,000 transacciones on-chain sobre el airdrop de Meteora: 4 direcciones de ballenas recibieron el 28.5%, mientras que más de 60,000 minoristas solo compartieron el 7%.
En el airdrop también surgieron direcciones controvertidas, incluyendo personas relacionadas con escándalos de operaciones internas y grandes ballenas con comportamientos anómalos, lo que agravó aún más la crisis de confianza dentro de la comunidad y expuso al proyecto al riesgo de una demanda colectiva.

La historia de la Fundación x402: desde impulsar el protocolo x402 hasta ser la clave dorada para los pagos con IA
¿Cómo convierte la Fundación x402 una línea de código en la clave dorada para pagos con IA?

El regreso del Gran Sabio: ¿Cómo el "Sun Wukong" de Justin Sun protagoniza la leyenda de los contratos con una llegada tardía pero triunfal?
El ascenso de Sun Wukong no solo representa otra jugada precisa de Justin Sun en el sector de los contratos descentralizados, sino que también simboliza el resurgimiento de la narrativa de los DEX chinos.

En tendencia
Más¿25 puntos básicos no son suficientes? El mercado apuesta a que la Reserva Federal seguirá bajando las tasas, ¿Powell cederá esta vez?
Perspectiva de 70,000 transacciones on-chain sobre el airdrop de Meteora: 4 direcciones de ballenas recibieron el 28.5%, mientras que más de 60,000 minoristas solo compartieron el 7%.
