
Por Marcelo Pérez Peláez (Con asistencia de DeepSeek y Grok).
Hangzhou, China — En un panorama dominado por empresas como OpenAI y Meta, la startup china DeepSeek irrumpió como un «caballo oscuro» en el campo de la inteligencia artificial con su modelo de lenguaje DeepSeek V3, un sistema de código abierto que combina rendimiento de élite con una eficiencia sin precedentes. Desarrollado con solo 5.58 millones de dólares y 2.78 millones de horas de GPU —una fracción del costo de modelos como Llama 3.1 de Meta (30.8 millones de horas GPU)—, este avance técnico no solo sorprende por su bajo presupuesto, sino también por su capacidad para rivalizar con los líderes globales.
Innovación bajo restricciones: La clave del éxito
El modelo, con 671 mil millones de parámetros y una arquitectura Mixture of Experts (MoE), activa solo 37 mil millones de parámetros por token, optimizando recursos sin sacrificar rendimiento312. Según el informe técnico de DeepSeek, el entrenamiento se realizó en 55 días utilizando 14.8 billones de tokens y clústeres de GPUs NVIDIA H800 adaptadas a las sanciones estadounidenses, demostrando cómo las limitaciones pueden impulsar la creatividad.
Jim Fan, científico de NVIDIA, destacó en redes sociales: «Las restricciones de recursos obligan a reinventarse de formas espectaculares»1. Andrej Karpathy, cofundador de OpenAI, añadió: «DeepSeek V3 parece un modelo más fuerte con solo una fracción de los recursos».
Rendimiento líder en múltiples frentes
DeepSeek V3 supera a modelos como Llama 3.1 y Qwen 2.5 en benchmarks de matemáticas, programación y comprensión multilingüe. Por ejemplo, en pruebas de código como Codeforces, supera a todos los modelos no especializados, y en matemáticas (AIME 2024), supera incluso a sistemas cerrados como GPT-4o912. Además, su velocidad de generación alcanza 60 tokens por segundo, triplicando la de su versión anterior.
Sin embargo, no está exento de polémica: en ocasiones, el modelo se identificó erróneamente como ChatGPT, un fenómeno atribuido a la «contaminación GPT» en los datos de entrenamiento.
Impacto en la industria y democratización de la IA
DeepSeek no solo compite técnicamente, sino que también ha desatado una guerra de precios en China. Con un costo de inferencia diez veces menor que los modelos de Silicon Valley, ha obligado a gigantes como Alibaba y Tencent a reducir sus tarifas7. Su API, con precios desde 0.07 dólares por millón de tokens, se posiciona como la opción más accesible para desarrolladores.
«Este modelo cambia las reglas del juego: demuestra que la IA avanzada ya no es exclusiva de las grandes empresas», comentó Alex Wang, fundador de Scale.ai.
El equipo detrás del milagro: Jóvenes talentos y pragmatismo
Fundada en 2023 como spin-off del fondo de inversión High-Flyer Quant, DeepSeek se destaca por su equipo joven: el 80% son recién graduados o profesionales con menos de dos años de experiencia, reclutados por habilidad, no por antigüedad57. Liang Wenfeng, su fundador, acumuló más de 10,000 GPUs antes de las sanciones estadounidenses, sentando las bases para este desarrollo.
Innovaciones clave como la atención Multi-Head Latent (MLA) y el algoritmo GRPO (una variante eficiente de PPO) surgieron de colaboraciones con universidades como Peking y Tsinghua, donde estudiantes doctorales contribuyeron durante pasantías.
Un nuevo paradigma para la IA global
DeepSeek V3 no solo representa un triunfo técnico, sino también un modelo organizacional inspirado en OpenAI, donde la agilidad y la libertad para experimentar priman sobre la burocracia. Como señaló Jia Yangqing, exvicepresidente de Alibaba: «Es inteligencia y pragmatismo: producir el mejor resultado con los recursos disponibles».
En un contexto de tensiones geopolíticas y escasez de chips, DeepSeek prueba que la innovación puede florecer bajo presión. Su próximo desafío: consolidarse en el mercado global mientras mantiene su filosofía de código abierto. Por ahora, la comunidad tecnológica mira a China con renovado interés, preguntándose si repetirá en IA el éxito que tuvo con vehículos eléctricos y drones.
Para más detalles técnicos, consulte el informe oficial de DeepSeek o experimente el modelo en chat.deepseek.com.
NMDQ