
En poco más de una semana desde su lanzamiento, DeepSeek ha conseguido el título de la app gratuita más descargada de App Store, la tienda de aplicaciones de Apple.
MIRA: El Vaticano publica su doctrina sobre la IA, una oportunidad que conlleva “desafíos éticos”
¿Por qué tanto alboroto? El chatbot ha obtenido puntajes tan altos —o mayores, en algunos casos— que sus rivales más populares, como ChatGPT, de OpenAI; Claude, de Anthropic; o Gemini, de Google. ¿Una IA más? Pasaría desapercibida si no fuera por un detalle fundamental: tiene los mismos resultados, pero es mucho más barata.
De acuerdo con informes, la inteligencia artificial china se desarrolló por una fracción del costo de los modelos más populares. Funciona con el código abierto DeepSeek-V3, que fue entrenado a un costo de 6 millones de dólares, mientras que los modelos actuales han requerido montos mucho mayores. En el caso de ChatGPT-4, el entrenamiento costó 100 millones de dólares.
Andrej Karpathy, cofundador de OpenAI, exdirector de IA en Tesla y uno de los expertos más respetados del sector, describió ese presupuesto como “de broma” y añadió: “Hay que asegurarse de que no somos derrochadores con lo que tenemos y este modelo parece una buena demostración de que hay mucho que revisar tanto en datos como en algoritmos”.
La llegada de DeepSeek plantea interrogantes sobre el futuro del dominio de Estados Unidos en materia de IA y sobre la estrategia que las empresas estadounidenses están adoptando para asegurar sus inversiones.
¿En qué se diferencia de ChatGPT?
De acuerdo con Moisés Meza, docente del Departamento de Ingeniería de la Universidad Cayetano Heredia, DeepSeek y ChatGPT son dos de los modelos de lenguaje más avanzados del momento. Aunque ambos pueden generar texto de alta calidad y mantener conversaciones coherentes, DeepSeek se destaca por su eficiencia y capacidad para adaptarse a diferentes tareas. Algunos lo comparan con el modelo O1 de ChatGPT, que destaca por su razonamiento.
“DeepSeek emplea técnicas como Mixture of Experts (MoE) y Multi-head Latent Attention (MLA). MoE permite al modelo especializarse en tareas específicas, activando solo las partes necesarias para cada consulta. Por su parte, MLA mejora la gestión de la memoria, comprimiendo la información y agilizando el procesamiento. Estas características hacen que DeepSeek sea un modelo más ligero y eficiente, capaz de ofrecer resultados comparables a ChatGPT sin requerir tanta potencia computacional”, explica el especialista a El Comercio.
La técnica MoE activa únicamente los “expertos” necesarios, mientras que MLA reduce la carga de memoria al comprimir datos. Esto le permite mantener un alto rendimiento con un menor consumo de energía y recursos computacionales.

Cada vez que el usuario hace una pregunta, el modelo de IA decide si debe activar a su experto en medicina, traducción, derecho o ciencia. Los modelos clásicos activan a todos de golpe, lo que supone un despilfarro de energía y computación. DeepSeek, en cambio, prioriza solo uno a la vez.
“Por ejemplo, su modelo DeepSeek-V2 cuenta con una arquitectura Mixture of Experts (MoE) que suma 236 mil millones de parámetros totales, de los cuales solo se activan 21 mil millones por token, optimizando así la eficiencia computacional. Esta eficiencia se traduce en una reducción del 42,5% en los costos de entrenamiento y una mejora de hasta 5,76 veces en la velocidad de generación”, comenta Meza.
Además…
ChatGPT vs. DeepSeek
ChatGPT y DeepSeek son modelos basados en una arquitectura llamada Transformer, pero con diferencias significativas en su diseño y propósito. ChatGPT (GPT-4), desarrollado por OpenAI, es un modelo propietario optimizado mediante técnicas avanzadas de ajuste de contexto y mezcla de expertos, pensado para tareas generales como redacción, razonamiento y generación creativa en varios idiomas. DeepSeek, en cambio, es un modelo de código abierto con un enfoque más especializado en matemáticas, generación de código y resolución algorítmica, con mejor rendimiento en inglés y chino. ChatGPT prioriza la fluidez y versatilidad en la interacción, DeepSeek prioriza la precisión en tareas computacionales y la estructuración de información técnica.
Eric Biagioli, director del departamento de Ciencia de la Computación y Datos de UTEC Posgrado.
Un modelo abierto
Para Wester Zela, decano de las carreras de ingeniería de la Universidad Científica del Sur, DeepSeek tiene varias diferencias clave con otros modelos como ChatGPT. La más importante es que es un modelo open source, lo que significa que cualquier persona puede descargarlo, analizar su código y hacer modificaciones.
Además, su entrenamiento se realizó con hardware menos avanzado: DeepSeek utilizó chips Nvidia de generaciones anteriores, debido a las restricciones de exportación impuestas por EE.UU. a China. A pesar de no contar con los chips más recientes, los desarrolladores lograron resultados comparables a los modelos de OpenAI, demostrando que no es imprescindible usar la última tecnología para obtener modelos de alto rendimiento.
“El surgimiento de DeepSeek representa una gran oportunidad para desarrolladores, startups y emprendedores. Con un modelo open source de alto rendimiento, ahora es posible acceder a tecnología avanzada sin depender de los modelos propietarios de empresas como OpenAI o Google”, señala Zela a este Diario.
Zela considera que el acceso a tecnología open source es una gran oportunidad para los desarrolladores de países como el nuestro. OpenAI y otras empresas nunca han publicado los detalles completos de sus modelos, mientras que DeepSeek pone su código a disposición de cualquiera.
“Esto significa que los desarrolladores locales pueden estudiar, modificar y entrenar modelos de IA sin depender de tecnologías propietarias. Sin embargo, aunque el código sea accesible, sigue siendo necesario invertir en capacitación y en infraestructura computacional para aprovecharlo al máximo”, afirma el decano de la Científica.
“Si más personas en nuestro país logran capacitarse en el desarrollo de modelos de IA, podríamos ver la creación de emprendimientos locales que aprovechen esta tecnología. A largo plazo, el paradigma ha cambiado: ya no se necesitan cientos de millones de dólares para entrenar modelos avanzados, lo que abre la puerta a la innovación en diversas partes del mundo”, agrega.

Rendimiento de DeepSeek
De acuerdo con datos compilados por Europa Press, el modelo supera a otros modelos de código abierto y logra un rendimiento comparable al de los principales modelos de código cerrado.
- En la evaluación de comprensión del lenguaje (MMLU Pro), DeepSeek-V3 alcanza una puntuación de 75,9, frente al 78,0 de Claude 3.5 Sonnet, el 72,6 de GPT-4o y el 73,3 de Llama 3.1 405B.
- En la evaluación de capacidad para responder preguntas complejas de nivel posgrado (GPAQ Diamond), DeepSeek-V3 obtiene 59,1, por debajo de Claude 3.5 Sonnet (65,0), pero por encima de GPT-4o (49,9), Qwen 2.5 de 72B (49,0) y Llama 3.1 405B (51,1).
- En la prueba de resolución de desafíos matemáticos (MATH 500), DeepSeek logra 90,2, superando a Claude 3.5 Sonnet (78,9), Qwen 2.5 de 72B (80,0), GPT-4o (74,6) y Llama 3.1 405B (73,8).
- En la resolución de problemas matemáticos con AIME 2024, DeepSeek obtiene 39,2, seguido de Qwen 2.5 de 72B y Llama 3.1 405B (23,3), Claude 3.5 Sonnet (16,0) y GPT-4o (9,3).
¿Jaque a Estados Unidos?

En un contexto en el que Estados Unidos ha endurecido las restricciones a la exportación de chips de IA, DeepSeek evidencia que es posible desarrollar tecnología avanzada sin depender de los procesadores más recientes.
“Al contrario, una de las consecuencias más evidentes de las medidas restrictivas contra los mercados tecnológicos chinos ha sido el impulso en la creación de modelos propios, más simples, pero también más potentes. Hasta ahora, lo que hemos observado es un país que ha acelerado su independencia tecnológica, en parte gracias a este tipo de restricciones”, dice a este Diario Eric Biagioli, de la UTEC.
Los especialistas consultados para esta nota coinciden en que estamos ante una tecnología revolucionaria o, al menos, ante un gran primer paso hacia un futuro más prolífico en el ámbito de la IA. No cabe duda de que el paradigma ha cambiado y de que, de alguna manera, esta tecnología se está democratizando.
“Creo que DeepSeek cambiará las reglas del juego. Esto significa que muchas grandes corporaciones tendrán que desarrollar modelos más simples, significativamente más económicos y con un menor consumo de hardware, pero sin sacrificar potencia. Sin duda, es un cambio interesante que, hasta cierto punto, pone en jaque a las grandes empresas, obligándolas a adaptarse”, comenta Biagioli.
Pero si bien, hasta ahora, las restricciones estadounidenses han impulsado la innovación en China, también podrían limitar la colaboración internacional en investigación y desarrollo, lo que frenaría el avance de la inteligencia artificial en general.