Por Alejandro Urueña
Hoy, Sam Altman, en su cuenta X, comentó: “El R1 de DeepSeek es un modelo impresionante, especialmente teniendo en cuenta lo que pueden ofrecer por el precio. Obviamente ofreceremos modelos mucho mejores y además es realmente estimulante tener un nuevo competidor. Lanzaremos algunos nuevos.”
Para ponernos en contexto, la inteligencia artificial (IA) se divide en tres grandes disciplinas: procesamiento de lenguaje natural (PLN), aprendizaje automático (Machine Learning) y visión artificial. Estas áreas trabajan juntas para que las máquinas puedan aprender, interpretar datos y realizar tareas complejas que antes solo podían ser realizadas por humanos.
deepseek's r1 is an impressive model, particularly around what they're able to deliver for the price.
— Sam Altman (@sama) January 28, 2025
we will obviously deliver much better models and also it's legit invigorating to have a new competitor! we will pull up some releases.
El aprendizaje automático (Machine Learning) se centra en enseñar a las máquinas a reconocer patrones y aprender de los datos; por ejemplo, cómo un sistema puede predecir el clima o analizar comportamientos. Por su parte, la visión artificial está diseñada para que las computadoras interpreten y analicen imágenes o videos, como el reconocimiento facial o la detección de objetos.
Hoy nos enfocamos en el procesamiento de lenguaje natural (PLN), que es la disciplina encargada de que las máquinas comprendan, generen y trabajen con texto humano. Aquí es donde entran los grandes modelos de lenguaje (LLM, por sus siglas en inglés), como GPT-4, Claude y el recién lanzado DeepSeek R1.
Estos modelos son herramientas avanzadas que están transformando la manera en que interactuamos con la tecnología, y DeepSeek R1 ha llegado para “revolucionar” este espacio con un enfoque más económico, accesible y disruptivo.
La investigación presenta los primeros modelos de razonamiento de inteligencia artificial llamados DeepSeek-R1-Zero y DeepSeek-R1, diseñados para mejorar la capacidad de las máquinas en tareas de razonamiento lógico y resolución de problemas. Estos modelos son un avance significativo en el campo de la inteligencia artificial porque buscan optimizar cómo las máquinas “piensan” y toman decisiones complejas. A continuación, se explica cada modelo en detalle y su importancia.
El modelo DeepSeek-R1-Zero se entrenó mediante un proceso conocido como aprendizaje por refuerzo (Reinforcement Learning o RL) a gran escala. Este método permite que el modelo aprenda mediante prueba y error, mejorando gradualmente a medida que experimenta y recibe retroalimentación. Es como un aprendiz que no recibe instrucciones iniciales, pero que se vuelve más hábil al repetir una tarea y aprender de sus propios errores.
Por ejemplo, si el modelo debe resolver un problema matemático complejo, intenta diferentes enfoques, analiza los resultados y ajusta sus métodos hasta encontrar la solución correcta. Este enfoque hizo que DeepSeek-R1-Zero desarrollara comportamientos de razonamiento impresionantes, mostrando habilidades intrigantes y poderosas. Sin embargo, aún enfrentaba problemas como baja legibilidad, sus respuestas eran confusas o difíciles de entender y mezcla de idiomas algo similar a escribir en “spanglish”.
Para abordar estas limitaciones y llevar el razonamiento a un nivel superior, los investigadores crearon DeepSeek-R1, un modelo más avanzado que integra un proceso de entrenamiento en varias etapas. A diferencia de su predecesor, DeepSeek-R1 comienza con un conjunto de datos organizado, conocido como “datos de arranque en frío”.
Esto le proporciona una base sólida antes de someterse al aprendizaje por refuerzo. Es como si, antes de empezar a resolver problemas, alguien le ofreciera una guía inicial o un ejemplo claro para seguir. Este enfoque mejorado no solo elimina los errores de legibilidad y mezcla de idiomas, sino que también permite que DeepSeek-R1 alcance un rendimiento comparable al de modelos líderes en la industria, como OpenAI-o1-1217, en tareas específicas de razonamiento.
Además de estos avances, el equipo de investigación decidió compartir estos modelos con la comunidad científica, haciéndolos de código abierto. Esto significa que cualquier investigador, desarrollador o institución puede utilizarlos y adaptarlos para sus propios proyectos. También publicaron seis versiones compactas de DeepSeek-R1, con tamaños que van desde 1.5 mil millones de parámetros hasta 70 mil millones, lo que facilita su uso en diferentes escenarios y con recursos computacionales variados. Estas versiones más ligeras se basan en tecnologías avanzadas como Qwen y Llama.
En términos prácticos, estos modelos podrían usarse en diversas áreas, como educación, donde podrían ayudar a crear herramientas personalizadas para el aprendizaje; en la medicina, para analizar datos complejos y apoyar el diagnóstico; o en negocios, para optimizar la toma de decisiones estratégicas. En resumen, los modelos DeepSeek representan un avance significativo en la capacidad de las máquinas para razonar, con el potencial de transformar cómo interactuamos con la inteligencia artificial y cómo ésta impacta nuestras vidas cotidianas.
DeepSeek es una empresa china que “apareció” en diciembre de 2023. Ha creado el modelo R1, que ofrece resultados similares a los de otros modelos por una fracción del costo. Además, permite a los usuarios descargar una versión ligera del modelo para usarla en sus propias computadoras, siempre que tengan suficiente capacidad.
¿Por qué cuesta menos?
DeepSeek ha logrado reducir los costos con un enfoque innovador:
Entrenamiento más eficiente: Usaron menos datos (2.78 millones, mucho menos que otros modelos), pero seleccionados con precisión. Hardware más accesible: Utilizaron menos recursos tecnológicos y más baratos, reduciendo los costos de infraestructura. Optimización local: habrían aprovechado alternativas en China para evitar las restricciones de hardware y piezas costosas que suelen afectar a la industria. Este enfoque les permitió desarrollar un modelo tan competitivo como los grandes, pero mucho más económico.
El lado oscuro: las limitaciones de DeepSeek
Aunque DeepSeek R1 ofrece grandes beneficios, no está exento de restricciones. Por ejemplo:
Control de contenido: Al ser un producto chino, el modelo no respondería a temas políticamente sensibles.
Privacidad comprometida: El sistema político de base genera dudas sobre el manejo de la información personal y el acceso del gobierno chino.
Regulaciones estrictas: Aunque el modelo es de código abierto, su uso sigue sujeto a las reglas de la empresa, limitando la libertad de los usuarios en algunos casos.
Estas limitaciones hacen que muchos se pregunten si el bajo costo justifica las posibles restricciones de privacidad y temas.
DeepSeek no solo es más barato, sino que ofrece una ventana de contexto significativamente mayor, lo que lo hace ideal para tareas que requieren manejar grandes cantidades de información. La ventana de contexto se refiere a la cantidad de texto que el modelo puede "recordar" y tener en cuenta al generar una respuesta.
Por ejemplo, una ventana de contexto de 128,000 tokens permite a DeepSeek R1 considerar una conversación mucho más larga o analizar documentos más extensos que un modelo con una ventana de 8,192 tokens como GPT-4. Sin embargo, aún no alcanza la capacidad total de Gemini de Google.
DeepSeek R1 representa una nueva etapa en el desarrollo de los grandes modelos de lenguaje, al romper las barreras económicas que antes limitaban el acceso a herramientas avanzadas. Su enfoque disruptivo está cambiando las reglas del juego en el procesamiento de lenguaje natural, aunque su naturaleza controvertida exige que los usuarios evalúen cuidadosamente sus implicaciones antes de adoptarlo.
El lanzamiento de DeepSeek ha generado una auténtica sacudida en el panorama del mercado tecnológico. Su ascenso meteórico no solo captó la atención global, sino que también golpeó directamente a Nvidia, líder indiscutido en el sector de microprocesadores, cuyo dominio parecía inquebrantable.
Las acciones de la compañía cayeron un 17% este lunes, mientras DeepSeek acaparaba todas las búsquedas en internet. Este inesperado giro plantea interrogantes clave: ¿qué implicaciones tiene este movimiento para los mercados financieros? ¿Y cómo está afectando a las fortunas de los principales inversores y fondos que confiaban en el liderazgo de Nvidia?
Sobre el autor:
Alejandro Urueña
Ética e Inteligencia Artificial (IA) - Founder & CEO Clever Hans Diseño de Arquitectura y Soluciones en Inteligencia Artificial. Abogado. Magister en Inteligencia Artificial. Insignia de Asignación Ejemplar (Instituto Tecnológico Massachusetts) XPRO Diseño y Desarrollo Productos Servicios de Inteligencia Artificial. Actualmente cursando maestría en ciencia de datos Universidad Austral.