DeepSeek reveló que puede mejorar el razonamiento de R1, su modelo grande de lenguaje (LLM, por sus siglas en inglés), mediante aprendizaje por refuerzo basado en prueba y error.
Incluso se le puede obligar a explicar su razonamiento sobre problemas de matemáticas y programación, aunque a veces las explicaciones puedan resultar ininteligibles.
Un artículo publicado en la revista científica Nature, firmado por integrantes del equipo de inteligencia artificial (AI, por sus siglas en inglés) de DeepSeek junto a varios académicos chinos, afirma haber demostrado que se puede incentivar a LLM de la compañía para que aprenda a razonar sin obtener ejemplos humanos.
De esta manera, el aprendizaje por refuerzo —similar al aprendizaje por prueba y error— puede reducir drásticamente la intervención humana necesaria para mejorar el rendimiento de su modelo.
En el documento, argumentan que este enfoque mejora el desempeño en problemas de matemáticas y programación más allá de los LLM capacitados con un corpus de textos y ejemplos humanos.
Índice de temas
DeepSeek aprende como un niño con un videojuego
La profesora adjunta de la Universidad Carnegie Mellon, Daphne Ippolito, y su estudiante de doctorado, Yiming Zhang, explican en un artículo complementario que el aprendizaje por refuerzo es similar al de un niño que aprende a jugar un videojuego.
“A medida que navega con su avatar por el mundo virtual, aprende mediante ensayo y error que algunas acciones (recoger monedas de oro, por ejemplo) otorgan puntos, mientras que otras (encontrarse con enemigos) lo dejan en ceros”, afirma el artículo.
“Esto contrasta con los enfoques previos basados en indicaciones, que se asemejaban más a esperar que un niño aprendiera a dominar un videojuego pidiéndole que leyera las instrucciones, o con los enfoques de aprendizaje supervisado, que se asemejan a esperar que un niño domine un juego viendo a su hermano jugarlo cientos de veces”, explican.
De acuerdo con las académicas, al combinar el aprendizaje por refuerzo y el aprendizaje supervisado, DeepSeek-R1 logró una precisión de vanguardia en tareas que evaluaban habilidades matemáticas y de codificación, conocimiento factual y otras formas de comprensión lingüística, tanto en chino como en inglés», afirmaron Ippolito y Zhang.
El lanzamiento de DeepSeek-R1 en enero pasado provocó una pérdida de $589,000 millones de dólares en el valor de mercado de Nvidia, ya que los inversores temían que representara una ruta más fácil y económica hacia sistemas de respuesta a preguntas en lenguaje natural como ChatGPT, de OpenAI, la empresa predilecta de Silicon Valley.
Difícil de entender
Además de mejorar el razonamiento del modelo, DeepSeek también demostró que el proceso de ensayo y error ayudaba al modelo —por así decirlo— a explicar su funcionamiento.
Sin embargo, parte del razonamiento era difícil de conocer para simples humanos. Para empezar, a veces alternaba inexplicablemente entre el inglés y el chino. También podía producir razonamientos extremadamente largos, de más de 10,000 palabras.
Otras limitaciones se deben a que solo se entrenó con respuestas claras, correctas o incorrectas, y aún no ha demostrado aptitud para respuestas más matizadas, subjetivas o extensas.