Las consecuencias de DeepSeek se sintieron en el mercado más temprano hoy, ya que algunas personas se despertaron ante la posibilidad de modelos de lenguaje grandes entrenados y generados a través de un menor costo de inferencia. En mi opinión, la orientación sobre los principales fabricantes de chips se ve afectada de manera justificada. La conclusión general es que hay menos demanda para los chips de alta gama que fabrican empresas como Nvidia y Broadcom. Irónicamente, Nvidia también fabrica chips de gama baja que probablemente fueron utilizados por el modelo de lenguaje grande de DeepSeek.
Entendiendo DeepSeek R1: Hechos Clave y Aclaraciones
La cobertura reciente de DeepSeek R1 ha llevado a algunas ideas erróneas que merecen aclaración:
En cuanto a los costos de entrenamiento e infraestructura, los requisitos computacionales del modelo base ascendieron a $5.5M en horas de GPU, excluyendo pruebas adicionales, modelos más pequeños, generación de datos y el proceso completo de entrenamiento de DeepSeek R1.
DeepSeek opera con un respaldo sustancial de High-Flyer, un fondo de cobertura chino que gestiona más de $7 mil millones desde 2020. Su equipo incluye medallistas olímpicos en matemáticas, física e informática.
Especificaciones técnicas:
- Su infraestructura abarca aproximadamente 50,000 GPUs
- El DeepSeek R1 completo es un modelo MoE de 671B parámetros que requiere más de 16 GPUs H100, cada una con 80GB de memoria
- Han desarrollado 6 versiones “destiladas” basadas en Qwen y Llama ajustadas finamente utilizando 800k muestras (sin aprendizaje por refuerzo)
- Si bien la versión más pequeña de 1.5B parámetros puede ejecutarse localmente, difiere significativamente del modelo R1 completo
Los usuarios deben tener en cuenta que, de acuerdo con los términos de servicio, la versión alojada en chat.deepseek.com puede utilizar datos de usuarios para el entrenamiento futuro del modelo.
El avance de la ciencia abierta y el código fuente beneficiará en última instancia a la comunidad más amplia. Hugging Face está desarrollando actualmente un pipeline de reproducción completamente abierto.

