El reciente avance de Deep Seek fue muy elogiado por la comunidad de código abierto. El modelo de código cerrado de Open AI con su iteración GPT4 fue aclamado, pero los datos de entrenamiento y la metodología opacos impiden que los investigadores con presupuestos limitados se unan a la exploración de aplicaciones de IA generativa.
Ayer, la emoción era tan palpable que generó dudas sobre si toda la infraestructura centrada en centros de datos y GPU era realmente necesaria. Después de todo, la narrativa de que un fondo de cobertura chino, High Flyer Investment, podría iniciar un LLM y abrir el código del punto final fue una gran ganancia. Su comunicación oficial fue que el proceso de entrenamiento, un paso necesario para crear un LLM, costó menos de 6 millones de dólares. Entrenar un LLM a ese costo contradice las cifras de CAPEX de muchas empresas que cotizan en bolsa, en las que muchas de ellas han hundido en los bolsillos cada vez más profundos de NVIDIA. Como resultado, las acciones de NVIDIA cayeron a niveles no vistos desde diciembre de 2023.
Posteriormente, los inversores comenzaron a volver a NVIDIA lo suficiente como para mitigar la gran y histórica pérdida que sufrieron el lunes. La acción cerró a aproximadamente 128.8 dólares por acción, pero el daño ya estaba hecho en términos de percepción. El hecho de que el R1 LLM se entrenara con GPU de NVIDIA no importaba, ya que la narrativa estaba hiperfijada en el potencial de crecimiento o uso de los chips H100 y Blackwell de alta gama.
Reclamaciones del Modelo Destilado
Sin embargo, la historia cambió hace unas pocas horas cuando el bien conectado David Sacks, el designado Czar de IA para la administración Trump, pareció confirmar las sospechas de que el modelo no era todo lo que parecía desde un punto de vista ingenieril. Claro, los pesos y sesgos son seguramente valiosos para la comunidad de desarrolladores en la capa de aplicación. Pero, la hazaña de ingeniería detrás de ellos era importante, ya que podría representar una forma basada en talento para eludir la actual arquitectura de LLM, que es pesada y costosa.
Como resultado, surge una nueva tesis que solo apoya el amor y la adoración previos del mercado hacia NVIDIA. Las cifras declaradas por Deep Seek solo podrían ser respaldadas con robo de propiedad intelectual, ingenieros bien versados y montones de dinero para probar y entrenar. Quizás, esta iteración actual R1 costó menos de 6 millones, pero gastaron una gran cantidad en otros lugares para llegar a esa cifra específica.
El CEO de Scale AI, Alexndr Wang, declaró que también existe la posibilidad de que se utilizaran chips Nvidia de alta gama para el entrenamiento. Esto, combinado con el modelo destilado que se derivó de OpenAI sin permiso, anula gran parte de la ingeniería. En cierto sentido, la posición de la industria de Nvidia se reafirma.
Filtración de Datos
Para Microsoft y Open AI, el problema de Deep Seek es el siguiente.
- ) Un grupo conectado a Deep Seek robó los datos de manera programática. El grupo, en otoño, aumentó las solicitudes de API para lotes de datos que presumiblemente estaban almacenados.
- ) El grupo fue identificado por Microsoft y algunos terceros pudieron rastrear sus vínculos con Deep Seek.
- ) – El lote de datos mencionado anteriormente, obtenido a través del acceso a la API, era lo suficientemente grande como para ser utilizado como base parcial para entrenar el modelo R1.
Cualquier interacción subsiguiente sería necesariamente una forma de obtener datos adicionales de manera colaborativa. Existen técnicas para agregar nuevas capas de modelo que se construyen sobre estos pesos, como LORA, que han sido pioneras irónicamente por Microsoft. Así, gran parte de la ingeniería detrás de DeepSink, aunque ingeniosa, no puede por sí sola justificar ningún caso bajista hacia NVIDIA.

