DeepSeek comparación con ChatGPT de OpenAI

Un rincón coordinado por Fꓤancisco Javier Яodríguez Amoяín
Siguiendo el hilo de Alfonso Basulto os presento este resumen.
Hardware (GPUs)
– DeepSeek: Utiliza GPUs Nvidia H800, adaptadas para cumplir con restricciones de exportación.
– OpenAI: Emplea GPUs Nvidia H100, que representan lo más avanzado en hardware para IA.
Parámetros:
Son los elementos fundamentales que el modelo ajusta durante el entrenamiento para aprender a realizar una tarea específica. Su número viene determinado por el total de capas de la red neuronal y las neuronas de cada capa. Definen cómo la red procesa y aprende de los datos. Su cantidad y ajuste adecuado son cruciales para el rendimiento del modelo, pero también deben equilibrarse con el costo computacional y el riesgo de sobreajuste.
Para una explicación simple del funcionamiento de las redes neuronales, se puede consultar el libro Inteligencia Artificial. Guía para seres pensantes de Melanie Mitchell (Capitán Swing 2024) y para una explicación más amplia, el libro en línea gratuito de Michael Nielsen, Neural Networks and Deep Learning.
– DeepSeek: Su modelo V3 cuenta con 671 mil millones de parámetros. Su estructura permite activar solo los componentes necesarios, sin necesidad de utilizar todos los parámetros en cada tarea.
– OpenAI: Maneja una cantidad masiva de parámetros, estimada en cientos de miles de millones.
Costo de Entrenamiento:
– DeepSeek: Ha logrado mantener sus costos de entrenamiento en aproximadamente 5,5 millones de dólares.
– OpenAI: Invierte alrededor de 80 millones de dólares en entrenar modelos como ChatGPT-4.
Consumo de Energía:
-DeepSeek: Demuestra un consumo energético reducido al utilizar menos GPUs.
– OpenAI: Su enfoque en modelos grandes y el uso de tecnología avanzada conlleva un consumo energético elevado.
Estructura:
– DeepSeek: Implementa una estructura de “Mixture-of-Experts” (MoE), que permite una operación más eficiente al activar solo los componentes necesarios para cada tarea.
– OpenAI: Su enfoque en modelos densos y de alta capacidad le permite lograr un rendimiento excepcional.
Código Abierto:
– DeepSeek: Es de código abierto, lo que facilita un acceso más amplio a su tecnología.
– OpenAI: Ofrece ciertas modalidades de acceso público (como API de pago).
Para terminar una reciente entrevista con Carles Sierra, director del Instituto de Investigación en Inteligencia Artificial del Consejo Superior de Investigaciones Científicas en Barcelona.
Comparte este artículo, tus amig@s lo agradecerán…
Mastodon: @LQSomos@nobigtech.es; Bluesky: LQSomos;
Telegram: LoQueSomosWeb; Twitter (X): @LQSomos;
Facebook: LoQueSomos; Instagram: LoQueSomos;