La empresa china DeepSeek, conocida por su chatbot que superó a ChatGPT en la App Store, ha lanzado un nuevo modelo generativo de imágenes llamado Janus Pro. Este modelo está diseñado para crear imágenes de “alta calidad y realismo” a partir de texto, mejorando la estabilidad y comprensión multimodal.
Janus Pro es la última versión de la familia de modelos generativos Janus, y cuenta con una serie de mejoras respecto a sus predecesores. Gracias a una estrategia de entrenamiento optimizada y un mayor tamaño de modelo, Janus Pro promete resultados más precisos y detallados, incluso a baja resolución. El modelo se basa en el modelo de lenguaje visual DeepSeek VL2, con 4.500 millones de parámetros activados.
Este nuevo modelo está disponible en dos versiones: una con 1.000 millones de parámetros y otra con 7.000 millones, siendo esta última la más avanzada y con mejor capacidad para generar imágenes a partir de texto. Janus Pro 7B también supera a otros modelos competidores en varios tests, como el GenEval y DPG-Bench, logrando un 80% de precisión, superando a Dall-E 3 (67%).
A pesar de que la resolución de las imágenes generadas es de 384 x 384 píxeles, Janus Pro logra crear imágenes “altamente realistas” con gran nivel de detalle. DeepSeek destacó que esta baja resolución es una limitación del modelo, pero asegura que la calidad es sobresaliente.
La empresa también ha ganado notoriedad con su chatbot, DeepSeek V3, que alcanzó el primer lugar en descargas en la App Store y se entrenó utilizando 2.048 GPUs Nvidia H800 con un coste de 5,6 millones de dólares. Este rendimiento ha sido comparable a modelos de vanguardia como Claude 3.5 Sonnet, Llama 3.1 40B y GPT-4.
En adición, DeepSeek ha lanzado recientemente la serie de modelos DeepSeek-R1, diseñada para mejorar el razonamiento en tareas complejas y competir con modelos como los de OpenAI.