Stable Diffusion, desarrollado por Stability AI, se lanzó inicialmente para los investigadores a principios de este mes. Es así que el generador de texto a imagen ya se encuentra disponible para que cualquiera lo pruebe, y afirma ofrecer un gran avance en velocidad y calidad que puede ejecutarse en GPU de consumo.
Está basado en el modelo difuso latente creado por CompVis y Runway, pero mejorado con información de los modelos de difusión condicional del desarrollador líder de inteligencia artificial generativa de Stable Diffusion, Katherine Crowson, Open AI, Google Brain y otros.
Stable Diffusion es un modelo de aprendizaje automático para generar imágenes digitales a partir de descripciones en lenguaje natural. El modelo también se puede usar para otras tareas, como generar traducciones de imagen a imagen guiadas por un mensaje de texto.
“Este modelo se basa en el trabajo de muchos investigadores excelentes y esperamos el efecto positivo de este y otros modelos similares en la sociedad y la ciencia en los próximos años, ya que miles de millones en todo el mundo los utilizan”, dijo Emad Mostaque, director ejecutivo de Stability AI.
El conjunto de datos principal se entrenó en LAION-Aesthetics, un conjunto de datos que filtra los 5850 millones de imágenes en el conjunto de datos LAION-5B en función de cuán «hermosa» era una imagen, basándose en las calificaciones de los evaluadores alfa de Stable Diffusion.
Stable Diffusion se ejecuta en computadoras con menos de 10 GB de VRAM y genera imágenes con una resolución de 512 × 512 píxeles en solo unos segundos.
Stable Diffusion va cara a cara con otros modelos de texto a imagen, incluidos Midjourney, DALL-E 2 e Imagen.