DALL-E 3: generación de imágenes entre la creatividad y la precisión

Noticia

https://www.youtube.com/live/oDxt2Omfrnk

Comentario

Las pruebas con DALL-E 3 que ha difundido el canal DotCSV ofrecen una perspectiva práctica sobre el estado actual de la generación de imágenes mediante inteligencia artificial. DALL-E 3, integrado en ChatGPT, representa un avance notable respecto a sus predecesores, no solo por la calidad de las imágenes generadas, sino por la forma en que se interactúa con el sistema: el modelo trabaja directamente con las indicaciones del usuario sin necesidad de ingeniería de prompts compleja, interpretando descripciones en lenguaje natural con un nivel de detalle que hasta hace poco requería paráfrasis técnicas elaboradas.

Se observa cómo el modelo es capaz de reconocer estilos y corrientes artísticas, realizar variaciones de un mismo tema, añadir o quitar detalles de la imagen a demanda, explicar sus propias composiciones... Esta capacidad para identificar y reproducir estilos artísticos —desde el impresionismo hasta la ilustración técnica— tiene implicaciones relevantes en el ámbito documental. Para los profesionales de la información, DALL-E 3 puede funcionar como una herramienta de apoyo en la creación de materiales visuales para presentaciones, infografías o recursos educativos, generando imágenes adaptadas a códigos estéticos específicos sin necesidad de disponer de habilidades gráficas avanzadas. La posibilidad de realizar modificaciones iterativas —añadir, eliminar o ajustar elementos mediante instrucciones conversacionales— reduce significativamente el tiempo de producción visual.

Sin embargo, se destacan algunos puntos mejorables como la introducción de textos. Esta limitación señalada es especialmente significativa desde la perspectiva de las Ciencias de la Documentación. La generación de texto dentro de imágenes —rótulos, etiquetas, cartelas— es uno de los aspectos donde DALL-E 3 muestra todavía deficiencias notables. Los caracteres suelen aparecer deformados, en idiomas incorrectos o con una disposición que no respeta la intencionalidad comunicativa. Esta debilidad técnica limita su utilidad para aplicaciones que requieren precisión textual, como la generación de diagramas explicativos, infografías con anotaciones o materiales didácticos que combinan imagen y palabra de forma estructurada.

Desde un punto de vista técnico, esta dificultad refleja un desafío más profundo: la representación del lenguaje escrito dentro de imágenes generativas requiere que el modelo integre dos capacidades que operan con lógicas distintas. Por un lado, la generación visual debe producir formas reconocibles como letras; por otro, debe garantizar que esas formas correspondan a una secuencia lingüística coherente y significativa. Es un problema similar al que enfrentan los modelos cuando intentan generar manos con el número correcto de dedos: la estadística de los patrones visuales no siempre se alinea con las reglas estructurales del dominio.

En consonancia con los avances declarados y observados, DALL-E 3 se sitúa en la intersección de varias tendencias. Por una parte, continúa la línea de los modelos multimodales que ya apuntaba GPT-4 con capacidades de procesamiento de imágenes; por otra, amplía las posibilidades de personalización y especialización que hemos visto con los GPTs personalizados. Un usuario puede crear un GPT especializado en ilustración científica que, utilizando DALL-E 3 como motor de generación, produzca imágenes adaptadas a las convenciones de una disciplina concreta.

La capacidad del sistema para “explicar sus propias composiciones” —otra de las funcionalidades observadas en las pruebas— introduce una capa de metacognición artificial que resulta particularmente interesante desde el punto de vista documental. Que un modelo pueda describir los elementos de una imagen que ha generado, identificando estilos, composición y posibles referencias, abre la puerta a sistemas de catalogación automática de recursos visuales o a asistentes de diseño que no solo producen imágenes, sino que también proporcionan metadatos descriptivos sobre las mismas.