TECNOLOGÍA. DALL-E 2 de OpenAI: una herramienta de ensueño y una amenaza existencial para los artistas visuales

generador imágenes, inteligencia artificial, diseño gráfico

¿La mejor herramienta artística jamás construida o un presagio de la fatalidad para industrias creativas enteras? El sistema DALL-E 2 de segunda generación de OpenAI se está abriendo lentamente al público, y sus capacidades de edición y generación de imágenes basadas en texto son impresionantes.

29 julio 2022.- El ritmo del progreso en el campo de la generación de texto a imagen impulsada por IA es realmente aterrador. La red antagónica generativa, o GAN, surgió por primera vez en 2014, presentando la idea de dos IA en competencia entre sí, ambas "entrenadas" al mostrarles una gran cantidad de imágenes reales, etiquetadas para ayudar a los algoritmos a aprender lo que son mirando. Luego, una IA "generadora" comienza a crear imágenes, y una IA "discriminadora" intenta adivinar si son imágenes reales o creaciones de IA.

Al principio, están igualados, ambos son absolutamente terribles en su trabajo. Pero aprenden; el generador es recompensado si engaña al discriminador, y el discriminador es recompensado si elige correctamente el origen de una imagen. Después de millones y miles de millones de iteraciones, cada una en cuestión de segundos, mejoran hasta el punto en que los humanos comienzan a luchar para notar la diferencia.

Aprenden a su manera, completamente sin la dirección de sus programadores; cada IA desarrolla su propia comprensión de lo que es un caballo, completamente desvinculada de la realidad que entendemos. Todo lo que sabe o le importa es su trabajo: engañar a la otra IA o no dejarse engañar, basándose en sus propios métodos individuales y completamente misteriosos de análisis y creación de datos.

Esto lleva a las extrañas y famosas desconexiones de la realidad que han sido el sello distintivo de tales sistemas hasta la fecha. Piense en la extraña obsesión de Deepdream con los perros y los ojos , o el surrealismo desenfrenado y hermoso de sistemas como Botto, la colaboración artística de IA/humano NFT.

Hasta ahora, estos algoritmos han sido diversiones fascinantes. DALL-E 2, por otro lado, deja en claro cuán disruptiva será esta tecnología, no dentro de cinco o diez años, sino en el momento en que sus puertas se abran al público. Solo mire este video e imagine cuánto tiempo y dinero necesitaría presupuestar para hacer esto usando inteligencia no artificial.

DALL-E 2 representa un cambio radical en la tecnología de generación de imágenes por IA. Comprende las indicaciones del lenguaje natural mucho mejor que cualquier otro anterior, lo que permite un nivel de control sin precedentes sobre temas, estilos, técnicas, ángulos, fondos, ubicaciones, acciones, atributos y conceptos, y genera imágenes de una calidad extraordinaria. Si le dice que quiere realismo fotográfico, por ejemplo, con gusto le permitirá dirigir sus opciones de lente y apertura.

Con un aviso de alta calidad, generará docenas de opciones para usted en segundos, cada una con un nivel de calidad que le llevaría horas producir a un fotógrafo, pintor, artista digital o ilustrador humano. Es una especie de sueño de director de arte; una mezcla heterogénea de ideas visuales en un instante, sin tener que pagar tarifas creativas, modelos o ubicación.

También puede generar diferentes versiones, ya sea versiones de algo que DALL-E ha generado para usted o de algo que ha subido. Creará su propia comprensión del tema, la composición, el estilo, la paleta de colores y el significado conceptual de la imagen, y generará una serie de piezas originales que reflejen el aspecto, la sensación y el contenido del original, pero cada uno agrega su propio toque.

Y DALL-E 2 ahora también puede hacer ediciones, de una manera que hace que el increíblemente poderoso pero notoriamente inaccesible software Photoshop de Adobe se sienta como una reliquia del pasado. No se requiere ningún nivel de educación. Puedes pintar una mancha en una silla y decir "pon un gato allí". Puede decirle a DALL-E que "haga que se ponga el sol", "póngala en un atrio cyberpunk iluminado con luces de neón" o "quítese la bicicleta". Entiende cosas como los reflejos y los actualizará en consecuencia.

Puede pegar una imagen y pedirle a la IA que la expanda hacia afuera a un marco de vista más amplio. Cada vez, le dará algunas opciones diferentes, y si no le gustan, puede ejecutar la misma instrucción nuevamente o ser más específico en sus indicaciones. Efectivamente, puede continuar alejando una imagen indefinidamente, y la gente ya está usando esto con un efecto creativo extraordinario.

Estas capacidades, que apenas rascan la superficie de lo que puede hacer, hacen de DALL-E 2 un editor de imágenes absolutamente revolucionario. Parece que esta tecnología puede hacer casi cualquier cosa.

Bueno, dentro de los límites. OpenAI ha diseñado DALL-E 2 para negarse a crear imágenes de celebridades o figuras públicas. Tampoco aceptará cargas de imágenes que "contengan caras realistas", y hace todo lo posible para no generar imágenes de personas reales, sino que modifica las cosas de una manera interesante que tiende a parecerse un poco a la persona real, pero también claramente no. Eso sí, dada la sofisticación del software de edición de imágenes y deepfake, no imaginamos que lleve mucho esfuerzo tomar una imagen DALL-E y pegarle la cabeza de su elección.

El sistema no generará contenido pornográfico, gore o político y, de hecho, los datos utilizados para entrenarlo excluyen este tipo de imágenes. Y, a menos que especifique información racial o demográfica en sus avisos, el sistema "genera imágenes de personas que reflejan con mayor precisión la diversidad de la población mundial", con la esperanza de evitar algunos de los prejuicios raciales que los sistemas de IA sufren con frecuencia debido a datos de entrenamiento sesgados.

DALL-E 2 se encuentra actualmente en versión beta, con una lista de espera para las partes interesadas. Durante las próximas semanas, se dará la bienvenida a un millón de cuentas, cada una con 50 créditos gratuitos para usar el sistema y 15 créditos adicionales cada mes. Los créditos adicionales costarán $15 por cada 115 créditos, y cada crédito le devolverá cuatro imágenes para un aviso o instrucción. Es a la vez una increíble democratización de la creatividad visual y un cuchillo en el corazón de cualquiera que haya pasado años o décadas refinando sus técnicas artísticas con la esperanza de ganarse la vida con ellas.

¿Hacia dónde desde aquí? Bueno, ¿por qué no un vídeo? A medida que la potencia de procesamiento y el almacenamiento continúan expandiéndose, es fácil imaginar que sistemas como este también deberían ser capaces de generar imágenes en movimiento. Las capacidades de edición de video mejoradas por IA de Adobe ya están integradas en su software After Effects de nivel profesional, pero aún no hemos visto ninguna creatividad de estilo DALL-E en video.

¿Cuánto tiempo pasará antes de que veamos un cortometraje completo, escrito, dirigido, con banda sonora y hecho completamente por sistemas de IA? Y luego, después de ese punto, ¿cuánto tiempo hasta que comiencen a valer la pena verlos?

¿Qué pasa con otras formas de diseño gráfico? ¿DALL-E puede hacer logotipos? ¿Plantillas de sitios web? ¿Cartas de negocios? ¿Evolucionará para autogenerar catálogos, afiches, folletos, portadas de libros y todo lo demás de lo que actualmente se gana la vida un diseñador? Probablemente. De hecho, si es joven y está interesado en el arte o el diseño, probablemente sea mejor que se convierta en un experto en sacar lo mejor de estas herramientas emergentes, porque en unos pocos años, le guste o no, esto podría ser lo que parece el concierto.

Presumiblemente, los generadores de imágenes de IA alternativos pronto comenzarán a surgir sin los límites éticos y morales que OpenAI ha establecido en torno a DALL-E. Se abrirán latas de gusanos. Las narices se descoyuntarán. DALL-E muestra un atisbo de un futuro que es fundamentalmente diferente, y este tipo de agitación nunca es indolora.

Echa un vistazo a un breve vídeo a continuación.