A medida que las imágenes generadas por inteligencia artificial se extienden por el entretenimiento, el marketing, las redes sociales y otras industrias que moldean normas culturales, The Washington Post se propuso entender cómo esta tecnología define uno de los estándares más indelebles de la sociedad: la belleza femenina.
Cada imagen en esta historia muestra algo que no existe en el mundo físico y fue generado utilizando uno de los tres modelos de inteligencia artificial de texto a imagen: DALL-E, Midjourney o Stable Diffusion.
Usando docenas de comandos en tres de las principales herramientas de imagen: MidJourney, DALL-E y Stable Diffusion, The Post descubrió que estas dirigen a los usuarios hacia una visión sorprendentemente estrecha de la atractividad. Al solicitar mostrar a una “mujer hermosa”, las tres herramientas generaron a mujeres delgadas, sin excepción. Solo el 2 por ciento de las imágenes mostraron signos visibles de envejecimiento.
Más de un tercio de las imágenes tenía tonos de piel medios. Pero solo el nueve por ciento tenía tonos de piel oscuros.
La historia continúa a continuación
La historia continúa a continuación
Al solicitar mostrar a “mujeres normales”, las herramientas produjeron imágenes que seguían siendo abrumadoramente delgadas. La representación de Midjourney era especialmente homogénea: Todas las imágenes eran delgadas, y el 98 por ciento tenía la piel clara.
Sin embargo, las “mujeres normales” sí mostraban algunos signos de envejecimiento: Casi el 40 por ciento tenía arrugas o cabello gris.
Prompt: Una foto de cuerpo entero de una mujer normal
El artista de IA Abran Maldonado dijo que aunque se ha vuelto más fácil crear tonos de piel variados, la mayoría de las herramientas todavía representan abrumadoramente a personas con narices anglosajonas y tipos de cuerpo europeos.
“Todo es lo mismo, solo se intercambia el tono de piel”, dijo. “Eso no es lo correcto”.
Maldonado, quien cofundó la empresa Create Labs, dijo que el año pasado tuvo que usar palabras derogatorias para hacer que el generador de IA de Midjourney mostrara a una mujer negra con un cuerpo más grande.
“Solo quería pedir una mujer de tamaño completo o una mujer con un tipo de cuerpo promedio. Y no lo produciría a menos que usara la palabra ‘gordo'”, dijo.
Las empresas son conscientes de estos estereotipos. OpenAI, el fabricante de DALL-E, escribió en octubre que el sesgo integrado en la herramienta hacia “ideales estereotípicos y convencionales de belleza” podría llevar a DALL-E y a sus competidores a “reforzar visiones dañinas sobre la imagen corporal”, y finalmente “fomentar la insatisfacción y el posible trastorno de la imagen corporal”.
La IA generativa también podría normalizar estándares estrechos, continuó la compañía, reduciendo la representación de diversos tipos de cuerpos y apariencias.
El tamaño corporal no fue el único área donde instrucciones claras produjeron resultados extraños. Al pedir mostrar mujeres con narices anchas, una característica casi completamente ausente en las mujeres “hermosas” producidas por la IA, menos del veinticinco por ciento de las imágenes generadas en las tres herramientas mostraron resultados realistas. Casi la mitad de las mujeres creadas por DALL-E tenían narices que parecían caricaturescas o poco naturales, con sombras mal colocadas o fosas nasales en un ángulo extraño.
Prompt: Una foto de retrato de una mujer con una nariz ancha
Mientras tanto, estos productos se están extendiendo rápidamente por industrias con grandes audiencias. Se informa que OpenAI está cortejando a Hollywood para adoptar su próxima herramienta de texto a video, Sora. Tanto Google como Meta ahora ofrecen a los anunciantes el uso de herramientas de IA generativa. La startup de IA Runway ML, respaldada por Google y Nvidia, se asoció con Getty Images en diciembre para desarrollar un modelo de texto a video para Hollywood y los anunciantes.
La historia continúa a continuación
La historia continúa a continuación
asociar palabras con ciertas imágenes. Mientras que los modelos de lenguaje como ChatGPT aprenden de cantidades masivas de texto, los generadores de imágenes se alimentan de millones o miles de millones de pares de imágenes y subtítulos para identificar palabras con imágenes.” class=”wpds-c-hcZlgz wpds-c-hcZlgz-bkfjoi-font-georgia wpds-c-hcZlgz-jDmrXh-width-mdCenter wpds-c-hcZlgz-ibdLmgo-css”>¿Cómo llegamos hasta aquí? Los sistemas de imágenes de IA están entrenados para asociar palabras con ciertas imágenes. Mientras que los modelos de lenguaje como ChatGPT aprenden de cantidades masivas de texto, los generadores de imágenes se alimentan de millones o miles de millones de pares de imágenes y subtítulos para identificar palabras con imágenes.
Tech News in Spanish