TECNOLOGÍA. Google Genie y las IA están listas para revolucionar los juegos

Google Genie y las IA están listas para revolucionar los juegos

Genie de Google DeepMind convierte imágenes en videojuegos jugables en un solo paso, pero es solo la última de una lista de tecnologías que converge rápidamente y que apunta a un extraño futuro de ciencia ficción de entretenimiento interactivo, diseñado y ejecutado por IA en tiempo real.

27 febrero 2024.- Genie AI de DeepMind es un modelo relativamente pequeño de 11 mil millones de parámetros, entrenado en más de 200.000 horas de video de personas jugando juegos de plataformas en 2D, sin supervisión humana.

Estos están bastante formulados, por lo que tal vez no sea una sorpresa que Genie haya descubierto la mecánica y la física de acción involucradas, a pesar de que las transmisiones de video no contenían información sobre cuándo se presionó un botón o control.

Como resultado, este modelo acepta una sola imagen (ya sea una fotografía, un boceto o una imagen generada por IA) y la convierte en un juego jugable que responde a los controles del usuario. Imagen al entorno interactivo rudimentario en un solo paso.

No te obsesiones demasiado con la calidad de los "juegos" que estás viendo. Genie es un proyecto de investigación, no un producto final. Fue entrenado con videos de resolución súper baja con una resolución minúscula de 160 x 90 píxeles y solo 10 fotogramas por segundo, y genera 'juegos' con una resolución igualmente baja que funcionan durante solo 16 segundos a un mísero fotograma por segundo.

Pero una vez probada la idea básica, todo indica que Genie mejorará significativamente con la escala; Agregue videoclips más largos y de mayor resolución y coloque una tonelada de computación en este sistema y los resultados comenzarán a mejorar en calidad de la forma en que los vemos hacerlo literalmente en todos los rincones del espacio de la IA.

Entonces, en cierto sentido, Genie no es la verdadera historia aquí. La historia es mucho más amplia y se puede resumir así: todo lo que estás viendo desde IA avanzadas de texto a video, como la asombrosa demostración de Sora de OpenAI de la semana pasada, está comenzando a converger con mundos interactivos en 3D, generados por IA. personajes y modelos de lenguaje natural estilo GPT, con hardware de realidad virtual que también avanza a buen ritmo.

Las repercusiones serán absolutamente colosales, un cambio fundamental no sólo en los juegos, sino también en el entretenimiento en general. Permítanme agregar algunos videos básicos que señalan hacia dónde se dirigen las cosas.

Echa un vistazo a este vídeo de 2021. Muestra una IA que, hace dos años y medio, había visto suficientes Grand Theft Auto V para poder recrear una facsímil borrosa y simplificada del juego, completa con un coche manejable, en tiempo real .

Jugando a la versión de GTA V de Neural Network: GAN Theft Auto

Nuevamente, eso fue hace un par de años, y todos hemos visto el ritmo vertiginoso del progreso aquí. La conclusión de este vídeo es: la generación de juegos de IA ciertamente no se detendrá en los juegos de plataformas 2D de Genie. Durante mucho tiempo ha tenido la capacidad de hacer este tipo de cosas en 3D, y esencialmente es sólo una cuestión de hacia dónde apunta el foco en un momento dado. Los juegos se dirigen hacia un lugar donde todo lo que ves, oyes y haces será generado por una IA en tiempo real.

En segundo lugar, y esto quizás también sea una vieja noticia, pero es un elemento importante aquí. Hemos escrito antes sobre los NPC de videojuegos generados por IA, cuya apariencia, personalidad, objetivos y conocimientos puedes modificar usando lenguaje natural, y con quienes los jugadores pueden conversar verbalmente o mediante texto sin límites en los temas de conversación.

Si no has visto esto en acción, es cada vez más rápido, más receptivo y mejor. Mira lo que Alystria AI ha hecho usando Cyberpunk 2077, Ghost of Tsushima, Red Dead: Redemption 2 y otros títulos de mundo abierto como base, haciendo que algunos de los personajes más icónicos del mundo sean completamente interactivos con la IA dentro del contexto del juego.

¡Habla con NPC con tecnología GPT-4 en cualquier juego!

En los ejemplos anteriores, las voces de los actores originales no se han conservado, pero eso es francamente trivial ahora desde un punto de vista tecnológico si los acuerdos contractuales lo permiten. Hay aplicaciones que puedes descargar ahora mismo para clonar tu propia voz o la de cualquier otra persona; es un buen momento para empezar a configurar palabras clave con tus parientes mayores, porque los actores de mala fe necesitan muy poca de tu voz para empezar a clonarla y sonar. ellos pidiendo dinero.

Dados los cientos de horas de grabaciones de voz en alta definición que se utilizan en la producción de videojuegos, existen enormes oportunidades para que los estudios de juegos entrenen modelos de voz. No nos sorprendería ver una avalancha de relanzamientos de juegos más antiguos mejorados por IA en los que los jugadores pueden mantener conversaciones naturales ilimitadas con NPC icónicos mientras juegan.

Ahora hagamos un repaso rápido sobre Sora de OpenAI, que a partir de este momento nos parece el generador de texto a video más avanzado del mundo, aunque para cuando lleguemos a publicar, es posible que haya sido eclipsado. Este es uno de los muchos videos más recientes lanzados desde el debut de Sora la semana pasada.

Sora no solo genera los videos fotorrealistas más asombrosos que jamás hayamos visto saliendo de una IA, sino que también es capaz de crear personajes, estilos y entornos persistentes. Es decir, escenas en las que la cámara puede mirar a su alrededor, luego mirar hacia atrás y los objetos siguen ahí. Personajes que se pueden mantener consistentes entre diferentes escenas. Esa clase de cosas.

Y también está desarrollando, simplemente al ingerir tanto vídeo del mundo que lo rodea, una asombrosa comprensión de cómo funciona la física en el mundo real y cómo los objetos, superficies y sustancias se relacionan e interactúan entre sí. Aquí está el intento de Sora de crear una vista de cámara de casco de una carrera de Fórmula 1 ambientada en San Francisco.

Mire de cerca y verá que es una locura, con errores tontos por todas partes. Pero no estamos hablando de lo que está aquí ahora, estamos mirando el punto futuro cercano hacia el cual todo esto está convergiendo. Sora nos muestra el impactante nivel de calidad con el que se pueden generar videos con suficiente capacitación, potencia de procesamiento y computación, y videos como los anteriores son simplemente de lo que es capaz en 2024.

A continuación, podemos incorporar rápidamente audio y efectos de sonido , que vimos la semana pasada, nuevamente en una forma relativamente temprana y extravagante, de ElevenLabs.

Básicamente, cualquier cosa que estés generando visualmente, otra IA puede tomarla y ponerle una pista de audio. Fácil.

Y, por supuesto, si quieres una banda sonora, la generación de música con IA también avanza a un ritmo sorprendente. Aquí hay un ejemplo aleatorio que encontré: es música pop, no una banda sonora, pero muestra lo fácil que es ahora poner algunas letras en una olla y generar una canción completa, con voces.

En el escenario de entretenimiento interactivo más amplio que estamos construyendo, puede tomarlo como está: las bandas sonoras pueden generarse absolutamente en tiempo casi real, de una manera que responda a la acción. Y no hay ninguna razón por la que los personajes NPC no compongan pronto canciones sobre lo que has estado haciendo en el juego y te las canten, nuevamente de una manera totalmente interactiva.

Así que veamos los componentes básicos que tenemos aquí:

Juegos jugables generados por IA con controles responsivos
Generación neuronal en tiempo real de mundos de juegos interactivos.
Generación basada en lenguaje y ajuste de personajes NPC totalmente interactivos.
Generación de texto a vídeo de imágenes de altísima calidad, en prácticamente cualquier estilo, con estilos, personajes y entornos persistentes.
Generación de efectos de sonido y foley de vídeo y texto a audio.
Generación de banda sonora con IA

Si los sumamos a modelos de lenguaje que mejoran rápidamente, como GPT, con su capacidad para crear y responder a narrativas y al mismo tiempo impulsar una variedad de otras tecnologías de inteligencia artificial, obtendremos una imagen muy diferente de cómo será el diseño de videojuegos en un futuro no tan lejano. -Futuro lejano.

Podrás empezar sin nada, o con uno o dos bocetos, y hacer que la IA genere un mundo interactivo, que incluso al principio probablemente será extraordinariamente hermoso.

Entonces, como un Dios digital, podrán decir: "Que haya árbol", y habrá árbol, y si no es bueno, podrán pedir un árbol diferente. Podrás crear tus personajes simplemente pintando un cuadro verbal: "Quiero un burro parlante con acento mexicano y un chip en el hombro. No, más atrevido. Démosle un aire de peligro y inclinación por la épica". cuenta una historia sobre su turbio pasado como marinero mercante. Pierde el sombrero, vamos con un pañuelo estilo vaquero. Su motivo oculto en esta historia es que está buscando a su hermana, quien cree que puede estar retenida por ninjas en el castillo de arriba. de esa colina."

El término "juegos" apenas cubre de qué estamos hablando aquí; Podrás diseñar verbalmente una experiencia, luego jugarla e interactuar con ella, ajustando las cosas como un director en lugar de como un programador. Con suficientes recursos informáticos, podrás generar juegos completos de esta manera; Expresiones compartibles para uno o varios jugadores de tu propia imaginación individual que otros pueden disfrutar y potencialmente repetir con sus propios toques.

Coloque esto en un contexto de realidad virtual con capacidades de generación neuronal en tiempo real y una capacidad de nivel GPT-X para administrar la experiencia general y generar narrativas y... bueno, tienes la Holodeck de Star Trek , o para el caso, "la simulación". Mundos interactivos completos, poblados con personajes interactivos de tu elección, donde cualquier cosa que desees puede suceder en respuesta a solicitudes en tiempo real. ¿Quién enciende Netflix o la PS7 cuando está disponible una versión interactiva de cualquier cosa que se te ocurra?

Uno se estremece al pensar qué sucede cuando estas cosas están controladas por corporaciones o anunciantes, quienes tendrán una capacidad sin precedentes para dirigir sus experiencias de manera que los beneficien.

Todo esto no sucederá de la noche a la mañana. Claramente, el hardware es probablemente el principal factor limitante en este momento. Hay un número limitado de GPU en el mundo para entrenar y ejecutar estas cosas, aunque se están inventando y poniendo en producción nuevos chips específicamente para impulsar el impulso de la industria de la IA hacia la inteligencia artificial general y más allá.

Entonces, esa necesidad se está abordando tan rápido como el comercio humano es capaz de hacerlo, pero probablemente no estemos dentro de 12 meses para ver la creación de videos con calidad de Sora en tiempo real, por lo que hay un poco de espacio para respirar allí.

Se necesitarían grandes avances en hardware, conectividad y almacenamiento de energía para ejecutar este material a través de un visor de realidad virtual compacto, así como trabajar más en torno a mecanismos de retroalimentación háptica que encarnarán aún más a los jugadores en estas experiencias.

Llevando las cosas hasta los límites de lo que podemos ver, tal vez la mejor manera de llevar estas extraordinarias visiones, sonidos y sensaciones a nuestro cerebro sea directamente a través de cables, omitiendo por completo nuestros falibles órganos sensoriales.

La tecnología de interfaz cerebro-computadora ya está más avanzada de lo que mucha gente cree, y aunque la mayor parte está actualmente dirigida a uso médico, Elon Musk ha sido claro desde el principio que el objetivo final de Neuralink es crear una conexión entre los humanos y las IA. Esta conexión nos permitirá obtener mucha más información de la que podemos lograr a través de los cuellos de botella de bajo ancho de banda de los teclados, el reconocimiento de voz e incluso el lenguaje mismo. ¿La meta? Comunicación cerebro-IA en ambos sentidos, a la velocidad del pensamiento.

Y estamos viendo surgir otra tecnología que se centra en monitorear y responder a los humanos a un nivel aún más profundo de lo que se pensaba: tecnología emocionalmente sensible que hace que sus sentimientos en tiempo real sean otra entrada a la que un sistema podría reaccionar en tiempo real, impulsando la emoción a la cima o tocar las cuerdas de tu corazón a la perfección, y luego saber exactamente cuándo está muriendo un momento para que el ritmo de una experiencia pueda optimizarse perfectamente para el usuario.

En cuanto a las IA en sí... No importa cuánto hagamos lo mejor que podamos en New Atlas para mantenernos al día con lo que sucede en este espacio, no creo que nosotros, o la gran mayoría de las personas, tengamos idea de lo rápido que suceden estas cosas. realmente avanzando. Sora es un buen ejemplo; Tenemos la impresión de que OpenAI lo tuvo en la bolsa durante varios meses antes de decidir hacer un anuncio, y decidió dejarlo solo para pisotear la versión Gemini 1.5 de Google.

Funcionó; Con nuestros recursos humanos limitados y nuestra política de utilizar únicamente escritores humanos, tuvimos que elegir cuál cubrir, y Gemini no recibió ni un guernsey.

Gemini 1.5 es su propio punto de inflexión y ni siquiera pudimos acceder a él. El ritmo de progreso de la IA que está cambiando el mundo no tiene precedentes, no sólo en nuestra época sino probablemente en la historia de la humanidad.

Entonces, cuando vemos el Genio de Google, embrionario y de baja resolución como es hoy, todo es parte de un gigantesco tsunami de disrupción y convergencia que está convirtiendo la ciencia ficción en realidad a un ritmo vertiginoso. Lo sigo diciendo: abróchense el cinturón, amigos: estos conceptos que dan vueltas a la cabeza seguirán apareciendo a un ritmo acelerado.

Esto no es solo DeepMind y OpenAI , es toda una industria incipiente con una inversión masiva que aún no ha comenzado a tomar su ritmo. Diferentes aspectos de la IA chocan cada vez con más frecuencia y comienzan a converger con una variedad de otras tecnologías que a su vez avanzan, incluso si es a un ritmo más lento.

Cada pedacito del mundo que estas cosas aprenden a comprender y replicar para nuestra diversión es un paso hacia inteligencias encarnadas en humanoides y otros tipos de robots. Cada uno de ellos es también un paso hacia la inteligencia artificial general y, muy poco después, hacia la superinteligencia artificial. Estos dos conceptos parecían ridículamente lejanos en el futuro hace apenas uno o dos años, pero no apostaría a que ninguno de los dos se anuncie en los próximos 12 meses.

El mundo de 2030, a sólo seis años de distancia, se está convirtiendo en un completo misterio para mí. No tengo idea de qué habilidades debería enseñarles a mis hijos de cinco y 10 años para prepararlos.

Fuente: DeepMind y muchos otros.