Google genera IA que puede procesar textos, vídeos y audios largos

Gemini 1.5 Pro, un modelo de inteligencia artificial (IA) capaz de procesar grandes volúmenes de datos de una sola vez.

Foto: EFE

15 de febrero 2024

Google presentó este jueves, para un grupo exclusivo de desarrolladores, Gemini 1.5 Pro, un modelo de inteligencia artificial (IA) capaz de procesar grandes volúmenes de datos de una sola vez, incluyendo una hora de video, once horas de audio, 30,000 líneas de código o más de 700,000 palabras.

“Hace unos años, memorizar u obtener el contexto de cientos de palabras era bastante complicado e incluso si retrocedemos a la década de 1950, cuando (Claude) Shannon (el matemático que inventó la teoría de la información) imaginaba modelos de lenguaje, solo analizaba dos palabras de contexto”, comentó Oriol Vinyals, vicepresidente de investigación de Google DeepMind y director ejecutivo de Gemini, ante los medios.

Para ilustrar las capacidades de Gemini 1.5 Pro, Vinyals mostró, mediante un video pregrabado, cómo el modelo podía analizar un texto de 402 páginas de transcripciones del Apolo 11, la histórica misión que llevó al primer ser humano a la Luna, y encontrar tres citas humorísticas.

Además de trabajar con texto, los usuarios podrán interactuar con el modelo mediante fotos o dibujos. En una demostración en el video de presentación, un usuario proporcionó a Gemini 1.5 Pro un simple dibujo de una bota pisando el suelo y solicitó: “¿Qué momento representa esto? Proporciona una cita exacta”.

La máquina respondió con la famosa cita del astronauta Neil A. Armstrong: “Ese es un pequeño paso para el hombre”.

Vinyals exhibió otros ejemplos similares, utilizando como base una película muda de 45 minutos de Buster Keaton, en lugar de un texto.

En cuanto a la programación, en un comunicado, la empresa señaló: “Puede abordar tareas de resolución de problemas más complejas en bloques de código más extensos. Cuando se le presenta un fragmento con más de 100,000 líneas de código, puede razonar mejor entre ejemplos, sugerir modificaciones útiles y ofrecer explicaciones sobre el funcionamiento de las diferentes partes del código”.

Foto: EFE

“En cierto sentido, funciona de manera muy similar a nuestro cerebro”, explicó Vinyals.

Gemini 1.5 opera a un nivel similar al 1.0 Ultra, el modelo más avanzado de Google hasta la fecha.

En un comunicado del director ejecutivo de Google y Alphabet, Sundar Pichai, se indica que Gemini 1.5 Pro ayudará a los desarrolladores a crear modelos y aplicaciones mucho más útiles.

“Nos complace ofrecer una vista previa limitada de esta función experimental a desarrolladores y clientes empresariales”, subrayó Pichai.

A partir de hoy, algunos desarrolladores y clientes de la nube podrán comenzar a trabajar con 1.0 Ultra, utilizando la interfaz de programación de aplicaciones (API) Gemini en AI Studio y Vertex AI.

En relación con las ‘alucinaciones’ -respuestas bien estructuradas pero incorrectas- Vinyals señaló que sigue siendo un desafío en el campo de la IA en general, en el cual se continúa trabajando.

La semana pasada, Google renombró su chatbot con inteligencia artificial (IA) de Bard a Gemini, anunció que esta tecnología estará disponible en una nueva aplicación Gemini para Android y a través de la aplicación de Google en iOS, y también lanzó una versión “avanzada” de pago que utiliza Gemini 1.0 Ultra.

Temas relacionados