Tecnología

Gemini 1.5 Pro: El modelo de Google con IA que puede procesar textos, videos y audios largos

Google lanzó este jueves 15 de febrero, un modelo de inteligencia artificial (IA) que puede procesar grandes cantidades de información de una sola vez.

Keneth Cruz y Redacción EFE

15 de febrero de 2024

15:34h

Google lanza una IA que puede procesar textos, vídeos y audios largos. (Foto Prensa Libre: EFE)

Google lanzó para un grupo selecto de desarrolladores, Gemini 1.5 Pro, un modelo de inteligencia artificial (IA) que puede procesar grandes cantidades de información de una sola vez, incluida una hora de vídeo, once horas de audio, 30 mil líneas de código o más de 700 mil palabras.

"Hace unos años memorizar u obtener el contexto de cientos de palabras era bastante difícil e incluso si miramos a la década de 1950, cuando Shannon (el matemático que inventó la teoría de la información) soñada con modelos de lenguaje, estaba analizando dos palabras de contexto", dijo a la prensa Oriol Vinyals, vicepresidente de investigación de Google DeepMind y director ejecutivo de Gemini.

Para ejemplificar las capacidades de Gemini 1.5 Pro, Vinyals mostró -usando un video pregrabado- que el modelo era capaz de analizar un texto de 402 páginas de transcripciones del Apolo 11 -la primera misión en lograr que un ser humano llegase a la luna- y encontrar tres citas graciosas.

Además de con texto, los usuarios podrán interactuar con el modelo con fotos o dibujos. En el ejemplo del vídeo de presentación, el usuario le dio a Gemini 1.5 Pro un dibujo muy sencillo de una bota pisando el suelo y le pidió: "¿Qué momento es este? responde con una cita exacta".

LECTURAS RELACIONADAS

Una nueva aplicación móvil, disponible para iOS y Android, permitirá utilizar el chatbot de Google, rebautizado como Gemini. (Foto Prensa Libre: EFE/ Latif Kassidi)

Gemini es el nuevo nombre del chatbot de Google y estará disponible en una app

Gemini: La nueva herramienta de inteligencia artificial de Google que compite con ChatGPT (la multimodalidad, los formatos y su potencial)

La respuesta de la máquina fue la famosa cita del astronauta Neil A. Armstrong: "Ese es un pequeño paso para el hombre".

Today we're introducing Gemini 1.5, our next-generation AI model. It shows dramatically enhanced performance, including long-context understanding across modalities, which opens up new possibilities for people to create and build with AI → https://t.co/TjDy8GHIQS #GeminiAI pic.twitter.com/043FGirXB0
— Google (@Google) February 15, 2024

Vinyals mostró otros ejemplos parecidos, en lo que como base se usaba una película muda de 45 minutos de Buster Keaton, en lugar de un texto.

Lea más: Apple Vision Pro: Tim Cook da la bienvenida a las nuevas gafas de realidad virtual

Con respecto a la programación, en un comunicado la empresa señala: "Puede realizar tareas de resolución de problemas más relevantes en bloques de código más largos. Cuando se le presenta un mensaje con más de 100 mil líneas de código, puede razonar mejor entre ejemplos, sugerir modificaciones útiles y dar explicaciones sobre cómo funcionan las diferentes partes del código".

✨ Introducing Gemini 1.5: Our next-generation model with a context window of 1M tokens. ➡️ https://t.co/WuS2G2WqZX

Explore the latest Gemini models, including Gemini 1.5 Pro, in Google AI Studio.#BuildWithGemini pic.twitter.com/B85fBFmPF1
— Google for Developers (@googledevs) February 15, 2024

"En cierto modo, funciona de manera muy similar a como lo hace nuestro cerebro", explicó Vinyals.

Gemini 1.5 funciona a un nivel similar al 1.0 Ultra, el modelo de Google más sofisticado hasta la fecha.

En un comunicado del director ejecutivo de Google y Alphabet, Sundar Pichai, indica que Gemini 1.5 Pro ayudará a los desarrolladores a crear modelos y aplicaciones mucho más útiles.

"Nos complace ofrecer una vista previa limitada de esta función experimental a desarrolladores y clientes empresariales", recalca Pichai.

A partir de hoy algunos desarrolladores y clientes de la nube podrán comenzar a construir con 1.0 Ultra, con la interfaz de programación de aplicaciones (API) Gemini en AI Studio y Vertex AI.

Gemini 1.5 Pro can understand tasks and questions across different modalities because of its long context understanding. When given a 44-minute Buster Keaton film, it's able to find small details in the film and understand plot points. #GeminiAI pic.twitter.com/FHMAfeKU0h
— Google (@Google) February 15, 2024

En lo referente a las 'alucinaciones' -respuestas bien estructuradas para incorrectas- Vinyals señala que sigue siendo un problema de la IA en general en el que se sigue trabajando.

Lea también: TikTok y Universal: qué música deja de estar en la red social luego de la disputa entre ambas empresas

La semana pasada, Google cambió el nombre de su chatbot con inteligencia artificial (IA) de Bard a Gemini, anunció que esta tecnología estará disponible en una nueva aplicación Gemini para Android y a través de la aplicación de Google en iOS y, además, lanzó una versión "avanzada" de pago, que usa Gemini 1.0 Ultra.

ESCRITO POR:

Keneth Cruz

Periodista de Prensa Libre especializado en música, fotografía y tecnología con 20 años de experiencia. Reconocido con el Premio Arroba de Oro y Premio Nacional de Periodismo Cultural Enrique Gómez Carrillo, en la categoría de Fotoperiodismo.

Redacción EFE

ARCHIVADO EN:

Google Inteligencia artificial Tecnología Tendencias internacionales

Tecnología

Gemini 1.5 Pro: El modelo de Google con IA que puede procesar textos, videos y audios largos

Google lanzó este jueves 15 de febrero, un modelo de inteligencia artificial (IA) que puede procesar grandes cantidades de información de una sola vez.

Google lanza una IA que puede procesar textos, vídeos y audios largos. (Foto Prensa Libre: EFE)

LECTURAS RELACIONADAS

Gemini es el nuevo nombre del chatbot de Google y estará disponible en una app

Gemini: La nueva herramienta de inteligencia artificial de Google que compite con ChatGPT (la multimodalidad, los formatos y su potencial)

ESCRITO POR:

Keneth Cruz

Periodista de Prensa Libre especializado en música, fotografía y tecnología con 20 años de experiencia. Reconocido con el Premio Arroba de Oro y Premio Nacional de Periodismo Cultural Enrique Gómez Carrillo, en la categoría de Fotoperiodismo.

Lee más artículos de Keneth Cruz

Redacción EFE

Lee más artículos de Redacción EFE

ARCHIVADO EN:

SÍGANOS EN

Tecnología

Gemini 1.5 Pro: El modelo de Google con IA que puede procesar textos, videos y audios largos

Google lanzó este jueves 15 de febrero, un modelo de inteligencia artificial (IA) que puede procesar grandes cantidades de información de una sola vez.

Google lanza una IA que puede procesar textos, vídeos y audios largos. (Foto Prensa Libre: EFE)

LECTURAS RELACIONADAS

Gemini es el nuevo nombre del chatbot de Google y estará disponible en una app

Gemini: La nueva herramienta de inteligencia artificial de Google que compite con ChatGPT (la multimodalidad, los formatos y su potencial)

ESCRITO POR:

Keneth Cruz

Periodista de Prensa Libre especializado en música, fotografía y tecnología con 20 años de experiencia. Reconocido con el Premio Arroba de Oro y Premio Nacional de Periodismo Cultural Enrique Gómez Carrillo, en la categoría de Fotoperiodismo.

Lee más artículos de Keneth Cruz

Redacción EFE

Lee más artículos de Redacción EFE

ARCHIVADO EN:

ACERCA DE

SUSCRIPCIÓN

CONTACTO

RECIBA NUESTRO BOLETÍN POR LA MAÑANA

SÍGANOS EN