Google lanza Gemini, un modelo de inteligencia artificial que genera muchas expectativas. ¿Todavía no lo has probado?

Google lanza Gemini: el nuevo modelo de IA que puedes probar ahora mismo

pablo.blanco

12/12/2023

Google redobla la apuesta por la inteligencia artificial haciéndose eco de una herramienta muy prometedora en el que lleva años trabajando: Gemini. Google Gemini pretende posicionarse como el mejor modelo de inteligencia artificial que haya existido jamás.

Es una muestra ostensible de la alta competitividad y sed de innovación entre las empresas volcadas en el desarrollo de la IA, especialmente evidencia el forcejeo entre OpenAI y Google por sentarse en el trono de la inteligencia artificial.

Aunque podríamos decir que la autoría completa de Gemini no se le puede adjudicar plenamente a Google, sino más bien a Deepmind, una compañía dedicada a la inteligencia artificial que adquirió Google (o Alphabet, su compañía matriz) en 2014.

En este artículo de EducaOpen te contamos todo lo que se sabe hasta ahora sobre Google Gemini. Te contaremos cuáles son las diferencias entre cada una de sus modalidades, cómo funciona y qué es lo que marca la diferencia respecto a su principal competidor, GPT-4. Además, te contaremos cómo puedes probar Gemini en el chatbot de Google, Bard.

Gemini Pro vs. Gemini Ultra vs. Gemini Nano

Google ha anunciado el lanzamiento de Gemini en tres formatos diferentes que ha bautizado como Gemini Nano, Gemini Ultra y Gemino Pro. Cada uno de ellos tiene especificidades y modos de funcionamiento únicos sobre los que podríamos tratar extensamente. Sin embargo, en aras del pragmatismo, nos limitaremos a comparar los enfoques que tiene cada producto que compone la familia Gemini.

Nano

Nano es la gama de Gemini más ligera y menos potente, orientada en esencia a ejecutarse en dispositivos móviles. Además, podemos distinguir dos versiones de Nano:

Nano-1: Puede manejar hasta casi dos mil millones de parámetros. Está pensado para dispositivos con una memoria reducida.
Nano-2: Tiene la capacidad de procesar tres mil millones de parámetros. Está ideado para dispositivos con una alta capacidad de almacenamiento.

Gemini Nano será el miembro de la familia que quedará implementado en el teléfono móvil Google Pixel 8 Pro. La integración de este modelo avanzado de IA se dejará notar especialmente en la cámara. Así pues, mejora con creces el rendimiento de la cámara en entornos oscuros y el autoenfoque, amén de automatizar los ajustes de configuración para sacar las mejores fotos según cada situación. También traerá nuevas funcionalidades en materia de edición de fotos y vídeos.

Pro

El modo Pro de Gemini es la gama media que linda entre su hermano menor Nano y su hermano mayor Ultra. Actualmente, podemos ver de qué es capaz este modelo a través de la herramienta Bard. En diciembre de 2023, Google incorporó Gemini Pro en Bard, impulsando su rendimiento respecto a ChatGPT.

Desde que Google lanzó Bard al mercado para competir con OpenAI hasta ahora, Bard se ha visto totalmente eclipsado por la popularidad y buenas críticas del afamado ChatGPT, especialmente después del lanzamiento de GPT 3.5. Sin embargo, esto puede cambiar radicalmente gracias al modo Pro de Gemini.

¿Quieres poner a prueba el potencial de Gemini Pro? Solo tienes que acceder al chatbot de Bard y registrarte para comprobarlo.

Ultra

Es la versión más potente que desbancará a GPT-4 en muchos frentes según las estimaciones y pruebas experimentales de Google. Si GPT-4 ya hace un trabajo magnífico procesando el contexto de las palabras e imágenes, Gemini va un gran paso más allá al ser capaz de distinguir matices muy finos en los datos que aportan formatos muy variados como palabras, imágenes, audio y vídeo.

Además, demuestra una mejor comprensión de temas muy complejos, como las matemáticas o la física. También se predice que podrá responder a las dudas que le planteemos en tiempo real con una latencia mínima.

Si bien por el momento Gemini Ultra no está disponible para su uso, Google ha anunciado que sí lo implementará definitivamente en su chatbot Bard, que pasará a llamarse Bard Advanced.

¿Cómo funcionan los modelos de inteligencia artificial de Gemini?

Los modelos de Gemini se basan en transformadores que el equipo de Google ha optimizado para poder entrenarlos de manera estable a gran escala y realizar inferencias, es decir, procesar nuevos datos, a partir de las Unidades de Procesamiento Tensorial (TPU) de Google.

Los modelos multimodales de Gemini están capacitados para procesar textos largos de hasta 32 mil palabras y usan mecanismos y técnicas de modelado IA como MQA (Multiquery Attention).

Aparte de manejar texto con soltura, algo que ya vemos actualmente en generadores de texto IA como ChatGPT o Bing, Gemini puede operar con una variedad de inputs en formato de audio y gráficos como imágenes, gráficos, capturas de pantalla, PDF y vídeos. A su vez, producen outputs tanto en formato de texto e imágenes. Esta codificación visual es posible gracias a algunas técnicas avanzadas de modelado ideadas también en el seno de Google, como Flamingo y PaLI.

En el caso del procesamiento de vídeos, Gemini trata los vídeos como una secuencias de fotogramas en un amplio rango de resoluciones que pueden entrelazarse con texto y audio.

La familia de productos Gemini se ha entrenado a partir de algoritmos de aprendizaje automático mejorados con una infraestructura y conjuntos ingentes de datos propios.

Diferencias entre Gemini y GPT-4

Si de algo se enorgullecen en Deepmind y Google es de haber excedido en capacidades generales al modelo de lenguaje multimodal más desarrollado de OpenAI, GPT-4. De hecho, lo primero que verás al entrar a la web de Gemini es un alarde estadístico sobre los excelsos resultados de rendimiento de Gemini frente a los del modelo GPT.

Así pues, Gemini Ultra supera a GPT-4 en muchos aspectos:

Respuestas a dudas sobre temas diversos.
Comprensión lectora.
Resolución de operaciones aritméticas y problemas matemáticos.
Programación de código en Python.
Razonamiento de tareas multidisciplinares.
Procesamiento de imágenes.
Procesamiento de documentos.
Razonamiento matemático en contextos gráficos.
Subtitulado.
Respuestas a dudas en formato de vídeo.
Traducción automática por audio.
Reconocimiento y procesamiento del habla.

Entre estas mejoras significativas que trae Gemini Ultra respecto a su competidor, destaca la de reconocimiento de imágenes y procesamiento de formatos audiovisuales. Hasta ahora, hemos experimentado sobre todo con el formato textual, y no tanto el audiovisual. Esta innovación facilitaría enormemente que los modelos de IA pudieran comprender e interpretar mejor los datos en formato visual y auditivo.

Otro factor a favor de Google es que Gemini, al ser un producto de marca Google, tendría acceso a todo el almacén de información proporcionada por el buscador número uno en gran parte del mundo. Se calcula que Google acumula en sus bases de datos hasta 15 exabytes (un exabyte equivale a un billón de bytes) de almacenamiento, y esta cifra va subiendo cada segundo. Esto es, los modelos de Gemini se entrenan con un mar de datos casi infinito y sin parangón.

Conclusiones: ¿se materializarán las expectativas de Gemini?

Si bien el lanzamiento de Google Gemini representa un hito significativo en el ámbito de la inteligencia artificial, todavía no podemos confirmar que Gemini Ultra vaya a cumplir con las elevadas expectativas que está generando. Con sus avanzadas capacidades multimodales, de cumplirlas, Gemini marcaría un avance importante al integrar datos visuales y auditivos, y su vasta base de datos de Google potenciaría su entrenamiento con una cantidad de información prácticamente inigualable.

Solicitar información