Google lanzó su esfuerzo más ambicioso hasta el momento para competir en el campo de rápido crecimiento de la inteligencia artificial generativa, presentando un modelo de IA llamado Gemini diseñado para competir con modelos como los de GPT de OpenAI y potenciar todo, desde las aplicaciones de consumo de Google hasta los smartphones Android.
El anuncio de Google reflejó la magnitud de sus objetivos al presentar a Gemini como el modelo de inteligencia artificial más grande y poderoso de la empresa, marcando el comienzo de lo que llamaron la "era Gemini", proyectando su utilización en una amplia gama de áreas, desde corporaciones de gran tamaño hasta dispositivos de consumo como el Google Pixel 8 Pro.
A diferencia de los modelos de IA existentes que generalmente lidian solo con un tipo de solicitud de usuario, como imágenes o texto exclusivamente, Google dijo que Gemini fue creado para ser "multimodal".
Esto implica la aceptación de datos que abarcan diversos formatos, como texto, imágenes, audio, video y código de programación. En una entrada de blog, Sundar Pichai, CEO de Google, afirmó que esta nueva generación de modelos representa uno de los desafíos científicos e ingenieriles más grandes que la empresa ha encarado hasta el momento.
El chatbot de IA patentado de Google, Bard, ya ha sido actualizado con una versión del modelo Gemini, anunció la compañía el miércoles, con planes de agregar Gemini a productos ampliamente utilizados, incluyendo el motor de búsqueda de Google y el navegador web Chrome, utilizados por miles de millones de personas en todo el mundo.
El anuncio marca un intento de recuperar la iniciativa después de que Google y otras grandes tecnológicas aparentemente se vieran sorprendidas el año pasado por el repentino y enormemente popular lanzamiento de ChatGPT de OpenAI, que inició una carrera en toda la industria para acelerar las herramientas de IA generativa y un debate global sobre los riesgos y beneficios de la IA.
También representa un esfuerzo por llevar la IA generativa a los rincones más lejanos del imperio de Google. La compañía dijo que Gemini 1.0 viene en tres tamaños diferentes: Nano, optimizado para dispositivos móviles y desarrolladores de aplicaciones; Pro, el modelo predeterminado diseñado para una amplia gama de tareas y clientes; y Ultra, el modelo de IA más sofisticado que Google afirma haber construido y que aún está siendo sometido a pruebas de seguridad.
El lanzamiento del miércoles también fue diseñado para mostrar los avances de Google en la informática en la nube, un recurso crítico para los desarrolladores de IA.
La compañía informó que utilizó una nueva serie de potentes procesadores en la nube para entrenar a Gemini, los cuales pueden capacitar conjuntamente modelos de inteligencia artificial de gran tamaño casi tres veces más rápido que la generación previa.
Esta tecnología, que también estará disponible para los clientes de la nube de Google, podría significar un impulso significativo para la industria de la IA, haciendo que el entrenamiento de IA sea más accesible y fortaleciendo la posición de Google en tercer lugar en el mercado de servicios de nube pública. Sin embargo, no está claro cómo se comparan las fichas de IA de Google con las de los principales fabricantes de chips como Nvidia.
En sus pruebas, el modelo Gemini de Google superó a modelos rivales en más de dos docenas de pruebas comúnmente utilizadas por investigadores de IA para evaluar la comprensión lectora de un algoritmo, su capacidad matemática y habilidades de razonamiento en múltiples pasos, dijo la empresa. "Vemos que está marcando nuevos tipos de fronteras en todos los aspectos", dijo Eli Collins, vicepresidente de producto de Google DeepMind, a periodistas en una conferencia telefónica el martes.
Pero pareció reconocer el riesgo continuo de que los modelos de IA proporcionen resultados engañosos a los usuarios, aludiendo a las preocupaciones de grupos de la sociedad civil, responsables políticos e investigadores de IA.
Google ha hecho "mucho trabajo en mejorar la factualidad en Gemini", dijo Collins, pero los modelos de lenguaje grandes "siguen siendo capaces de alucinar", un término que utilizan los investigadores de IA cuando los sistemas de IA inventan hechos y se equivocan, pero con extrema confianza. "Cuando integramos estos modelos en productos como Bard, tenemos técnicas adicionales para mejorar la precisión de las respuestas", agregó.
Reconociendo esos riesgos, Google dijo el miércoles que Gemini Ultra, su versión más avanzada del modelo, se lanzará gradualmente solo a "clientes selectos, desarrolladores, socios y expertos en seguridad y responsabilidad para experimentación temprana y comentarios antes de implementarlo para desarrolladores y clientes empresariales a principios del próximo año".
Gemini Ultra actualmente está siendo sometido a evaluaciones de seguridad de terceros, también conocidas como red-teaming, de acuerdo con un compromiso que hizo con la administración Biden a principios de este verano.