Gemini de Google: ¿Realmente supera al modelo de IA ChatGPT de OpenAI?
Mientras ChatGPT es un modelo de lenguaje grande (LLM) centrado en la generación de texto, Gemini es un modelo "multimodal".
CALIFORNIA.-Recientemente, Google DeepMind ha anunciado su nuevo modelo de inteligencia artificial, Gemini, para competir con ChatGPT de OpenAI.
Ambos modelos son ejemplos de "IA generativa", que aprenden a encontrar patrones en la información de entrenamiento para generar nuevos datos, ya sea texto, imágenes u otros medios.
Mientras ChatGPT es un modelo de lenguaje grande (LLM) centrado en la generación de texto, Gemini es un modelo "multimodal" que trabaja directamente con varios tipos de entrada y salida, como texto, imágenes, audio y video. Esta capacidad lo distingue de modelos anteriores, como LaMDA.
A diferencia de ChatGPT, que utiliza modelos separados para trabajar con diferentes modalidades, Gemini está diseñado para ser "nativamente multimodal", manejando directamente una variedad de tipos de entrada y salida. OpenAI ha lanzado GPT-4Vision, que también puede trabajar con imágenes, audio y texto, pero no es completamente multimodal como Gemini.
¿Es mejor Gemini que GPT-4?
Según informes técnicos y pruebas cualitativas, la versión actual de Gemini, llamada Gemini 1.0 Pro, no parece ser tan avanzada como GPT-4 y se asemeja más en capacidades a GPT 3.5.
Google ha anunciado una versión más potente, Gemini 1.0 Ultra, pero su evaluación es difícil debido a la falta de disponibilidad pública y a un video de demostración que ha sido criticado por su falta de transparencia. La demostración no se realizó en tiempo real, lo que plantea preguntas sobre la veracidad de las afirmaciones de Google.
A pesar de estos problemas, Gemini y los modelos multimodales representan un emocionante avance para la IA generativa. Al poder manejar datos de imágenes, audio y video, estos modelos abren nuevas oportunidades para el entrenamiento y mejoras en la comprensión de conceptos como la física elemental.
Aunque Gemini muestra potencial, la competencia sigue siendo fuerte. OpenAI probablemente esté desarrollando GPT-5, también multimodal, lo que indica un emocionante futuro en el paisaje competitivo de herramientas de IA.
En última instancia, el surgimiento de modelos multimodales grandes y de código abierto, como Gemini Nano anunciado por Google, es un desarrollo positivo.
Modelos más livianos como este pueden ejecutarse en dispositivos móviles, reduciendo el impacto ambiental y mejorando la privacidad, lo que sugiere una dirección positiva para el campo de la inteligencia artificial en los próximos años.
Artículo original publicado en The Conversation
Sigue nuestro canal de WhatsApp
Recibe las noticias más importantes del día. Da click aquí