OpenAI utiliza videos de YouTube para entrenar su modelo de generación de texto

A principios de año tanto OpenAI como Microsoft fueron acusadas de hacer uso indebido de obras para entrenar los modelos de inteligencia artificial que sustentan a ChatGPT

Por Redacción GH

06 de abril 2024

ESTADOS UNIDOS.- La compañía de investigación e implementación de inteligencia artificial, OpenAI ha creado un nuevo programa llamado ‘Whisper’ para extraer texto de más de un millón de horas de videos de YouTube con el objetivo de proporcionar datos de entrenamiento para el modelo de generación de texto GPT-4, el modelo más avanzado disponible para el público, detalló el New York Times.

El equipo detrás de Whisper, liderado por el presidente de la compañía, Greg Brockman, se enfrentó a un debate interno sobre si la extracción de texto de los videos de YouTube violaba los términos y condiciones de uso de la plataforma propiedad de Google.

En 2021, OpenAI consideró la posibilidad de obtener datos de entrenamiento de YouTube, podcasts o audiolibros para mejorar sus modelos de generación de lenguaje, conocidos como LLM.

Neal Mohan, consejero ejecutivo de YouTube, declaró que si OpenAI utilizó videos de la plataforma para entrenar al modelo ‘Sora’ -que genera de vídeos realistas- estaría violando los términos de servicio.

Nuestros términos permiten extraer cierto contenido como el título, el nombre de canal o el nombre del creador para facilitar la web abierta (...) no está permitido descargar las transcripciones o partes de los videos. Eso es una violación clara de nuestro términos de contenido”, añadió el directivo.

Disputa sobre los derechos de autor

La portavoz de OpenAI, Lindsay Held, aseguró en una entrevista de tecnología The Verge, que la compañía utiliza numerosas fuentes de datos públicas y realiza acuerdos para obtener información que no está disponible públicamente.

A su vez, el uso de transcripciones de videos de YouTube por parte de Google para alimentar sus modelos LLM podría estar violando los derechos de sus usuarios creadores de contenido.

La competitividad en la creación de los mejores modelos de generación de contenido realista está generando controversias sobre los derechos de autor y sus regulaciones, sumado al manejo ético de los datos para el entrenamiento de IA.

En contraste, el gigante tecnológico Meta, anteriormente conocido como Facebook, discutió la posibilidad de adquirir la editorial Simon & Schuster para acceder a su material de largo formato, según el diario de Nueva York.

Te puede interesar: ¿Por qué NO debes poner el módem del internet cerca de la TV?

Temas relacionados