Imagina una plaza llena de turistas, un camarero moviéndose entre las mesas, una bicicleta cruzando al fondo o un periodista en un estudio. Hoy, las inteligencias artificiales capaces de generar video pueden crear estas escenas en un instante. El resultado es impresionante, pero también plantea una pregunta que hasta hace poco no se había considerado con seriedad: ¿de dónde han obtenido todas esas imágenes para aprender a replicar el mundo? Según un reportaje de The Atlantic, buena parte proviene de millones de videos extraídos de plataformas como YouTube, muchas veces sin un consentimiento claro.

El avance de la IA generativa ha sido tan rápido que varias dudas importantes quedaron en segundo plano. En solo dos años pasamos de experimentos limitados a modelos que generan videos casi indistinguibles de los reales. Mientras tanto, la transparencia sobre cómo se entrenan estos sistemas ha ganado protagonismo. Por ejemplo, OpenAI asegura que su modelo Sora se entrena con datos “disponibles públicamente”, pero no ha aclarado exactamente qué fuentes utiliza.

El reportaje de The Atlantic revela que el entrenamiento masivo incluye más de 15 millones de videos recopilados, en gran parte, de YouTube y sin autorización explícita. Se menciona que varias empresas han usado estos grandes conjuntos de datos, diseñados para mejorar la capacidad de generar videos, sin informar a los creadores originales.

Lo más sorprendente es el tipo de material afectado: no solo se trata de grabaciones caseras o anónimas, sino también de vídeos profesionales e informativos. Miles de clips provienen de canales de medios reconocidos como The New York Times, BBC, The Guardian, The Washington Post o Al Jazeera. En total, es una cantidad enorme de contenido periodístico que habría sido utilizado para alimentar estas IA sin acuerdo previo con los propietarios.

Una de las compañías con mayor protagonismo en la generación de video, Runway, aparece mencionada en esos conjuntos de datos. Según los documentos revisados, sus modelos aprenden de clips clasificados por tipo de escena y contexto: entrevistas, explicaciones, piezas con gráficos o planos de cocina, por ejemplo. La idea es clara: para que una IA reproduzca situaciones reales y narrativas audiovisuales, necesita referencias auténticas que incluyan desde gestos hasta el ritmo de la edición.

Además de Runway, el reportaje también señala que grandes compañías tecnológicas como Meta o ByteDance han usado volúmenes masivos de videos recopilados en internet para entrenar sus modelos en la misma dinámica, compartiendo estos datos entre sus equipos de investigación.

YouTube, por su parte, se mantiene firme. Su normativa prohíbe descargar videos para entrenar modelos de IA, una postura reforzada públicamente por su CEO, Neal Mohan. Los creadores esperan que sus contenidos sean usados conforme a las reglas de la plataforma, pero la aparición de millones de videos en bases de datos para IA ha puesto en primer plano esta cuestión legal, aumentando la presión sobre las plataformas involucradas.

Frente a esto, los medios han reaccionado de dos formas. Por un lado, empresas como Vox Media o Prisa han cerrado acuerdos para licenciar su contenido a plataformas de inteligencia artificial, buscando claridad y una compensación justa. Por otro, algunos medios han decidido tomar acciones legales: The New York Times, por ejemplo, ha demandado a OpenAI y Microsoft por usar su contenido sin autorización, dejando claro que también defenderá sus materiales en formato video.

El terreno legal sigue siendo incierto. Las leyes actuales no estaban diseñadas para afrontar modelos que procesan millones de videos simultáneamente, y los tribunales apenas están empezando a establecer criterios. Mientras algunos expertos consideran que publicar un video públicamente no implica ceder derechos para entrenar IA, las compañías de inteligencia artificial defienden que usar material público es parte del progreso tecnológico. Esta tensión sin resolver mantiene a medios y desarrolladores en un delicado equilibrio.

Estamos solo ante el comienzo de una conversación mucho más amplia que la tecnología en sí. Durante años, entrenar modelos de IA con contenido disponible en internet ha sido habitual, pero ahora toca definir los límites. Las empresas prometen mayor transparencia y acuerdos, los medios piden garantías, y los creadores reclaman control sobre sus obras. El siguiente paso será tanto tecnológico como político, porque la forma en que se alimenta la inteligencia artificial determinará quién obtiene sus beneficios.

↗

fuente original

https://www.xataka.com/robotica-e-ia/muchas-ia-video-estan-aprendiendo-a-imitar-mundo-todo-apunta-a-saqueo-precedentes-youtube

ver →

etiquetas:inteligencia artificial generación de videos uso de contenido de internet plataformas de videos propiedad intelectual regulación legal medios de comunicación