Las principales empresas tecnológicas, incluidas OpenAI, Google, Meta y Anthropic, dependen de material de alta calidad y protegido por derechos de autor de editores prominentes para entrenar sus grandes modelos de lenguaje (LLMs).
Esto es según un estudio realizado por Ziff Davis, la empresa matriz de CNET, IGN y Mashable, que muestra el papel esencial que juega el contenido de alta calidad en el entrenamiento de estos modelos de IA. El estudio muestra que las fuentes autorizadas son preferidas para los conjuntos de datos de entrenamiento en las empresas de IA para mejorar el rendimiento del modelo, pero la contribución de estas fuentes a menudo se pasa por alto.
En la investigación, el abogado de IA de Ziff Davis, George Wukoson, y el Director de Tecnología Joey Fortuna afirmaron que las empresas de IA eligen los datos de entrenamiento en función del ranking de sitios web autorizados con altos rankings en motores de búsqueda. Se eligieron sitios web de alta calidad y populares para mejorar los modelos, ya que tienen una buena reputación. Una estrategia que, según el estudio, permite a los desarrolladores de IA ajustar el modelo de lenguaje.
Ziff Davis ha señalado que proveedores de contenido de primer nivel como Axel Springer, Future PLC, Hearst, News Corp y The New York Times, entre otros, han contribuido al desarrollo de conjuntos de datos de entrenamiento. En particular, se ha identificado que el 12.04% de OpenWebText2, que se utilizó para la creación del GPT-3 de OpenAI, provino de estos editores de confianza.
Mark Zuckerberg también se pronunció sobre el debate en curso en torno al uso de contenido en el entrenamiento de IA. En una reciente entrevista con The Verge, Zuckerberg reconoció que la recolección de datos para IA es un desafío, pero también señaló que el contenido de creadores individuales o editores podría no ser tan impactante. Dijo: “Creo que los creadores individuales o editores tienden a sobreestimar el valor de su contenido específico en el gran esquema de esto.”
Los editores interponen demandas contra las empresas de IA
El secreto en torno a las fuentes de datos de entrenamiento ha generado preocupaciones entre editores y consumidores por igual. The New York Times y The Wall Street Journal interpusieron recientemente demandas contra las empresas de IA, diciendo que han violado las leyes de derechos de autor al usar su contenido.
Mientras OpenAI ha avanzado en los esfuerzos por obtener licencias de contenido de organizaciones de medios como Financial Times y DotDash Meredith, varias empresas de IA aún trabajan sin licencias adecuadas. El informe afirma además que “los principales desarrolladores de LLM ya no divulgan sus datos de entrenamiento como solían hacerlo.”
Mientras los valores de las empresas de IA aumentan, la brecha entre los gigantes tecnológicos y las empresas de medios convencionales sigue siendo vasta. Los gigantes tecnológicos como Google y Meta, que tienen un valor estimado de $2.2 billones y $1.5 billones, respectivamente, siguen a la vanguardia de la IA generativa, mientras que startups como OpenAI y Anthropic están valoradas en $157 mil millones y $40 mil millones respectivamente.
Por otro lado, los editores todavía están lidiando con despidos y reestructuraciones, lo que evidencia la presión financiera de ajustarse a un entorno cada vez más definido por la IA. Como resultado de la competencia con el contenido generado por usuarios y basado en IA, numerosos editores enfrentan desafíos en términos de reducción de costos y personal.