Modelos de lenguaje grande (LLM) como ChatGPT entrenar utilizando múltiples fuentes de información, incluido el contenido net. Estos datos forman la base de los resúmenes de ese contenido en forma de artículos que se producen sin atribuir ni beneficiar a quienes publicaron el contenido authentic utilizado para capacitar a ChatGPT.
Los motores de búsqueda descargan contenido del sitio net (llamado rastreo e indexación) para proporcionar respuestas en forma de enlaces a los sitios net.
Los editores de sitios net tienen la capacidad de optar por no permitir que los motores de búsqueda rastreen e indexen su contenido a través del Protocolo de exclusión de robots, comúnmente conocido como Robots.txt.
El Protocolo de exclusión de robots no es un estándar oficial de Web, pero es uno que obedecen los rastreadores net legítimos.
¿Los editores net deberían poder usar el protocolo Robots.txt para evitar que los modelos de lenguaje grandes usen el contenido de su sitio net?
Los modelos de lenguaje grande usan contenido del sitio net sin atribución
Algunos de los que están involucrados con el advertising de búsqueda se sienten incómodos con la forma en que se utilizan los datos del sitio net para entrenar máquinas sin devolver nada, como un reconocimiento o tráfico.
Hans Petter Blindheim (Perfil de Linkedin), Experto Senior de Curamando compartió conmigo sus opiniones.
Hans comentó:
“Cuando un autor escribe algo después de haber aprendido algo de un artículo en su sitio, la mayoría de las veces vinculará a su trabajo authentic porque ofrece credibilidad y como cortesía profesional.
Se llama cita.
Pero la escala en la que ChatGPT asimila el contenido y no otorga nada a cambio lo diferencia tanto de Google como de las personas.
Un sitio net generalmente se crea con una directiva comercial en mente.
Google ayuda a las personas a encontrar el contenido, proporcionando tráfico, lo que tiene un beneficio mutuo.
Pero no es como si los grandes modelos de lenguaje le pidieran permiso para usar su contenido, simplemente lo usan en un sentido más amplio de lo que se esperaba cuando se publicó su contenido.
Y si los modelos de lenguaje de IA no ofrecen valor a cambio, ¿por qué los editores deberían permitirles rastrear y usar el contenido?
¿El uso que hacen de su contenido cumple con los estándares de uso legítimo?
Cuando ChatGPT y los propios modelos ML/AI de Google se entrenan en su contenido sin permiso, hacen girar lo que aprenden allí y lo usan mientras mantienen a las personas alejadas de sus sitios net, ¿no deberían la industria y también los legisladores intentar recuperar el management de Web forzando hacer la transición a un modelo de “opt-in”?
Las preocupaciones que expresa Hans son razonables.
A la luz de la rapidez con la que evoluciona la tecnología, ¿deberían reconsiderarse y actualizarse las leyes relativas al uso legítimo?
Le pregunté a John Rizvi, un abogado de patentes registrado (Perfil de Linkedin) que está certificado por la junta en la Ley de Propiedad Intelectual, si las leyes de derechos de autor de Web están desactualizadas.
Juan respondió:
“Sí, sin duda.
Una de las principales manzanas de la discordia en casos como este es el hecho de que la ley inevitablemente evoluciona mucho más lentamente que la tecnología.
En la década de 1800, esto quizás no importaba tanto porque los avances eran relativamente lentos y, por lo tanto, la maquinaria authorized estaba más o menos equipada para igualar.
Hoy, sin embargo, los avances tecnológicos desbocados han superado con creces la capacidad de la ley para mantenerse al día.
Simplemente hay demasiados avances y demasiadas partes móviles para que la ley se mantenga al día.
Como actualmente está constituida y administrada, en gran parte por personas poco expertas en las áreas de tecnología que estamos discutiendo aquí, la ley está mal equipada o estructurada para seguir el ritmo de la tecnología… y debemos considerar que esto no es un cosa mala.
Entonces, en cierto sentido, sí, la ley de propiedad intelectual necesita evolucionar si pretende, y mucho menos espera, seguir el ritmo de los avances tecnológicos.
El problema principal es lograr un equilibrio entre mantenerse al día con las formas en que se pueden usar varias formas de tecnología y evitar la extralimitación flagrante o la censura absoluta para obtener ganancias políticas encubiertas con intenciones benévolas.
La ley también debe tener cuidado de no legislar contra los posibles usos de la tecnología de manera tan amplia como para estrangular cualquier beneficio potencial que pueda derivarse de ellos.
Fácilmente podría entrar en conflicto con la Primera Enmienda y cualquier número de casos resueltos que circunscriban cómo, por qué y en qué medida se puede usar la propiedad intelectual y por quién.
E intentar imaginar cada uso concebible de la tecnología años o décadas antes de que exista el marco para hacerlo viable o incluso posible sería una tontería extremadamente peligrosa.
En situaciones como esta, la ley realmente no puede evitar ser reactiva a cómo se usa la tecnología… no necesariamente a cómo se pretendía.
No es possible que eso cambie pronto, a menos que lleguemos a un estancamiento tecnológico masivo e inesperado que permita que la ley tenga tiempo de ponerse al día con los eventos actuales”.
Entonces, parece que el tema de las leyes de derechos de autor tiene muchas consideraciones que equilibrar cuando se trata de cómo se entrena la IA, no hay una respuesta easy.
OpenAI y Microsoft demandados
Un caso interesante que se presentó recientemente es uno en el que OpenAI y Microsoft usaron código fuente abierto para crear su producto CoPilot.
El problema con el uso de código fuente abierto es que la licencia Inventive Commons requiere atribución.
Según un artículo publicado en una revista académica:
“Los demandantes alegan que OpenAI y GitHub ensamblaron y distribuyeron un producto comercial llamado Copilot para crear código generativo utilizando código de acceso público originalmente disponible bajo varias licencias de estilo de “código abierto”, muchas de las cuales incluyen un requisito de atribución.
Como cube GitHub, “…
El producto resultante supuestamente omitió cualquier crédito a los creadores originales”.
El autor de ese artículo, que es un experto authorized en el tema de los derechos de autor, escribió que muchos ven las licencias Inventive Commons de código abierto como “free of charge para todos”.
Algunos también pueden considerar la frase gratuita para todos una descripción justa de los conjuntos de datos compuestos por contenido de Web se raspa y se utiliza para generar productos de IA como ChatGPT.
Antecedentes sobre LLM y conjuntos de datos
Los modelos de lenguaje grande se entrenan en múltiples conjuntos de datos de contenido. Los conjuntos de datos pueden consistir en correos electrónicos, libros, datos gubernamentales, artículos de Wikipedia e incluso conjuntos de datos creados de sitios net vinculados desde publicaciones en Reddit que tienen al menos tres votos a favor.
Muchos de los conjuntos de datos relacionados con el contenido de Web tienen su origen en el rastreo creado por una organización sin fines de lucro llamada Rastreo común.
Su conjunto de datos, el conjunto de datos Widespread Crawl, está disponible de forma gratuita para su descarga y uso.
El conjunto de datos de Widespread Crawl es el punto de partida para muchos otros conjuntos de datos que se crearon a partir de él.
Por ejemplo, GPT-3 usó una versión filtrada de Widespread Crawl (Los modelos de lenguaje son aprendices de pocas oportunidades PDF).
Así es como los investigadores de GPT-3 utilizaron los datos del sitio net contenidos en el conjunto de datos de Widespread Crawl:
“Los conjuntos de datos para los modelos de lenguaje se han expandido rápidamente, culminando en el conjunto de datos Widespread Crawl… que constituye casi un billón de palabras.
Este tamaño de conjunto de datos es suficiente para entrenar nuestros modelos más grandes sin tener que actualizar la misma secuencia dos veces.
Sin embargo, hemos descubierto que las versiones sin filtrar o ligeramente filtradas de Widespread Crawl tienden a tener una calidad más baja que los conjuntos de datos más seleccionados.
Por lo tanto, tomamos 3 pasos para mejorar la calidad promedio de nuestros conjuntos de datos:
(1) descargamos y filtramos una versión de CommonCrawl en función de la similitud con una variedad de corpus de referencia de alta calidad,
(2) realizamos una deduplicación aproximada a nivel de documento, dentro y entre conjuntos de datos, para evitar la redundancia y preservar la integridad de nuestro conjunto de validación retenido como una medida precisa de sobreajuste, y
(3) también agregamos corpus de referencia conocidos de alta calidad a la combinación de capacitación para aumentar CommonCrawl y aumentar su diversidad”.
El conjunto de datos C4 de Google (Colossal, Cleaned Crawl Corpus), que se utilizó para crear el Transformador de transferencia de texto a texto (T5), también tiene sus raíces en el conjunto de datos Widespread Crawl.
Su trabajo de investigación (Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto PDF) explica:
“Antes de presentar los resultados de nuestro estudio empírico a gran escala, revisamos los temas básicos necesarios para comprender nuestros resultados, incluida la arquitectura del modelo Transformer y las tareas posteriores que evaluamos.
También presentamos nuestro enfoque para tratar cada problema como una tarea de texto a texto y describimos nuestro “Colossal Clear Crawled Corpus” (C4), el conjunto de datos basado en Widespread Crawl que creamos como una fuente de datos de texto sin etiquetar.
Nos referimos a nuestro modelo y marco como el ‘Transformador de transferencia de texto a texto’ (T5)”.
Google publicó un artículo en su weblog de IA eso explica aún más cómo se usaron los datos de Widespread Crawl (que contienen contenido extraído de Web) para crear C4.
Ellos escribieron:
“Un ingrediente importante para el aprendizaje por transferencia es el conjunto de datos sin etiquetar que se usa para el entrenamiento previo.
Para medir con precisión el efecto de aumentar la cantidad de capacitación previa, se necesita un conjunto de datos que no solo sea de alta calidad y diverso, sino también masivo.
Los conjuntos de datos previos al entrenamiento existentes no cumplen estos tres criterios; por ejemplo, el texto de Wikipedia es de alta calidad, pero tiene un estilo uniforme y es relativamente pequeño para nuestros propósitos, mientras que los net scrapes de Widespread Crawl son enormes y muy diversos, pero bastante baja calidad.
Para satisfacer estos requisitos, desarrollamos Colossal Clear Crawled Corpus (C4), una versión limpia de Widespread Crawl que es dos órdenes de magnitud más grande que Wikipedia.
Nuestro proceso de limpieza involucró la deduplicación, el descarte de oraciones incompletas y la eliminación de contenido ofensivo o ruidoso.
Este filtrado condujo a mejores resultados en las tareas posteriores, mientras que el tamaño adicional permitió que el tamaño del modelo aumentara sin sobreajustarse durante el entrenamiento previo”.
Google, OpenAI, incluso Datos abiertos de Oracle están utilizando contenido de Web, su contenido, para crear conjuntos de datos que luego se utilizan para crear aplicaciones de IA como ChatGPT.
El rastreo común se puede bloquear
Es posible bloquear Widespread Crawl y, posteriormente, optar por no participar en todos los conjuntos de datos que se basan en Widespread Crawl.
Pero si el sitio ya se ha rastreado, los datos del sitio net ya están en los conjuntos de datos. No hay forma de eliminar su contenido del conjunto de datos Widespread Crawl y cualquiera de los otros conjuntos de datos derivados como C4 y .
El uso del protocolo Robots.txt solo bloqueará futuros rastreos de Widespread Crawl, no impedirá que los investigadores usen el contenido que ya está en el conjunto de datos.
Cómo bloquear el rastreo común de sus datos
El bloqueo de Widespread Crawl es posible mediante el uso del protocolo Robots.txt, dentro de las limitaciones mencionadas anteriormente.
El bot Widespread Crawl se llama CCBot.
Se identifica utilizando la cadena de agente de usuario de CCBot más actualizada: CCBot/2.0
El bloqueo de CCBot con Robots.txt se logra igual que con cualquier otro bot.
Aquí está el código para bloquear CCBot con Robots.txt.
Consumer-agent: CCBot Disallow: /
CCBot rastrea desde las direcciones IP de Amazon AWS.
CCBot también sigue la metaetiqueta Robots nofollow:
<meta title="robots" content material="nofollow">
¿Qué sucede si no está bloqueando el rastreo común?
El contenido net se puede descargar sin permiso, que es como funcionan los navegadores, descargan contenido.
Ni Google ni nadie más necesita permiso para descargar y usar contenido que se publica públicamente.
Los editores de sitios net tienen opciones limitadas
La consideración de si es ético entrenar a la IA en contenido net no parece ser parte de ninguna conversación sobre la ética de cómo se desarrolla la tecnología de IA.
Parece que se da por hecho que el contenido de Web se puede descargar, resumir y transformar en un producto llamado ChatGPT.
¿Parece justo? La respuesta es complicada.
Imagen destacada de Shutterstock/Krakenimages.com
var s_trigger_pixel_load = false; function s_trigger_pixel(){ if( !s_trigger_pixel_load ){ striggerEvent( 'load2' ); console.log('s_trigger_pix'); } s_trigger_pixel_load = true; } window.addEventListener( 'cmpready', s_trigger_pixel, false);
window.addEventListener( 'load2', function() {
if( sopp != 'yes' && !ss_u ){
!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=();t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)(0); s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');
if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ('LDU'), 1, 1000); }else{ fbq('dataProcessingOptions', ()); }
fbq('init', '1321385257908563');
fbq('track', 'PageView');
fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'is-chatgpt-use-of-web-content-fair', content_category: 'news seo' }); } });