Existe preocupación por la falta de una manera fácil de optar por no tener el contenido que se usa para entrenar modelos de lenguaje grande (LLM) como ChatGPT. Hay una forma de hacerlo, pero no es sencilla ni garantiza que funcione.
Cómo aprenden las IA de su contenido
Los modelos de lenguaje grande (LLM) se entrenan en datos que se originan en múltiples fuentes. Muchos de estos conjuntos de datos son de código abierto y se utilizan libremente para entrenar IA.
Algunas de las fuentes utilizadas son:
- Wikipedia
- Registros judiciales del gobierno
- Libros
- Correos electrónicos
- sitios internet rastreados
En realidad, hay portales, sitios internet que ofrecen conjuntos de datos, que brindan grandes cantidades de información.
Uno de los portales está alojado en Amazon y ofrece miles de conjuntos de datos al Registro de Datos Abiertos en AWS.
El portal de Amazon con miles de conjuntos de datos es solo un portal entre muchos otros que contienen más conjuntos de datos.
Wikipedia enumera 28 portales para descargar conjuntos de datos, incluidos los portales Google Dataset y Hugging Face para encontrar miles de conjuntos de datos.
Conjuntos de datos de contenido internet
AbrirTextoWeb
Un conjunto de datos well-liked de contenido internet se llama OpenWebText. OpenWebText consta de URL que se encuentran en publicaciones de Reddit que tenían al menos tres votos a favor.
La concept es que estas URL sean confiables y contengan contenido de calidad. No pude encontrar información sobre un agente de usuario para su rastreador, tal vez solo esté identificado como Python, no estoy seguro.
Sin embargo, sabemos que si su sitio está vinculado desde Reddit con al menos tres votos a favor, es muy possible que su sitio esté en el conjunto de datos de OpenWebText.
Más información sobre Abrir WebText aquí.
Rastreo común
Una organización sin fines de lucro llamada Rastreo común.
Los datos de Frequent Crawl provienen de un bot que rastrea todo Web.
Los datos son descargados por organizaciones que desean utilizar los datos y luego se limpian de sitios de spam, and many others.
El nombre del bot Frequent Crawl es CCBot.
CCBot obedece el protocolo robots.txt, por lo que es posible bloquear Frequent Crawl con Robots.txt y evitar que los datos de su sitio internet se conviertan en otro conjunto de datos.
Sin embargo, si su sitio ya ha sido rastreado, es possible que ya esté incluido en varios conjuntos de datos.
Sin embargo, al bloquear Frequent Crawl, es posible excluir el contenido de su sitio internet para que no se incluya en nuevos conjuntos de datos provenientes de los datos de Frequent Crawl más recientes.
La cadena de agente de usuario de CCBot es:
CCBot/2.0
Agregue lo siguiente a su archivo robots.txt para bloquear el bot Frequent Crawl:
Consumer-agent: CCBot Disallow: /
Una forma adicional de confirmar si un agente de usuario de CCBot es legítimo es rastrear direcciones IP de Amazon AWS.
CCBot también obedece las directivas de metaetiquetas de robots nofollow.
Use esto en su metaetiqueta de robots:
<meta title="robots" content material="nofollow">
Bloquear la inteligencia synthetic para que no use su contenido
Los motores de búsqueda permiten que los sitios internet opten por no ser rastreados. Frequent Crawl también permite optar por no participar. Pero actualmente no hay forma de eliminar el contenido del sitio internet de los conjuntos de datos existentes.
Además, los científicos de investigación no parecen ofrecer a los editores de sitios internet una forma de optar por no ser rastreados.
El artículo, ¿Es justo el uso de ChatGPT del contenido internet? explora el tema de si es incluso ético usar los datos del sitio internet sin permiso o una forma de optar por no hacerlo.
Muchos editores pueden apreciar si en un futuro cercano se les da más voz sobre cómo se usa su contenido, especialmente por productos de IA como ChatGPT.
Si eso sucederá se desconoce en este momento.
Imagen destacada de Shutterstock/ViDI Studio
var s_trigger_pixel_load = false; function s_trigger_pixel(){ if( !s_trigger_pixel_load ){ striggerEvent( 'load2' ); console.log('s_trigger_pix'); } s_trigger_pixel_load = true; } window.addEventListener( 'cmpready', s_trigger_pixel, false);
window.addEventListener( 'load2', function() {
if( sopp != 'yes' && !ss_u ){
!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=();t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)(0); s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');
if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ('LDU'), 1, 1000); }else{ fbq('dataProcessingOptions', ()); }
fbq('init', '1321385257908563');
fbq('track', 'PageView');
fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'how-to-block-chatgpt-from-using-your-website-content', content_category: 'news seo' }); } });