Vamos a hacerlo de esta manera – O’Reilly – MantequillaPalabra

El 22 de abril de 2022, recibí un texto fuera del garzo de Sam Altman preguntando sobre la posibilidad de capacitar a GPT-4 en los libros de O’Reilly. Tuvimos una citación unos días a posteriori para discutir la posibilidad.

Como presente nuestra conversación, le dije a Sam que estaba intrigado, pero con reservas. Le expliqué que solo podíamos concluir nuestros datos si tenían algún mecanismo para rastrear el uso y compensar a los autores. Sugerí que esto debería ser posible, incluso con LLM, y que podría ser la colchoneta de una heredad de contenido participativa para la IA. (Más tarde escribí sobre esta idea en una cuarto citación “Cómo arreglar el ‘pecado diferente de AI’. “) Sam dijo que no había pensado en eso, pero que la idea era muy interesante y que me respondería. Nunca lo hizo.

Estudiar más rápido. Cavar más profundo. Ver más allí.

Y ahora, por supuesto, dados los informes de que Meta ha capacitado a LLAMA en Libgen, la colchoneta de datos rusa de libros pirateados, uno tiene que preguntarse si OpenAi ha hecho lo mismo. Así que trabajando con colegas en el Esquema de divulgaciones de IA En el Consejo de Investigación de Ciencias Sociales, decidimos echar un vistazo. Nuestros resultados se publicaron hoy en el documento de trabajo “Más allá del acercamiento conocido en los datos de pre-entrenamiento de LLM“Por Sruly Rosenblat, Tim O’Reilly e Ilan Strauss.

Hay una variedad de técnicas estadísticas para estimar la probabilidad de que una IA haya sido entrenada en contenido específico. Elegimos uno llamado De-Cop. Para probar si un maniquí ha sido capacitado en un obra determinado, proporcionamos al maniquí un párrafo citado del obra escrito por humanos cercano con tres permutaciones del mismo párrafo, y luego le pedimos al maniquí que identifique el paso “lumbar” (es sostener, correcto) del obra en cuestión. Repetimos esto varias veces para cada obra.

O’Reilly estaba en condiciones de proporcionar un conjunto de datos único para usar con la COP. Durante décadas, hemos publicado dos capítulos de muestra de cada obra en Internet conocido, por otra parte de una pequeña selección de las páginas de comprensión del capítulo del otro. El resto de cada obra está detrás de un pared de cuota de suscripción como parte de nuestro servicio en recorrido de O’Reilly. Esto significa que podemos comparar los resultados de los datos que estuvieron disponibles públicamente con los resultados de los datos privados pero del mismo obra. Se proporciona una comprobación adicional ejecutando las mismas pruebas contra el material que se publicó a posteriori de la vencimiento de entrenamiento de cada maniquí, y por lo tanto no podría haberse incluido. Esto ofrece una señal asaz buena para el acercamiento no facultado.

Dividimos nuestra muestra de libros de O’Reilly de acuerdo con el período de tiempo y la accesibilidad, lo que nos permite probar adecuadamente las violaciones de acercamiento al maniquí:

Nota: El maniquí a veces puede adivinar el definitivo pasaje “idéntico” incluso si no ha pasado un pasaje ayer. Es por eso que incluimos libros publicados a posteriori de que la capacitación del maniquí ya se haya completado (para establecer una tasa de conjetura de recorrido de colchoneta “inicio” para el maniquí). Datos ayer del período T (Cuando el maniquí completó su entrenamiento) El maniquí puede poseer pasado y sido entrenado. Datos tras período T El maniquí no pudo poseer pasado o había sido entrenado, ya que se publicó a posteriori de que se completó el entrenamiento del maniquí. La parte de los datos privados en los que se capacitó el maniquí representa probables violaciones de acercamiento. Esta imagen es conceptual y no a escalera.

LEAR  Cómo la estrella de voleibol de Nebraska, Harper Murray, está superando una temporada baja problemática.

Utilizamos una medida estadística citación AUROC para evaluar la separabilidad entre las muestras potencialmente en el conjunto de entrenamiento y las muestras fuera de DataSet conocidas. En nuestro caso, las dos clases fueron (1) libros O’Reilly publicados ayer del corte de entrenamiento del maniquí (T – N) y (2) los publicados luego (T + N). Luego utilizamos la tasa de identificación del maniquí como la métrica para distinguir entre estas clases. Esta clasificación basada en el tiempo sirve como un proxy necesario, ya que no podemos retener con certeza qué libros específicos se incluyeron en los conjuntos de datos de capacitación sin divulgación de OpenAI. Usando esta división, cuanto viejo sea la puntuación AUROC, viejo será la probabilidad de que el maniquí se entrenara en los libros de O’Reilly publicados durante el período de entrenamiento.

Los resultados son intrigantes y alarmantes. Como puede ver en la figura a continuación, cuando se lanzó GPT-3.5 en noviembre de 2022, demostró cierto conocimiento del contenido conocido pero poco de contenido privado. Cuando llegamos a GPT-4O, arrojado en mayo de 2024, el maniquí parece contener más conocimiento del contenido privado que el contenido conocido. Curiosamente, las cifras para GPT-4O Mini son aproximadamente iguales y entreambos casi aleatorios sugiren que se entrenó poco o se retuvo poco.

Las puntuaciones AUROC basadas en la “tasa de conjeturas” de los modelos muestran el inspección de los datos de pre-entrenamiento:

Nota: Mostrar puntajes de AUROC a nivel de obra (n = 34) en modelos y divisiones de datos. El nivel de obra AUROC se calcula promediando las tasas de conjeturas de todos los párrafos adentro de cada obra y ejecutando AUROC sobre eso entre muestras potencialmente en Dataset y Out Dataset. La recorrido punteada representa los resultados que esperamos que no hubieran sido entrenados. Incluso probamos a nivel de párrafo. Vea el documento para más detalles.

Elegimos un subconjunto relativamente pequeño de libros; La prueba podría repetirse a escalera. La prueba no proporciona ningún conocimiento de cómo Operai podría poseer obtenido los libros. Al igual que Meta, Operai puede poseer entrenado en bases de datos de libros pirateados. (El atlánticoEl motor de búsqueda contra LibGen revela que prácticamente todos los libros de O’Reilly han sido pirateados e incluidos allí).

Regalado Los reclamos en curso de OpenAi Que sin la capacidad ilimitada para que los desarrolladores de modelos de idiomas grandes entrenen en datos con derechos de autor sin compensación, el progreso en la IA se detendrá, y “perderemos en presencia de China”, es probable que consideren que todo el contenido con derechos de autor es un grupo puntual.

El hecho de que Deepseek haya hecho para OpenAi exactamente lo que Operai ha hecho a los autores y editores no parece disuadir a los líderes de la compañía. El principal enredador de Openai, Chris Lehane, “,”Comparó los métodos de capacitación de Openai para percibir un obra de biblioteca Y aprendiendo de él, mientras que los métodos de Deepseek son más como poner una nueva portada en un obra de biblioteca y venderla como suya ”. No estamos de acuerdo. poder Sustituye a muchas de las obras originales, al igual que Deepseek se está convirtiendo en un sustituto acreditable de ChatGPT.

LEAR  Israel degrada a terroristas de Hezbolá respaldados por Irán en una operación espectacular de explosión de buscapersonas: expertos"Israel desmantela a terroristas de Hezbolá respaldados por Irán en una operación espectacular de explosión de buscapersonas: expertos"

Existe un precedente claro para la capacitación en datos disponibles públicamente. Cuando Google Books leyó libros para crear un índice que ayudara a los usuarios a buscarlos, que fue como percibir un obra de biblioteca y memorizar de él. Fue un uso puntual transformador.

La coexistentes de trabajos derivados que pueden competir con el trabajo diferente definitivamente no es un uso puntual.

Encima, se tráfico de lo que es efectivamente “conocido”. Como se muestra en nuestra investigación, los libros de O’Reilly están disponibles en dos formas: las porciones son públicas para que los motores de búsqueda encuentren y para que todos lean en la web; Otros se venden sobre la colchoneta del acercamiento por favorecido, ya sea impreso o a través de nuestra proposición de suscripción por asiento. Por lo menos, el acercamiento no facultado de OpenAI representa una clara violación de nuestros Términos de uso.

Creemos en respetar los derechos de los autores y otros creadores. Es por eso que en O’Reilly, construimos un sistema que nos permite crear panorama de IA basadas en el trabajo de nuestros autores, pero usa RAG (coexistentes de recuperación) y otras técnicas para rastrear el uso y las regalías de cuota, Al igual que lo hacemos para otros tipos de uso de contenido en nuestra plataforma. Si podemos hacerlo con nuestros capital mucho más limitados, es asaz seguro que OpenAi además podría hacerlo, si lo intentaban. Eso es lo que le estaba pidiendo a Sam Altman en 2022.

Y ellos debería intentar. Una de las grandes brechas en la IA de hoy es su errata de un círculo virtuoso de sostenibilidad (lo que Jeff Bezos llamó “el volante“). Las compañías de IA han acogido el enfoque de desposeer los capital que no crearon, y potencialmente diezmando los ingresos de quienes realizan las inversiones en su creación continua. Esto es miope.

En O’Reilly, no solo estamos en el negocio de proporcionar un excelente contenido a nuestros clientes. Estamos en el negocio de incentivar su creación. Buscamos brechas de conocimiento, es sostener, encontramos cosas que algunas personas saben, pero otras no lo hacen y desean que lo hicieran, y ayudamos a aquellos a la vanguardia del descubrimiento comparten lo que aprenden, a través de libros, videos y cursos en vivo. Pagarlos por el tiempo y el esfuerzo que pusieron para compartir lo que saben es una parte crítica de nuestro negocio.

Lanzamos nuestra plataforma en recorrido en 2000 a posteriori de obtener un tirada de una startup de agregación de libros electrónicos tempranos, libros 24 × 7, que ofrecían licenciarlos por lo que equivalía a centavos por obra por cliente, que se suponía que debíamos compartir con nuestros autores. En cambio, invitamos a nuestros mayores competidores a unirse a nosotros en una plataforma compartida que preservaría la heredad de la publicación y alentaría a los autores a continuar pasando el tiempo y el esfuerzo para crear excelentes libros. Este es el contenido que los proveedores de LLM se sienten con derecho a tomar sin compensación.

LEAR  Se insta al público a evitar los sitios de cría del mosquito tigre para prevenir su proliferación.

Como resultado, los titulares de derechos de autor están demandando, poniendo bloques más fuertes y más fuertes contra los rastreadores de IA o que están fuera del negocio. Esto no es poco bueno. Si los proveedores de LLM pierden sus demandas, estarán en un mundo de herido, pagando grandes multas, reingenieran sus productos para poner en las barandillas contra emitir contenido infractor y descubrir cómo hacer lo que deberían poseer hecho en primer zona. Si ganan, todos terminaremos más pobres para ello, porque aquellos que hacen el trabajo actual de crear el contenido enfrentarán una competencia injusta.

No solo los titulares de derechos de autor deben querer un mercado de IA en el que se preservan los derechos de los autores y se les da nuevas formas de monetizar; Los desarrolladores de LLM además deberían quererlo. Internet, como lo conocemos hoy, se volvió tan fértil porque hizo un trabajo asaz bueno para preservar los derechos de autor. Empresas como Google encontraron nuevas formas de ayudar a los creadores de contenido a monetizar su trabajo, incluso en áreas contenciosas. Por ejemplo, frente a las demandas de las compañías de música para eliminar videos generados por los usuarios con música con derechos de autor, YouTube se desarrolló en su zona ID de contenidoque les permitió cachear el contenido con derechos de autor y compartir los ingresos con el creador del trabajo derivado y el titular de los derechos de autor originales. Existen numerosas nuevas empresas que proponen hacer lo mismo para las obras derivadas generadas por IA, pero, hasta el momento, ninguna de ellas tiene la escalera que se necesita. Los grandes laboratorios de IA deberían hacerse cargo esto.

En zona de permitir el enfoque de Smash-and-Grab de los desarrolladores de LLM de hoy, deberíamos estar mirando cerca de un mundo en el que se pueden entrenar grandes modelos de IA centralizados en todos contenido conocido y Contenido privado con abusopero reconozca que además hay muchos modelos especializados entrenados en contenido privado que no pueden ni deben penetrar. Imagina un LLM que fue lo suficientemente inteligente como para sostener: “No sé si tengo la mejor respuesta a eso; déjame preguntar Bloomberg (o déjame preguntarle a O’Reilly; déjame preguntar Naturaleza; O permítanme preguntarle a Michael Chabon, o George RR Martin (o cualquiera de los otros autores que han demandado, como un sustituto de los millones de otros que proporcionadamente podrían tener))) y me pondré en contacto contigo en un momento. ” Esta es una oportunidad perfecta para una extensión MCP Eso permite conversaciones de derechos de autor bidireccionales y negociación de una compensación apropiada. El primer LLM consciente de los derechos de autor de uso normal tendrá una preeminencia competitiva única. Hagámoslo así.