Blog GUERRE DI RETE – Il dataset è politico
Un nuovo estratto della newsletter di Carola Frediani, Guerre di rete, che stavolta affronta la politica dei dati e delle enormi library utilizzate per allenare le intelligenze artificiali
Guerre di Rete – una newsletter di notizie cyber
a cura di Carola Frediani
N.169 – 1 ottobre 2023
La politica dei dataset alla base degli strumenti di intelligenza artificiale
La rivista The Atlantic ha messo a disposizione uno strumento (di cui dirò di più a breve) per cercare quali libri e autori facciano parte di un corpus di testi usati per addestrare diversi sistemi di intelligenza artificiale generativa, in particolare LLaMa, una serie di modelli linguistici di grandi dimensioni sviluppati da Meta (Facebook) e simile a GPT di OpenAI (che sta alla base del chatbot ChatGPT).
Per capire come la rivista sia riuscita a farlo bisogna fare un passo indietro. Si hanno pochi dettagli sui testi usati per addestrare questi modelli, e questo vale in primis per OpenAI ma anche per altri.
Archeologia dei dataset di Llama
Sappiamo (dallo stesso primo paper su LLaMa) che Meta ha usato, fra gli altri materiali, due raccolte di libri, il Gutenberg Project, che contiene opere nel pubblico dominio, e la sezione Books3 di un dataset pubblicamente accessibile noto come ThePile (uno zibaldone di libri, sottotitoli di video di YouTube, trascrizioni del Parlamento Ue, email degli impiegati Enron prima del suo fallimento, e altre simili memorabilia), compilato dal gruppo di ricerca di EleutherAI (che si presenta come la versione open source di OpenAI), e usato per addestrare modelli linguistici di grandi dimensioni.
Nel paper Meta scrive: “dimostriamo che è possibile addestrare modelli all’avanguardia utilizzando esclusivamente set di dati disponibili pubblicamente, senza ricorrere a set di dati proprietari e inaccessibili”.
Cosa c’è dentro Books3
Bene, ma che libri conteneva esattamente Books3? È quello che si è chiesto il giornalista di The Atlantic, che ha prima recuperato ThePile, e poi, come in una serie di scatole cinesi, ha isolato ed estratto Books3, e infine ha usato i codici ISBN per individuare i libri. Insomma, un capolavoro.
Così facendo è riuscito a identificare più di 170mila titoli, dopodiché li ha esaminati. La maggior parte, scrive, sono opere “piratate”, cioè coperte da diritto d’autore e aggiunte senza consenso, perlopiù pubblicate negli ultimi 20 anni. Un terzo sono di narrativa, due terzi di saggistica. Ci sono grandi e piccoli editori. Tra gli autori ci sono Elena Ferrante e Rachel Cusk, Haruki Murakami, Jonathan Franzen, Margaret Atwood. Ma anche 102 romanzi di L. Ron Hubbard (il fondatore di Scientology), 90 libri del pastore creazionista John F. MacArthur, opere di pseudo-storia del tipo gli alieni hanno costruito le piramidi ecc.
Uno strumento per cercare dentro Books3
The Atlantic ha poi messo a disposizione uno strumento per permettere a chiunque di fare ricerche in questa raccolta. Ho trovato, oltre alla già citata Ferrante, Altai di Wu Ming, ovviamente molto Umberto Eco, Roberto Saviano, Melania Mazzucco, Antonio Scurati, Domenico Starnone, Nicola Lagioia, e questo solo per citare un po’ di nomi che ho volutamente cercato.
Rifacciamo un altro passo indietro. Si dice che i contenuti per l’AI siano raccolti (scraped) da internet e da siti pubblicamente accessibili. Nel caso di Books3 i libri sono in realtà stati scaricati da un server bittorrent, scriveva mesi fa l’accademico Peter Schoppert.
Ma Books3, almeno nell’intento del suo creatore, nasce per sostenere la ricerca AI open source in contrapposizione alla chiusura e segretezza di OpenAI e al suo monopolio. Così ha spiegato allo stesso The Atlantic lo sviluppatore Shawn Presser che ha assemblato la raccolta di libri.
Open source AI contro OpenAI
Dunque Books3 sarebbe stato creato per fornire agli sviluppatori indipendenti “dati di addestramento di livello OpenAI”. E il suo stesso nome sarebbe un riferimento a un documento pubblicato da OpenAI nel 2020 che menzionava due “corpora di libri basati su Internet” chiamati Books1 e Books2. “Questo documento – scrive The Atlantic – è l’unica fonte primaria che fornisce indizi sul contenuto dei dati di addestramento di GPT(…)”.
Si procede quindi a tentoni. Dalle informazioni raccolte dalla comunità di sviluppatori però si ipotizza che Books1 sia la produzione completa di Project Gutenberg (…). Mentre nessuno sa cosa ci sia dentro Books2.
“Alcuni sospettano che provenga da raccolte di libri piratati, come Library Genesis, Z-Library e Bibliotik, che circolano attraverso la rete di file-sharing BitTorrent (Books3, come ha annunciato Presser dopo averlo creato, sarebbe “tutto Bibliotik”)”.
QUI LA VERSIONE COMPLETA DELLA NEWSLETTER