Blog GUERRE DI RETE - Il dataset è politico

Blog GUERRE DI RETE – Il dataset è politico

Un nuovo estratto della newsletter di Carola Frediani, Guerre di rete, che stavolta affronta la politica dei dati e delle enormi library utilizzate per allenare le intelligenze artificiali

--------------------------------------------------------------
CORSO DI SCENEGGIATURA ONLINE DAL 6 MAGGIO

--------------------------------------------------------------

9 Ottobre 2023 di Carola Frediani

Guerre di Rete – una newsletter di notizie cyber
a cura di Carola Frediani
N.169 – 1 ottobre 2023

--------------------------------------------------------------
#SENTIERISELVAGGI21ST N.17: Cover Story THE BEAR

--------------------------------------------------------------

La politica dei dataset alla base degli strumenti di intelligenza artificiale

La rivista The Atlantic ha messo a disposizione uno strumento (di cui dirò di più a breve) per cercare quali libri e autori facciano parte di un corpus di testi usati per addestrare diversi sistemi di intelligenza artificiale generativa, in particolare LLaMa, una serie di modelli linguistici di grandi dimensioni sviluppati da Meta (Facebook) e simile a GPT di OpenAI (che sta alla base del chatbot ChatGPT).

Per capire come la rivista sia riuscita a farlo bisogna fare un passo indietro. Si hanno pochi dettagli sui testi usati per addestrare questi modelli, e questo vale in primis per OpenAI ma anche per altri.

Archeologia dei dataset di Llama

Sappiamo (dallo stesso primo paper su LLaMa) che Meta ha usato, fra gli altri materiali, due raccolte di libri, il Gutenberg Project, che contiene opere nel pubblico dominio, e la sezione Books3 di un dataset pubblicamente accessibile noto come ThePile (uno zibaldone di libri, sottotitoli di video di YouTube, trascrizioni del Parlamento Ue, email degli impiegati Enron prima del suo fallimento, e altre simili memorabilia), compilato dal gruppo di ricerca di EleutherAI (che si presenta come la versione open source di OpenAI), e usato per addestrare modelli linguistici di grandi dimensioni.
Nel paper Meta scrive: “dimostriamo che è possibile addestrare modelli all’avanguardia utilizzando esclusivamente set di dati disponibili pubblicamente, senza ricorrere a set di dati proprietari e inaccessibili”.

--------------------------------------------------------------
CORSO ONLINE SCRIVERE UNA SERIE TV DALL’8 MAGGIO

--------------------------------------------------------------

Cosa c’è dentro Books3

Bene, ma che libri conteneva esattamente Books3? È quello che si è chiesto il giornalista di The Atlantic, che ha prima recuperato ThePile, e poi, come in una serie di scatole cinesi, ha isolato ed estratto Books3, e infine ha usato i codici ISBN per individuare i libri. Insomma, un capolavoro.
Così facendo è riuscito a identificare più di 170mila titoli, dopodiché li ha esaminati. La maggior parte, scrive, sono opere “piratate”, cioè coperte da diritto d’autore e aggiunte senza consenso, perlopiù pubblicate negli ultimi 20 anni. Un terzo sono di narrativa, due terzi di saggistica. Ci sono grandi e piccoli editori. Tra gli autori ci sono Elena Ferrante e Rachel Cusk, Haruki Murakami, Jonathan Franzen, Margaret Atwood. Ma anche 102 romanzi di L. Ron Hubbard (il fondatore di Scientology), 90 libri del pastore creazionista John F. MacArthur, opere di pseudo-storia del tipo gli alieni hanno costruito le piramidi ecc.

Uno strumento per cercare dentro Books3

The Atlantic ha poi messo a disposizione uno strumento per permettere a chiunque di fare ricerche in questa raccolta. Ho trovato, oltre alla già citata Ferrante, Altai di Wu Ming, ovviamente molto Umberto Eco, Roberto Saviano, Melania Mazzucco, Antonio Scurati, Domenico Starnone, Nicola Lagioia, e questo solo per citare un po’ di nomi che ho volutamente cercato.

Rifacciamo un altro passo indietro. Si dice che i contenuti per l’AI siano raccolti (scraped) da internet e da siti pubblicamente accessibili. Nel caso di Books3 i libri sono in realtà stati scaricati da un server bittorrent, scriveva mesi fa l’accademico Peter Schoppert.
Ma Books3, almeno nell’intento del suo creatore, nasce per sostenere la ricerca AI open source in contrapposizione alla chiusura e segretezza di OpenAI e al suo monopolio. Così ha spiegato allo stesso The Atlantic lo sviluppatore Shawn Presser che ha assemblato la raccolta di libri.

Open source AI contro OpenAI

Dunque Books3 sarebbe stato creato per fornire agli sviluppatori indipendenti “dati di addestramento di livello OpenAI”. E il suo stesso nome sarebbe un riferimento a un documento pubblicato da OpenAI nel 2020 che menzionava due “corpora di libri basati su Internet” chiamati Books1 e Books2. “Questo documento – scrive The Atlantic – è l’unica fonte primaria che fornisce indizi sul contenuto dei dati di addestramento di GPT(…)”.

Si procede quindi a tentoni. Dalle informazioni raccolte dalla comunità di sviluppatori però si ipotizza che Books1 sia la produzione completa di Project Gutenberg (…). Mentre nessuno sa cosa ci sia dentro Books2.
“Alcuni sospettano che provenga da raccolte di libri piratati, come Library Genesis, Z-Library e Bibliotik, che circolano attraverso la rete di file-sharing BitTorrent (Books3, come ha annunciato Presser dopo averlo creato, sarebbe “tutto Bibliotik”)”.

QUI LA VERSIONE COMPLETA DELLA NEWSLETTER

--------------------------------------------------------------
CORSO ONLINE SCRIVERE E PRESENTARE UN DOCUMENTARIO, DAL 22 APRILE

--------------------------------------------------------------

Array

taggato con facebook, Intelligenza Artificiale, OpenAI, sciopero sceneggiatori

Cookie	Durata	Descrizione
_GRECAPTCHA	5 months 27 days	This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Durata	Descrizione
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_ga_WYFPW5DGD5	2 years	This cookie is installed by Google Analytics.
_gat_UA-56827900-1	1 minute	A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_gcl_au	3 months	Provided by Google Tag Manager to experiment advertisement efficiency of websites using their services.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
browser_id	5 years	This cookie is used for identifying the visitor browser on re-visit to the website.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.
vuid	2 years	Vimeo installs this cookie to collect tracking information by setting a unique ID to embed videos to the website.

Cookie	Durata	Descrizione
_fbp	3 months	This cookie is set by Facebook to display advertisements when either on Facebook or on a digital platform powered by Facebook advertising, after visiting the website.
_ir	session	This is a Pinterest cookie that collects information on visitor behaviour on multiple websites. This information is used on the website, in order to optimize the relevance of advertisement.
fr	3 months	Facebook sets this cookie to show relevant advertisements to users by tracking user behaviour across the web, on sites that have Facebook pixel or Facebook social plugin.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt.innertube::nextId	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Durata	Descrizione
language	session	This cookie is used to store the language preference of the user.
ssupp.vid	6 months	Cookie set by Smartsupp to record the visitor ID.
ssupp.visits	6 months	Cookie set by Smartsupp to record the number of previous visits, necessary to track automatic messages.

Newsletter

Blog GUERRE DI RETE – Il dataset è politico

Corso in presenza A Scuola di Cinema 4-5 maggio 2024

Corso di SCENEGGIATURA online dal 6 maggio

Corsi di cinema per ragazze e ragazzi: la SUMMER SCHOOL di Sentieri selvaggi

CORSO ONLINE SCRIVERE UNA SERIE TV dall’8 maggio

Corso in presenza MONTAGGIO AVID, dal 9 maggio

Abbonati a Sentieriselvaggi21st con la CARTA DEL DOCENTE!

The Other Side of Genius. Il cinema di Orson Welles – La monografia

Il nuovo #Sentieriselvaggi21st n.17 è arrivato!

30 anni dopo, lo storico libro di Sentieri selvaggi su MASSIMO TROISI

LA NUOVA SCUOLA DI DOCUMENTARIO di SENTIERI SELVAGGI

Regala la Gift Card di Sentieri selvaggi

Blog GUERRE DI RETE – Il dataset è politico

ISCRIVITI ALLA NEWSLETTER DI SENTIERI SELVAGGI

Corso in presenza A Scuola di Cinema 4-5 maggio 2024

Corso di SCENEGGIATURA online dal 6 maggio

Corsi di cinema per ragazze e ragazzi: la SUMMER SCHOOL di Sentieri selvaggi

CORSO ONLINE SCRIVERE UNA SERIE TV dall’8 maggio

Corso in presenza MONTAGGIO AVID, dal 9 maggio

Abbonati a Sentieriselvaggi21st con la CARTA DEL DOCENTE!

The Other Side of Genius. Il cinema di Orson Welles – La monografia

Il nuovo #Sentieriselvaggi21st n.17 è arrivato!

30 anni dopo, lo storico libro di Sentieri selvaggi su MASSIMO TROISI

LA NUOVA SCUOLA DI DOCUMENTARIO di SENTIERI SELVAGGI

Regala la Gift Card di Sentieri selvaggi