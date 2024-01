Nel Sì & No del giorno del Riformista spazio al dibattito sullo scontro legale tra il New York Times e ChatGPT. Giusta la presa di posizione del giornale per difendere il proprio copyright evitando che milioni di articoli vengano usati per addestrare il chatbot? Riccardo Puglisi difende la posizione del quotidiano e dei relativi diritti d’autore, Andrea Venanzoni quelle dello sviluppo tecnologico basato sul ‘fair use’.

Di seguito il commento di Riccardo Puglisi

Se si pone mente in maniera ragionevole alle tematiche economiche e giuridiche sollevate dal caso in questione, non si possono che comprendere le ragioni che hanno spinto il New York Times a intentare una causa contro OpenAI e Microsoft, a motivo della violazione dei propri diritti d’autore. La faccenda sottostante è presto detta: un “large language model” come ChatGPT (il principale prodotto di OpenAI) ha necessariamente bisogno, come input per produrre risposte intelligenti, un quantitativo gigantesco di testi su cui allenare i propri algoritmi. Come forse è già noto, il meccanismo principale attraverso cui ChatGPT si allena è una sequenza di “sfide” che consistono nell’indovinare ogni parola in un testo, avendo cancellato proprio quella e lasciando tutte le altre. Dal punto di vista tecnico, dentro queste sfide non è sempre vero che le parole immediatamente adiacenti a quella cancellata siano le più utili per formulare una predizione corretta, ma l’algoritmo “impara” quando serve a utilizzare anche parole distanti dalla parola da indovinare.

Rispetto agli algoritmi precedenti, si noti poi come sia diminuita moltissimo la cosiddetta componente “supervised”, cioè l’apporto di esseri umani che classificano immagini o interpretano testi per fornire esempi utili all’algoritmo stesso. Chiunque abbia provato ad utilizzare ChatGPT si sarà con ogni probabilità accorto del fatto che -pur potendo riscontrare errori o allucinazioni, cioè risposte totalmente false- la stragrande maggioranza delle risposte appaiono come intelligenti secondo lo standard dell’intelligenza umana. E di chi è il merito di questa intelligenza, cioè di questa capacità di utilizzare tutto il materiale di conoscenza e informazione presente su internet per produrre risposte intelligenti? Nessuno potrebbe ovviamente pensare che gli inventori degli algoritmi rivestano un ruolo residuale; tuttavia, la controparte costituita dai produttori di testi protetti dal diritto d’autore (il New York Times sarebbe solo il primo di una lunghissima lista) a mio parere può legittimamente far valere tale diritto, perché l’apprendimento degli algoritmi sfrutta -anche se in termini percentualmente piccoli- la quantità di significati e connessioni che sono insiti in questi testi.

Mi spiego facendo ancora riferimento alle sfide di predizione dei testi su cui si basa ChatGPT: qualora i testi disponibili in rete fossero soltanto degli accrocchi di parole senza senso, tali sfide porterebbero ad algoritmi che forniscono tristi, assurde e insensate risposte alle domande (“prompt”) degli utenti. Detto in altri termini, esiste un nesso essenziale di complementarietà tra i testi dotati di senso e largamente protetti dai diritti d’autore -rammentando a noi stessi che tali diritti hanno una durata limitata nel tempo- e gli arditi algoritmi che li utilizzano per produrre risposte intelligenti in maniera scalabile. Come si sa tra gli “esseri umani di mondo” (“uomini di mondo” è espressione che farebbe dispiacere a Elly Schlein e Chiara Valerio, dunque mi pregio di non utilizzarla), in una causa legale gli avvocati partono spesso con il cipiglio del poliziotto cattivo, per poi raggiungere un compromesso in cui prevalgono le attitudini concilianti del poliziotto buono, il quale ovviamente beneficia delle minacce paventate dal suo compare cattivo. Ritengo che questa dinamica si realizzerà anche nel caso in questione, nella forma di un accordo tra le parti in causa, ma nel contempo tale accordo aprirà la strada “de iure condendo” a nuove leggi che garantiranno una forma di remunerazione al diritto d’autore utilizzato dai large language model come ChatGPT. Solo uno sciocco legislatore luddista bloccherebbe ChatGPT e i suoi simili per tutelare in maniera asfissiante i produttori di contenuti online. Solo uno sciocco legislatore modernista trascurerebbe del tutto le esigenze ragionevoli di tali produttori. Come insegnano gli antichi latini, un saggio legislatore virtuoso troverà un sapiente compromesso nella Terra di Mezzo dei diritti.

Riccardo Puglisi