Gli editori che bloccano Internet Archive rischiano di cancellare la storia del web nella lotta contro l'AI
AI News

Gli editori che bloccano Internet Archive rischiano di cancellare la storia del web nella lotta contro l'AI

6 min
22/03/2026
Internet ArchiveAI EthicsDigital PreservationCopyright Law

Archivi sotto attacco mentre gli editori bersagliano lo scraping dell'AI

In una mossa dalle profonde implicazioni per la storia digitale, i principali editori di notizie hanno iniziato a utilizzare misure tecniche per bloccare Internet Archive dalla preservazione dei loro siti web. The New York Times ha avviato questa tendenza all'inizio del 2026, come riportato da Nieman Lab, con altri media come The Guardian che hanno seguito l'esempio. Il loro obiettivo dichiarato è prevenire che le società di intelligenza artificiale addestrino modelli sui loro contenuti senza permesso o pagamento.

Tuttavia, gli esperti di diritti digitali e gli storici stanno lanciando un allarme importante. Organizzazioni come l'Electronic Frontier Foundation (EFF) sostengono che questa tattica radicale non fermerà in modo significativo lo sviluppo dell'AI ma danneggerà catastroficamente la registrazione pubblica. La Wayback Machine di Internet Archive, operativa dalla metà degli anni '90, contiene oltre un trilione di pagine web archiviate ed è uno strumento critico per giornalisti, ricercatori e corti di giustizia.

La battaglia legale degli editori si concentra sulle società commerciali di AI. The New York Times e altri stanno intentando cause contro le società di AI, contestando se l'utilizzo di materiale protetto da copyright per l'addestramento dell'AI costituisca un uso equo. L'EFF e altri esperti sostengono che esiste un solido caso legale secondo cui tale addestramento è trasformativo e consentito dall'uso equo, un dibattito che ora si sta svolgendo nelle aule dei tribunali.

Tuttavia, bloccando l'Internet Archive non profit, gli editori stanno prendendo di mira un'entità non coinvolta nella costruzione dell'AI commerciale. La missione dell'Archive è puramente conservativa. Come l'EFF afferma drasticamente, questa strategia "potrebbe essenzialmente distruggere decenni di documentazione storica in una lotta che le biblioteche come l'Archive non hanno iniziato e non hanno richiesto".

Il precedente legale per la preservazione e la ricerca

La base legale per l'archiviazione web è robusta e precede l'attuale dibattito sull'AI. Le corti hanno a lungo riconosciuto che la creazione di un indice ricercabile - una funzione fondamentale sia per i motori di ricerca che per gli archivi - implica necessariamente la copia di contenuti. Il caso emblematico Authors Guild v. Google ha consolidato che tale copia serve a uno scopo trasformativo e socialmente benefico: consentire la scoperta e la ricerca.

Internet Archive opera sullo stesso principio. Funziona come una biblioteca digitale, preservando il web effimero per le generazioni future. Il suo valore è immenso e specifico: Wikipedia da sola linka oltre 2,6 milioni di articoli di notizie conservati dall'Archive in 249 lingue. Questi archivi sono spesso l'unica registrazione attendibile di come una storia è apparsa per la prima volta online, prima di modifiche, correzioni o rimozioni.

"Quando i principali editori bloccano i crawler dell'Archive, quella registrazione storica inizia a scomparire", avverte l'EFF. Il rischio è che i ricercatori futuri si troveranno di fronte a un'età oscura digitale per eventi di notizie cruciali, con il contesto originale e la presentazione persi. I principi legali che proteggono questo lavoro sono distinti dalle questioni irrisolte relative all'addestramento dell'AI.

Bloccare gli archivisti confonde due questioni legali separate. Anche se le corti alla fine imporranno nuovi limiti sull'addestramento dell'AI, le protezioni consolidate per l'uso equo per l'archiviazione e la ricerca dovrebbero rimanere intatte. Sacrificare il primo per guadagnare leva nel secondo è visto dai critici come un compromesso pericoloso e fuorviante.

continua a leggere sotto...

L'ipocrisia di 'l'informazione vuole essere libera'

La repressione degli editori avviene su uno sfondo di ipocrisia lampante all'interno dello stesso settore tecnologico, come evidenziato dalle notizie di The Atlantic. Il mantra "l'informazione vuole essere libera" è spesso invocato da Silicon Valley per giustificare lo scraping dei dati web pubblici per l'addestramento dell'AI. L'ex CEO di Google, Eric Schmidt, ha difeso apertamente questa posizione, inquadrando l'"uso equo" del lavoro protetto da copyright come un motore di innovazione.

Tuttavia, questo principio libertario è applicato selettivamente. Le società tecnologiche proteggono ferocemente le loro informazioni proprietarie. The Atlantic nota che prodotti come Adobe Photoshop, l'algoritmo di ricerca di Google e persino elementi di design come il "rettangolo arrotondato" dell'iPhone sono protetti da brevetti e team legali aggressivi. Le enormi quantità di dati personali raccolti da queste società sono trattati anche come beni proprietari, non come informazioni libere.

Questo doppio standard si estende agli stessi modelli di AI. Meta, che definisce alcuni dei suoi modelli come "aperti", ha presumibilmente inviato notifiche di rimozione per rimuovere copie dei suoi modelli di AI dal web. Il termine "aperto" implica tipicamente disponibilità pubblica e generosità, ma in pratica, il controllo è mantenuto strettamente. Le azioni dell'industria contraddicono nettamente i suoi valori professati di accesso aperto quando sono in gioco i suoi interessi commerciali.

Questo contesto rende il blocco degli editori più controverso. Evidenzia una battaglia su chi controlla e profita dalle informazioni, dove potenti entità su tutti i fronti cercano di imporre regole che li favoriscano, potenzialmente a scapito dell'accesso del pubblico alla propria storia.

Politiche più ampie sull'AI e il ruolo del governo

Il conflitto sull'archiviazione web è solo una delle frontiere in una più ampia battaglia normativa ed etica che circonda l'AI. Il materiale di origine da WIRED descrive un conflitto in escalation tra la società di AI Anthropic e il Dipartimento della Difesa degli Stati Uniti (DoD). Anthropic ha rifiutato di consentire che la sua tecnologia fosse utilizzata per la sorveglianza o in armi autonome, portando il Pentagono a designarla come un "rischio per la catena di approvvigionamento" e a cancellare un contratto importante.

Anthropic ha negato con forza di avere la capacità di sabotare o disabilitare i suoi strumenti di AI durante le operazioni militari, definendo tali suggerimenti "giuridicamente insostenibili". Questo stallo sottolinea la crescente tensione tra l'etica dell'AI, la sicurezza nazionale e gli interessi commerciali. Mostra anche come le società sono costrette a prendere posizione sugli usi consentiti della loro tecnologia.

Contemporaneamente, la Casa Bianca è entrata nel dibattito politico. Come riportato da VitalLaw.com, l'amministrazione Biden ha rilasciato un quadro politico sull'AI nel marzo 2026. In particolare, il quadro suggerisce che l'addestramento dei modelli di AI probabilmente costituisce un uso equo, allineandosi con la posizione del settore tecnologico. Tuttavia, chiede anche una nuova legislazione per proteggere gli individui dalle deepfake generate dall'AI e dalle repliche digitali non consensuali.

Questo quadro federale tenta di bilanciare l'innovazione con la protezione, sostenendo eccezioni chiare per la parodia, la satira e il giornalismo per salvaguardare la libertà di parola. Rappresenta un approccio governativo più sfumato, in contrasto con lo strumento contundente del blocco degli archivi o della lista nera delle società.

Le poste in gioco per la storia e la registrazione pubblica

L'esito di questo scontro definirà la permanenza dell'era digitale. Se le principali istituzioni di notizie riusciranno a isolare il loro presente e passato dalla preservazione, eserciteranno un controllo assoluto sulla loro narrazione storica. Correzioni, ritrattazioni e l'evoluzione del giornalismo potrebbero diventare invisibili, danneggiando la fiducia del pubblico e la ricerca accademica.

Internet Archive rappresenta un controllo decentralizzato e non profit su questo potere. Fornisce un registro indipendente di ciò che è stato effettivamente pubblicato. Il suo valore si estende oltre l'accademia; è utilizzato in procedimenti legali, da fact-checker e da cittadini che verificano affermazioni. Il ruolo dell'Archive non è ridistribuire notizie a scopo di lucro ma congelare un momento nel tempo per la posterità.

Gli editori sono giustamente preoccupati per l'impatto economico dell'AI e la necessità di modelli di business sostenibili. Tuttavia, utilizzare la preservazione archivistica come carta da scambiare stabilisce un precedente pericoloso. Tratta la storia come una merce negoziabile piuttosto che come un bene pubblico. La lotta sui dati di addestramento dell'AI deve essere risolta in tribunale e nel mercato, non smantellando l'infrastruttura della memoria collettiva.

Come conclude l'EFF, sacrificare la registrazione pubblica per guadagnare leva nelle dispute commerciali "sarebbe un errore profondo e forse irreversibile". La storia del web è troppo preziosa per essere tenuta in ostaggio in una battaglia tra giganti della tecnologia e conglomerati mediatici. I principi dell'uso equo che proteggono le biblioteche e gli archivi devono essere difesi, altrimenti cancelleremo volontariamente il nostro passato digitale.