Presentazione di Talkie: un modello AI vintage da 13 miliardi di parametri addestrato su testi precedenti al 1931

Una finestra sul passato: presentazione di Talkie, il modello linguistico vintage da 13 miliardi di parametri

I ricercatori Nick Levine, David Duvenaud e Alec Radford hanno presentato Talkie, un innovativo modello linguistico da 13 miliardi di parametri con un vincolo unico: è stato addestrato esclusivamente su testi in inglese pubblicati prima del 1931. Questo modello AI "vintage" non è stato progettato solo come una curiosità conversazionale, ma come uno strumento di ricerca serio per sondare i limiti della generalizzazione dell'AI e studiare la cultura storica attraverso una lente computazionale.

Perché costruire un modello AI del 1930?

L'idea centrale, pionieristica di ricercatori come Owain Evans, è quella di creare un ambiente controllato per studiare l'AI. Stabilendo un limite di conoscenza preciso, i ricercatori possono testare in modo pulito la capacità di un modello di prevedere eventi futuri, generalizzare a concetti nuovi e inventare idee al di là dei dati di addestramento. Serve anche come base di riferimento incontaminata.

La contaminazione, dove i modelli apprendono inavvertitamente dai dati di test, è un problema persistente nella valutazione dell'AI. I modelli vintage sono "puliti" per progettazione. Il team sta già utilizzando Talkie per valutare le prestazioni di previsione, misurando la "sorpresa" degli eventi storici successivi al 1930 per il modello.

L'analisi iniziale mostra un picco pronunciato nella sorpresa per gli eventi degli anni '50 e '60, seguito da un plateau. I ricercatori mirano anche a verificare se un tale modello potrebbe arrivare indipendentemente a invenzioni successive al 1930, come l'elicottero o le macchine di Turing, o addirittura scoprire principi scientifici come la Relatività Generale.

Valutazione di un modello di un'altra era

Per contestualizzare le prestazioni di Talkie, il team ha addestrato un "gemello moderno" architettonicamente identico sui dati web contemporanei (FineWeb). Nelle valutazioni di conoscenza standard, Talkie ha prestazioni inferiori rispetto al suo omologo moderno, anche dopo aver corretto le domande anacronistiche.

Tuttavia, le sue prestazioni sui compiti di comprensione del linguaggio e numerici sono simili. Il divario di prestazioni è attribuito alle differenze nella qualità dei dati - principalmente la scarsa qualità dell'OCR (Optical Character Recognition) dei documenti storici - e alla distribuzione della materia del corpus precedente al 1931.

Le sfide impegnative dell'AI vintage

La costruzione di Talkie ha presentato ostacoli unici non incontrati nell'addestramento dei modelli moderni. Le tre sfide principali erano la perdita di dati nel tempo, la qualità dei dati e l'addestramento post-era appropriato.

Combattere la perdita di dati nel tempo

Garantire che nessun dato successivo al 1930 contamini il set di addestramento è fondamentale. La perdita può verificarsi a causa di metadati difettosi o inserimenti editoriali moderni in vecchi testi. Il team ha utilizzato un classificatore basato su n-grammi per filtrare il corpus, ma non era perfetto.

Una versione precedente da 7 miliardi di parametri ha dimostrato conoscenza della presidenza e della legislazione del New Deal di Franklin D. Roosevelt, iniziata nel 1933. L'attuale modello da 13 miliardi di parametri mostra anche una certa consapevolezza della seconda guerra mondiale e dell'ordine post-bellico. I ricercatori stanno sviluppando tecniche di rilevamento delle perdite più avanzate per le versioni future.

continua a leggere sotto...

Il problema dell'OCR

Tutto il testo precedente al 1931 deve essere trascritto, introducendo rumore. Il team ha scoperto che i modelli addestrati su testi trascritti con OCR convenzionale raggiungono solo il 30% dell'efficienza di apprendimento dei modelli addestrati su versioni trascritte da esseri umani. Una semplice pulizia con regex migliora questo valore al 70%.

I moderni modelli di linguaggio visivo (VLMs) offrono una maggiore precisione, ma rischiano di "allucinare" fatti moderni nelle trascrizioni. Il team sta costruendo un sistema "vintage OCR" dedicato per ritrascrivere il corpus e colmare questo divario di prestazioni.

Addestramento post-era senza pregiudizi moderni

Migliorare Talkie sui dati di chat moderni standard inserisce conoscenze e stili anacronistici. Invece, il team ha costruito una pipeline da fonti storiche. Hanno generato coppie di istruzioni-risposte da testi storici strutturati come manuali di etichetta, guide per la scrittura di lettere e libri di cucina.

Hanno poi utilizzato prompt sintetici e l'ottimizzazione diretta delle preferenze (DPO) online con Claude Sonnet 4.6 come giudice, migliorando le valutazioni di follow-up delle istruzioni. Un ultimo ciclo di ottimizzazione supervisionata su chat multi-turno sintetiche ha levigato le capacità conversazionali. L'obiettivo è quello di utilizzare infine i modelli vintage stessi come giudici per una pipeline completamente appropriata per l'era.

Raccolta dei dati e scalabilità futura

Il corpus di Talkie, costruito sul lavoro di Internet Archive e Common Pile, contiene 260 miliardi di token da libri, giornali, riviste, brevetti e leggi precedenti al 1931. Il limite del 1930 si allinea con le leggi statunitensi sul pubblico dominio. L'attuale modello è solo in inglese, ma l'espansione multilingue è una priorità.

I ricercatori pianificano di scalare rapidamente Talkie aumentando la dimensione del corpus, migliorando l'OCR, rafforzando il rilevamento delle perdite e perfezionando l'addestramento post-era con gli storici. Mirano a rilasciare un modello di livello GPT-3 entro l'estate e ritengono che un corpus storico di un trilione di token potrebbe supportare un modello simile in capacità all'originale ChatGPT.

Implicazioni della ricerca e considerazioni etiche

Talkie rappresenta una nicchia in crescita accanto a progetti come Ranke-4B e Machina Mirabilis. Promette di aiutare a districare ciò che sappiamo sull'AI in generale da ciò che sappiamo sui modelli addestrati specificamente sul web moderno. Il team invita alla collaborazione ricercatori, storici e artisti.

Un'importante nota di cautela accompagna il modello: Talkie riflette la cultura e i valori dei dati di addestramento precedenti al 1931, il che significa che può produrre output offensivi per gli utenti moderni. Questo pregiudizio intrinseco è una caratteristica del disegno sperimentale, non un'approvazione.

Contesto in un panorama competitivo dell'AI

Il rilascio di Talkie avviene in un periodo di intensa competizione e scrutinio nel settore dell'AI. Sebbene non sia un concorrente diretto dei giganti commerciali, i suoi obiettivi di ricerca si contrappongono alle pressioni del mercato evidenziate altrove. Un rapporto contemporaneo del New York Times DealBook ha messo in dubbio se OpenAI stia "restando indietro" dopo aver mancato gli obiettivi di utenti e ricavi, sottolineando le diverse priorità tra lo sviluppo commerciale e la ricerca esplorativa dell'AI.

Talkie è supportato da finanziamenti e risorse computazionali di Coefficient Giving e Anthropic. Il suo sviluppo evidenzia un percorso per la ricerca sull'AI che valorizza la comprensione storica e l'indagine scientifica fondamentale tanto quanto il ridimensionamento delle capacità grezze.

Presentazione di Talkie: un modello AI vintage da 13 miliardi di parametri addestrato su testi precedenti al 1931

Una finestra sul passato: presentazione di Talkie, il modello linguistico vintage da 13 miliardi di parametri

Perché costruire un modello AI del 1930?

Valutazione di un modello di un'altra era

Le sfide impegnative dell'AI vintage

Combattere la perdita di dati nel tempo

Il problema dell'OCR

Addestramento post-era senza pregiudizi moderni

Raccolta dei dati e scalabilità futura

Implicazioni della ricerca e considerazioni etiche

Contesto in un panorama competitivo dell'AI

Related News

Microsoft e OpenAI smantellano l'accordo esclusivo sull'AI

AI's Hidden Risk: Outsourcing Thinking Erodes Engineering Value

Agent AI hanno cancellato il nostro database: una storia di monito sull'IT Agente

AI Solves 60-Year-Old Math Problem, Signaling New Era in Research

Anthropic Pubblica i Prompt di Sistema di Claude, Ridefinendo la Trasparenza dell'AI

Ricreazione in Pixel Art a 1 Bit dell'Opera di Hokusai 'La Grande Onda' Collega Tecnologia Nostalgica e Arte