L'ATS di HackerRank: Il Punteggio del CV è un Filtro di Fortuna

L'ATS Open Source di HackerRank: Quando la Valutazione del CV Diventa un Lancio di Dadi

HackerRank ha recentemente reso open source il suo sistema di tracciamento dei candidati (ATS), Hiring Agent, scatenando un'ampia discussione su LinkedIn e Reddit. Lo strumento promette di automatizzare lo screening dei CV utilizzando modelli linguistici di grandi dimensioni (LLM), ma i test iniziali rivelano un difetto preoccupante: lo stesso CV può ottenere un punteggio compreso tra 66 e 99 su 100, a seconda del caso. Non si tratta di un bug, ma di un problema di progettazione fondamentale che trasforma l'assunzione in un filtro di fortuna.

Dan Kinsky, un ingegnere del software, ha messo alla prova lo strumento. Al primo tentativo, il suo CV ha ottenuto un solido 90/100. Dopo aver ripulito alcune istruzioni di debug, il punteggio è sceso a 74. Un terzo tentativo? 88. Ha quindi automatizzato 100 esecuzioni e ha trovato punteggi che andavano da 66 a 99. Con un ipotetico cutoff a 85, il suo CV sarebbe stato respinto nel 65% dei casi, nonostante fosse identico ogni volta. Questa varianza non è un caso limite, è la norma.

Come Funziona l'ATS

Il sistema analizza un CV in PDF convertendolo in testo, quindi chiama un LLM sei volte per estrarre dati strutturati: dati anagrafici, esperienza lavorativa, istruzione, competenze, progetti e riconoscimenti. Inoltre, esamina il profilo GitHub del candidato e i repository principali per ottenere un contesto aggiuntivo. Infine, l'LLM valuta il CV su una scala di 100 punti, con un massimo di 20 punti bonus.

La ripartizione del punteggio è la seguente:

Contributi open source: 35 punti
Progetti personali: 30 punti
Esperienza lavorativa: 25 punti
Competenze tecniche: 10 punti
Punti bonus: Fino a 20 per esperienza in startup, sito portfolio, blog tecnico, ecc.

Il modello predefinito è Gemma3:4b, eseguito con una temperatura di 0,1—un'impostazione bassa pensata per spingere il modello verso output deterministici. Eppure, i punteggi variano ancora selvaggiamente.

Coerenza Dove Non Conta, Caos Dove Conta

Analizzando le singole categorie emerge un contrasto netto. Le competenze tecniche hanno ottenuto un punteggio quasi perfetto di 8/10 in 98 esecuzioni su 100. Perché? Perché le competenze tecniche sono una lista di controllo—o conosci React o non lo conosci. C'è poco spazio per un giudizio soggettivo dell'LLM.

I progetti, d'altro canto, mostrano una variazione enorme. L'LLM fatica a valutare coerentemente aspetti qualitativi come la complessità architettonica o l'implementazione nel mondo reale. A volte un progetto viene lodato, altre volte viene giudicato carente—al massimo un lancio di moneta.

L'esperienza lavorativa è la più preoccupante. Ogni singola esecuzione ha ottenuto 25/25, indipendentemente dal candidato. Un ingegnere junior con un tirocinio ottiene il punteggio massimo, così come un ingegnere principale con decenni di esperienza. Il prompt per questa categoria è lungo solo due righe, senza rubriche o esempi. Recita: "Analizza le sezioni 'lavoro' e 'volontariato' per esperienza nel mondo reale, tirocini o produzione. CONSIDERAZIONE SPECIALE: Dai punti extra per ruoli di fondatore, co-fondatore o ingegnere in fase iniziale (primi 10-20 dipendenti) in startup." Non ci sono ancore per ciò che costituisce un 15 rispetto a un 25, rendendo il punteggio privo di significato.

continua a leggere sotto...

La Temperatura 0 Non Risolve il Problema

Abbassare la temperatura a 0 non risolve il non-determinismo. Un problema su GitHub aperto nell'ottobre 2025 mostra punteggi di 27, 34, 32, 34, 34 e 30 in sei esecuzioni consecutive a temperatura 0. Questo non è un bug che può essere risolto con le regolazioni—è una limitazione fondamentale degli LLM quando viene chiesto loro di esprimere giudizi soggettivi.

Anche passando a un modello più potente come Gemini non si elimina il problema. Mentre la distribuzione si restringe—i punteggi si raggruppano tra 48 e 64—un cutoff a 60 significa comunque fallire nel 28% dei casi senza alcuna colpa del candidato.

Le Implicazioni Più Ampie per le Assunzioni

La forte ponderazione dello strumento su open source e progetti (65% del punteggio base) introduce ulteriori distorsioni. Un ingegnere con 30 anni di esperienza che ha costruito infrastrutture critiche come Amazon S3 potrebbe avere poco da mostrare su GitHub. Con questo sistema, otterrebbe un punteggio basso rispetto a uno sviluppatore junior con alcuni contributi open source. Come osserva Kinsky, "Alcuni dei migliori ingegneri che conosco hanno costruito cose che non sono mai finite su GitHub."

Non si tratta solo di una curiosità tecnica—ha conseguenze reali. Le aziende che si affidano allo screening AI rischiano di escludere i migliori talenti sulla base della casualità. Il processo diventa un filtro di fortuna, non un filtro di qualità. Come ha detto un critico, "Tanto vale buttare via metà dei CV e dire ai candidati che non si scherza con la sfortuna."

Cosa Significa per Chi Cerca Lavoro e per i Datori di Lavoro

Per chi cerca lavoro, il messaggio è sobrio: il punteggio del tuo CV è in parte una questione di fortuna. Anche un CV perfettamente adattato può essere respinto o accettato in base all'umore dell'LLM. Per i datori di lavoro, il rischio è ancora maggiore. Adottare tali strumenti senza comprenderne i limiti potrebbe portare a decisioni di assunzione sistematicamente distorte.

Gli LLM eccellono nell'analizzare dati strutturati e nel verificare liste di controllo—come se un candidato conosce Python. Ma sono fondamentalmente inadatti per valutazioni soggettive come giudicare la qualità dell'esperienza lavorativa o la complessità di un progetto. Come conclude Kinsky, "Usa un LLM per analizzare un CV in dati strutturati—ottimo. Usalo per verificare se qualcuno conosce Python—fantastico. Usalo per giudicare se l'esperienza di un candidato vale 18 punti o 24 punti? Ottieni un controllo d'impressione."

Il panorama delle assunzioni sta già cambiando. Un rapporto di Business Insider evidenzia che i cercatori di lavoro nel 2026 si trovano ad affrontare un nuovo mondo di processi guidati dall'AI, in cui i CV devono essere adattati sia ai lettori umani che a quelli macchina. Nel frattempo, i dati sulle retribuzioni diventano più dinamici e cresce la necessità di dati pronti per le decisioni. Ma se gli strumenti utilizzati per lo screening dei candidati sono fondamentalmente inaffidabili, l'intero sistema è a rischio.

Per gli ingegneri con influenza sul processo di assunzione della propria azienda, il messaggio è chiaro: procedere con cautela. Gli strumenti di screening AI possono essere potenti, ma non sostituiscono il giudizio umano. Come avverte l'industria della cybersecurity, anche i modelli AI open source possono essere quasi efficaci quanto quelli proprietari—nel bene e nel male. Nelle assunzioni, la posta in gioco è troppo alta per lasciarla al caso.

L'ATS di HackerRank: Il Punteggio del CV è un Filtro di Fortuna

L'ATS Open Source di HackerRank: Quando la Valutazione del CV Diventa un Lancio di Dadi

Come Funziona l'ATS

Coerenza Dove Non Conta, Caos Dove Conta

La Temperatura 0 Non Risolve il Problema

Le Implicazioni Più Ampie per le Assunzioni

Cosa Significa per Chi Cerca Lavoro e per i Datori di Lavoro

Related News

Professore della Brown svela frode di massa con AI in esame di economia

DSpark: Il Decodifica Speculativa Riduce i Costi di Inferenza degli LLM

OpenAI lancia GPT-5.6 Sol sotto le restrizioni del governo statunitense

Il governo degli Stati Uniti verificherà tutti gli utenti di GPT-5.6 in una regolamentazione storica dell'AI

Claude vs ChatGPT: percorsi di crescita divergenti tra le indagini dell'AI del Pentagono

Amazon investe 200 miliardi di dollari in AI entro il 2026, inclusa l'espansione di AWS Trainium e India