I modelli linguistici avanzati(LLM) non si comportano come gli esseri umani: uno studio rivela l’importanza delle percezioni umane

(Adnkronos) – Un recente studio, sostenuto dall'Harvard Data Science Initiative e dal Center for Applied AI presso l'University of Chicago Booth School of Business, potrebbe migliorare le prestazioni dei modelli linguistici in situazioni reali. I ricercatori del MIT hanno provato a ribaltare il punto di osservazione, sostenendo che, poiché sono gli umani a decidere quando utilizzare i modelli linguistici, è essenziale capire come le persone formano le loro credenze sulle capacità di questi modelli. I modelli linguistici di grande scala (LLMs) sono strumenti applicabili a una vasta gamma di compiti, dalla stesura di email alla diagnosi medica. "Questi strumenti sono entusiasmanti perché sono di uso generale, ma proprio per questo motivo collaboreranno con le persone, quindi dobbiamo tenere conto del ruolo umano," afferma Ashesh Rambachan, coautore dello studio e professore assistente di economia al MIT. Per esplorare questo concetto, i ricercatori hanno creato un quadro per valutare un LLM basato sul suo allineamento con le credenze umane riguardo alle sue prestazioni su determinati compiti. Hanno introdotto una funzione di generalizzazione umana, un modello di come le persone aggiornano le loro credenze sulle capacità di un LLM dopo aver interagito con esso. I risultati mostrano che quando i modelli sono disallineati con la funzione di generalizzazione umana, gli utenti potrebbero essere eccessivamente sicuri o insicuri su quando utilizzarli, portando a fallimenti imprevisti. "I modelli linguistici spesso sembrano così umani. Volevamo illustrare che questa forza di generalizzazione umana è presente anche in come le persone formano credenze sui modelli linguistici," afferma Rambachan. I ricercatori hanno lanciato un sondaggio per misurare come le persone generalizzano quando interagiscono con LLM e altre persone. Hanno mostrato ai partecipanti domande a cui una persona o un LLM aveva risposto correttamente o meno e poi chiesto se pensavano che quella persona o LLM avrebbe risposto correttamente a una domanda correlata. Attraverso il sondaggio, hanno generato un dataset di quasi 19.000 esempi di come gli umani generalizzano sulle prestazioni degli LLM su 79 compiti diversi. Gli studi hanno rivelato che le persone tendevano a essere più influenzate dalle risposte errate degli LLM rispetto a quelle corrette e credevano che le prestazioni degli LLM su domande semplici non fossero indicative delle loro capacità su domande più complesse. In situazioni in cui le persone mettevano più peso sulle risposte errate, i modelli più semplici superavano i modelli molto grandi come GPT-4. "
I modelli linguistici che migliorano e apprendono possono ingannare la percezione delle persone portandole a pensare che si comporteranno bene su domande correlate quando, in realtà, non lo fanno
," aggiunge Rambachan. "Quando addestriamo questi algoritmi o cerchiamo di aggiornarli con il feedback umano, dobbiamo tenere conto della funzione di generalizzazione umana nel modo in cui pensiamo di misurare le prestazioni," conclude Rambachan. —tecnologiawebinfo@adnkronos.com (Web Info)

I modelli linguistici avanzati(LLM) non si comportano come gli esseri umani: uno studio rivela l’importanza delle percezioni umane

Notizie correlate

WhatsApp: a fine Ottobre arriva il nome utente

Zero Trust in crescita, ma l’AI per la sicurezza lenta a decollare: il report DXC e Microsoft

Ikea lancia il mini letto per smartphone che permette di guadagnare dormendo

iOS 26.1, nuova opzione per rendere più “opaco” il Liquid Glass di iPhone

ESA: quattro astronauti europei completano addestramento elicotteri per Le missioni Lunari

Osservatorio STIGA-YouGov: Il 77% degli europei sceglie la tecnologia smart per il giardinaggio

Tecnologia e territorio: il Presidente Fontana al Global Summit ZTE per la trasformazione digitale della Lombardia

Scarica LuccaCG Assistant

Pixel Buds 2a: il miglior affare dell’ecosistema Pixel

La corona di Cagliostro

Area Arkanoid e Arcade Dungeon

Pixel Watch 4, la rivoluzione tonda di Google

Ultimi articoli

Dipinto di Rosso Fiorentino riscoperto dopo secoli, lo acquista il Met di New York

Perché in Italia solo il 15% dei sindaci è donna?

Buona affluenza in Toscana per il referendum: alle 19 dato di poco inferiore al 45 per cento

Domenica d’oro per le toscane: la Carrarese domina a Bari, l’Empoli piega il Pescara in un pirotecnico 4-2

Referendum giustizia, affluenza in Toscana al 16,9% alle 12

SEGUICI SUI SOCIAL

VIDEO NEWS