Seguici su

Attualità

Quanto è intelligente chatGPT 3,5 e quanto lo sarà 4,0. Quali lavori spariranno

Pubblicato

il

ChatGPT, un modello linguistico sviluppato da OpenAI, è diventato incredibilmente popolare nell’ultimo anno grazie alla sua capacità di generare risposte simili a quelle umane in una vasta gamma di circostanze. In effetti, ChatGPT è diventato così competente che gli studenti lo usano per aiutarli a fare i compiti. Questo ha spinto diversi distretti scolastici statunitensi a bloccare l’accesso al modello da parte dei dispositivi presenti nelle loro reti.

Quanto è intelligente ChatGPT?

In una relazione tecnica rilasciata il 27 marzo 2023, OpenAI ha fornito un resoconto completo del suo modello più recente, noto come GPT-4. Il rapporto includeva una serie di risultati degli esami, che Marcus Lu e Rosey Eason di Visual Capitalist hanno visualizzato nel grafico qui sopra.


GPT-4 vs. GPT-3.5
Per valutare le capacità di ChatGPT, OpenAI ha simulato i test di vari esami professionali e accademici. Tra questi, il SAT, l’esame di stato e vari esami finali di Advanced Placement (AP). Le prestazioni sono state misurate in percentili, basati sulle distribuzioni dei punteggi più recenti disponibili per i partecipanti a ciascun tipo di esame. Occhio che gli avvocati sono a fortissimo rischio di disoccupazione.

Il punteggio in percentili è un modo per classificare le proprie prestazioni rispetto a quelle degli altri. Ad esempio, se vi posizionate al 60° percentile di un test, significa che avete ottenuto un punteggio superiore a quello del 60% dei partecipanti al test.

La tabella seguente elenca i risultati visualizzati nel grafico.

I punteggi riportati sopra sono relativi al GPT-4 con gli input visivi abilitati. Per risultati più completi, consultare la relazione tecnica di OpenAI.

Come possiamo vedere, GPT-4 (rilasciato a marzo 2023) è molto più capace di GPT-3.5 (rilasciato a marzo 2022) nella maggior parte di questi esami. Tuttavia, non è riuscito a migliorare in AP English e nella programmazione competitiva.

Per quanto riguarda l’AP English (e altri esami in cui erano richieste risposte scritte), gli elaborati presentati da ChatGPT sono stati valutati da “1-2 appaltatori terzi qualificati con esperienza lavorativa pertinente nella valutazione di tali saggi”. Sebbene ChatGPT sia certamente in grado di produrre saggi adeguati, potrebbe aver avuto difficoltà a comprendere le richieste dell’esame.

Per quanto riguarda la programmazione competitiva, GPT ha tentato 10 concorsi di Codeforces per 100 volte ciascuno. Codeforces organizza gare di programmazione competitiva in cui i partecipanti devono risolvere problemi complessi. Il punteggio medio di Codeforces di GPT-4 è 392 (al di sotto del 5° percentile), mentre il suo massimo in una singola gara è stato di circa 1.300. Facendo riferimento alla pagina delle valutazioni di Codeforces, l’utente che ha ottenuto il punteggio più alto è jiangly dalla Cina con una valutazione di 3.841.

Cosa è cambiato con GPT-4?
Ecco alcune aree in cui GPT-4 ha migliorato l’esperienza degli utenti rispetto a GPT-3.5.

Accesso a Internet e plugin
Un fattore limitante del GPT-3.5 era l’impossibilità di accedere a Internet e la possibilità di utilizzare solo dati fino a giugno 2021. Con il GPT-4, gli utenti avranno accesso a vari plugin che permetteranno a ChatGPT di accedere a Internet, fornire risposte più aggiornate e completare una gamma più ampia di attività. Ciò include plugin di terze parti di servizi come Expedia, che consentiranno a ChatGPT di prenotare un’intera vacanza per voi.

Input visivi
Mentre GPT-3.5 poteva accettare solo input testuali, GPT-4 ha la capacità di analizzare anche le immagini. Gli utenti potranno chiedere a ChatGPT di descrivere una foto, analizzare un grafico o persino spiegare un meme.

Maggiore lunghezza del contesto
Infine, GPT-4 è in grado di gestire quantità di testo molto più grandi e di far proseguire le conversazioni più a lungo. Come riferimento, GPT-3.5 aveva un valore massimo di richiesta di 4.096 token, che equivale a circa 3.000 parole. GPT-4 ha due varianti, una con 8.192 token (6.000 parole) e una con 32.768 token (24.000 parole).


Telegram
Grazie al nostro canale Telegram potete rimanere aggiornati sulla pubblicazione di nuovi articoli di Scenari Economici.

⇒ Iscrivetevi subito


E tu cosa ne pensi?

You must be logged in to post a comment Login

Lascia un commento