NIKON
TOPPS

OpenAI potenzia (e non poco) ChatGPT: per tutti arriva GPT-4o che vede, parla e scrive

GPT-4o è la nuova generazione di GPT-4 che corregge, migliora e potenzia la piattaforma finora non tanto gradita a Sam Altman. “o” sta per “omni” e indica inequivocabilmente la capacità di GPT-4o di operare su più canali: testo, voce, video. Senza soluzione di continuità e con una naturalezza di linguaggio e di reazione ancora più precisa e interattiva. Le demo mostrate durante l’evento Spring Event di OpenAI hanno dimostrato un netto miglioramento del modello di intelligenza artificiale, sempre più preciso e “umano” (la parola è grande, però per la prima volta ci ha ricordato questo soprattutto nelle interazioni vocali). GPT-4o è un passo avanti verso un’interazione uomo-computer molto più naturale: accetta come input qualsiasi combinazione di testo, audio e immagine e genera qualsiasi combinazione di output di testo, audio e immagine. Spiega OpenAI: “Può rispondere agli input audio in soli 232 millisecondi, con una media di 320 millisecondi, che è simile al tempo di risposta umano in una conversazione. Eguaglia le prestazioni di GPT-4 Turbo su testo in inglese e codice, con un miglioramento significativo su testo in lingue diverse dall’inglese, oltre ad essere molto più veloce e più economico del 50% nell’API. GPT-4o è particolarmente migliore nella comprensione della visione e dell’audio rispetto ai modelli esistenti”.

Prima di GPT-4o, ossia finora, si è potuto utilizzare la modalità vocale per parlare con ChatGPT con una latenza media di 2,8 secondi (GPT-3.5) e 5,4 secondi (GPT-4). Spiega OpenAI: “Per raggiungere questo obiettivo, la modalità vocale è una pipeline di tre modelli separati: un modello semplice trascrive l’audio in testo, GPT-3.5 o GPT-4 accetta testo e genera testo e un terzo modello semplice riconverte quel testo in audio. Questo processo significa che la principale fonte di intelligenza, GPT-4, perde molte informazioni: non può osservare direttamente il tono, più altoparlanti o rumori di fondo e non può emettere risate, canti o esprimere emozioni. Con GPT-4o, abbiamo addestrato un unico nuovo modello end-to-end su testo, visione e audio, il che significa che tutti gli input e gli output vengono elaborati dalla stessa rete neurale. Poiché GPT-4o è il nostro primo modello che combina tutte queste modalità, stiamo ancora solo esplorando la superficie dell’esplorazione di ciò che il modello può fare e dei suoi limiti”.

openai chatgpt gpt-4o igizmo

Come misurato sui benchmark tradizionali, GPT-4o raggiunge prestazioni di livello GPT-4 Turbo sull’intelligenza di testo, ragionamento e codifica, stabilendo al contempo nuovi limiti elevati sulle capacità multilingue, audio e visive.

Valutazione del testo

Prestazioni ASR audio: GPT-4o migliora notevolmente le prestazioni di riconoscimento vocale rispetto a Whisper-v3 in tutte le lingue, in particolare per le lingue con risorse inferiori.

Prova del grafico 2

Prestazioni di traduzione audio: GPT-4o stabilisce un nuovo stato dell’arte nella traduzione vocale e supera Whisper-v3 sul benchmark MLS.

gpt-40-08 luce

M3Exam – Il benchmark M3Exam è sia una valutazione multilingue sia visiva, composta da domande a scelta multipla provenienti da test standardizzati di altri paesi che a volte includono figure e diagrammi. GPT-4o è più potente di GPT-4 su questo benchmark in tutte le lingue.

Risultati Zero-Shot dell'esame M3

Valutazioni di comprensione della vista: GPT-4o raggiunge prestazioni all’avanguardia sui parametri di riferimento della percezione visiva.

Valutazioni di comprensione della vista

OpenAI mostra anche un grafico in cui 20 lingue sono state scelte come rappresentative della compressione del nuovo tokenizzatore tra diverse famiglie linguistiche. Ecco l’elenco.

Gujarati 4,4 volte meno token (da 145 a 33)
Telugu 3,5 volte meno token (da 159 a 45)
Tamil 3,3 volte meno token (da 116 a 35)
Marathi 2,9 volte meno token (da 96 a 33)
Hindi 2,9 volte meno token (da 90 a 31)
Urdu 2,5 volte meno token (da 82 a 33)
Arabo 2,0 volte meno token (da 53 a 26)
Persiano 1,9 volte meno token (da 61 a 32)
Russo 1,7 volte meno token (da 39 a 23)
Coreano 1,7 volte meno token (da 45 a 27)
Vietnamita 1,5 volte meno token (da 46 a 30)
Cinese 1,4 volte meno token (da 34 a 24)
Token giapponesi 1,4 volte in meno (da 37 a 26)
Turco 1,3 volte meno token (da 39 a 30)
Italiano 1,2 volte meno token (da 34 a 28)
Tedesco 1,2 volte meno gettoni (da 34 a 29)
Spagnolo 1,1x token in meno (da 29 a 26)
Portoghese 1,1 volte meno token (da 30 a 27)
Francese 1,1 volte meno token (da 31 a 28)
Inglese 1,1x meno token (da 27 a 24)

GPT-4o ha una sicurezza integrata fin dalla progettazione in tutte le modalità, attraverso tecniche come il filtraggio dei dati di addestramento e il perfezionamento del comportamento del modello attraverso la post-formazione. OpenAI ha creato nuovi sistemi di sicurezza per fornire guardrail sulle uscite vocali. Spiega l’azienda: “Abbiamo valutato GPT-4o secondo il nostro Quadro di preparazione e in linea con i nostri impegni volontari . Le nostre valutazioni su sicurezza informatica, CBRN, persuasione e autonomia del modello mostrano che GPT-4o non ottiene un punteggio superiore al rischio medio in nessuna di queste categorie. Questa valutazione ha comportato l’esecuzione di una serie di valutazioni automatizzate e umane durante tutto il processo di formazione del modello. Abbiamo testato sia la versione pre-attenuazione della sicurezza che quella post-attenuazione della sicurezza del modello, utilizzando suggerimenti e ottimizzazioni personalizzate, per ottenere meglio le funzionalità del modello”.

openai chatgpt gpt-4o igizmo

GPT-4o è stato anche sottoposto a un ampio team esterno con oltre 70 esperti in settori quali psicologia sociale, pregiudizi, equità e disinformazione per identificare i rischi introdotti o amplificati dalle modalità appena aggiunte. OpenAI ha utilizzato questi insegnamenti per sviluppare i nostri interventi di sicurezza al fine di migliorare la sicurezza dell’interazione con GPT-4o. E l’azienda promette che continuerà a mitigare i nuovi rischi non appena verranno scoperti.

Ancora OpenA: “Riconosciamo che le modalità audio di GPT-4o presentano una serie di nuovi rischi. Oggi pubblichiamo pubblicamente input di testo e immagini e output di testo. Nelle prossime settimane e mesi lavoreremo sull’infrastruttura tecnica, sull’usabilità tramite post-formazione e sulla sicurezza necessaria per rilasciare le altre modalità. Ad esempio, al momento del lancio, gli output audio saranno limitati a una selezione di voci preimpostate e rispetteranno le nostre politiche di sicurezza esistenti. Condivideremo ulteriori dettagli riguardanti l’intera gamma di modalità GPT-4o nella prossima scheda di sistema. Attraverso i nostri test e l’iterazione del modello, abbiamo osservato diverse limitazioni esistenti in tutte le modalità del modello, alcune delle quali sono illustrate di seguito”.

GPT-4o: disponibilità per tutti, anche per gli account free

Conclude OpenAI: “GPT-4o è il nostro ultimo passo verso l’ampliamento dei confini del deep learning, questa volta nella direzione dell’usabilità pratica. Negli ultimi due anni abbiamo dedicato molti sforzi al miglioramento dell’efficienza a ogni livello dello stack. Come primo frutto di questa ricerca, siamo in grado di rendere disponibile un modello di livello GPT-4 in modo molto più ampio. Le funzionalità di GPT-4o verranno implementate in modo iterativo (con accesso esteso al Red Team a partire da oggi).  Le funzionalità di testo e immagini di GPT-4o iniziano a essere implementate oggi in ChatGPT. Stiamo rendendo GPT-4o disponibile nel livello gratuito e per gli utenti Plus con limiti di messaggi fino a 5 volte più alti. Nelle prossime settimane implementeremo una nuova versione della modalità vocale con GPT-4o in versione alpha all’interno di ChatGPT Plus. Gli sviluppatori ora possono anche accedere a GPT-4o nell’API come modello di testo e visione. GPT-4o è 2 volte più veloce, costa la metà e ha limiti di velocità 5 volte più alti rispetto a GPT-4 Turbo. Prevediamo di lanciare il supporto per le nuove funzionalità audio e video di GPT-4o a un piccolo gruppo di partner fidati nell’API nelle prossime settimane”.

TOPPS
GAMEPEOPLE
DIFUZED
FIZZ
PALADONE
OTL
CROCKPOT
TOPPS
SUBSONIC