NIKON
TOPPS

Google I/O: Gemini ubiqua da Android, alla Ricerca fino al cloud. Il resoconto dell’evento

Due ore di presentazione, tanto è durato il keynote di apertura di Google I/O 2024 che è stato totalmente centrato e dominato da Gemini, il modello di intelligenza artificiale di Big G che domina l’oggi ma soprattutto il 2024 dell’azienda in mokdo trasversale, dalle Search ad Android arrivando a ogni angolo delle piattaforme di Google. Durante l’evento di apertura la parola “AI” è stata citata oltre 120 volte, una volta al minuto: tanto per dare la misura dell’importanza che ha per Google. Che specifica, nelle parole del ceo Sundar Pichai, “sono dici anni che lavoriamo sull’intelligenza artificiale ma ora è arrivato il momento di usarla per proporre esperienze totalmente nuove”.

La versione di Gemini, piattaforma usata da oltre 2 miliardi di persone al mondo, sulla quale Google stravolgerà e amplierà Android, Search, Workspace e tutte le funzioni che gravitano nell’ecosistema è la 1.5 in due: la Pro, che è multimodale e nel corso dell’anno saprà leggere, scrivere, guardare, ascoltare e integrarsi totalmente con mail, messaggi, smartphone, tablet e cloud; la Flash, destinata ad ambienti di utilizzo che prediligono la velocità e la rapidità, perché ha una reattività simile a quella umana. La prima sarà di supporto ai progetti di sviluppo, creazione di video, di immagini e così via. La seconda sarà per l’uso di tutti i giorni, nell’ambito degli strumenti e dei device per la produttività personale e lavorativa.

Google I/O 2024 porta alla prima piena maturazione di Gemini 1.5, che si appresta a entrare ovunque: dall’app a pannelli e prompt contestuali. L’intelligenza artificiale secondo Big G deve essere semplice e risolvere problemi, aiutare e ridurre le differenze, sostenere i portato di disabilità e offrire benefici concreti all’utente. La parola chiave è intuitività: zero complessità, semplicemente si continuano a fare le stesse cose ma meglio, più veloci, più precise e più strutturate, senza il minimo sforzo. L’IA si sobbarca tutta la parte di routine, di analisi e di complessità.

In sintesi, Gooogle ha spiegato che nei prossimi mesi o settimane arriveranno:

espansione dei riepiloghi dell’AI nella Ricerca Google. Con un nuovo modello Gemini personalizzato – in grado di ragionare in più fasi, di pianificare e di utilizzare la multimodalità – combinato con il motore di ricerca best in class, sarete presto in grado di porre domande complesse e in più fasi, di personalizzare i risultati della ricerca e persino di porre domande attraverso video;

“Chiedi a Foto”, che permette di sfruttare le funzionalità multimodali di Gemini per eseguire ricerche nelle foto e nei video personali caricate sul device oppure on-line tramite l’app Foto.

nuovi modi di interagire con Gemini in Workspace. Le funzionalità di Gemini saranno disponibili per un maggior numero di utenti e si integreranno nel pannello laterale di Gmail, Documenti, Drive, Presentazioni e Fogli. Le funzionalità di Gemini saranno aggiunte anche all’app mobile di Gmail.

Gemini per Android, questa è la parte più succulenta. Spiega Google: “Stiamo integrando l’intelligenza artificiale nel sistema operativo Android. Gli studenti ora possono avere un supporto nel fare i compiti cerchiando i problemi con Cerchia e Cerca. Inoltre, l’overlay di Gemini fornirà suggerimenti creativi relativi a ciò che appare sullo schermo (riassunto di un PDF o “chiedi questo video”), mentre TalkBack con Gemini sarà in grado di fornire descrizioni di immagini ancora più dettagliate”.

Gemini AI arriva su Android

Android riceverà una serie di aggiornamenti per sfruttare la Google AI. Come l’espansione di Cerchia e Cerca, che potrà aiutare gli studenti con i compiti, direttamente dai propri smartphone e tablet. Immaginate che uno studente sia in difficoltà con un problema di matematica o fisica. Cerchiando il quesito, riceverà istruzioni dettagliate per risolverlo , senza abbandonare il programma o il foglio informativo digitale su cui sta lavorando. Nei prossimi mesi, Cerchia e Cerca sarà in grado di risolvere problemi ancora più complessi riguardanti formule, diagrammi, grafici e altro ancora. Tutto questo è possibile applicando LearnLM, la nuova famiglia di modelli ottimizzati per l’apprendimento. Cerchia e Cerca è già disponibile su oltre 100 milioni di dispositivi. Dice Google: “Stiamo lavorando per raddoppiare questo numero entro la fine dell’anno e implementare l’esperienza su più dispositivi”.

Gemini su Android è un nuovo tipo di assistente che usa l’AI generativa per aiutare “a essere più creativi e produttivi. Questa esperienza, integrata in Android, sta migliorando sempre più nella comprensione del contesto di ciò che è mostrato sullo schermo e di quale app è in uso. Presto potrete spostare l’overlay di Gemini sopra l’app che avete aperta per usare facilmente Gemini in vari modi. Ad esempio, potete trascinare e rilasciare le immagini generate in Gmail, Google Messaggi e altre app oppure chiedere informazioni su un video di YouTube. Se avete un abbonamento a Gemini Advanced, potete anche chiedere informazioni su un documento PDF per ricevere rapidamente risposte senza dover scorrere tante pagine. Questo aggiornamento verrà rilasciato su centinaia di milioni di dispositivi nei prossimi mesi. Inoltre, continueremo a migliorare Gemini per offrire ancora più suggerimenti dinamici relativi ai contenuti mostrati sullo schermo”.

Android è il primo sistema operativo mobile a includere un modello di base integrato e on-device. Spiega Google: “Con Gemini Nano, siamo in grado di offrirvi rapidamente esperienze e mantenere le vostre informazioni completamente private. Partendo da Pixel nella seconda metà dell’anno, Gemini Nano avrà funzionalità multimodali complete: in questo modo, oltre alla semplice elaborazione degli input di testo, il vostro smartphone potrà non solo capire il testo ma anche comprendere più informazioni di contesto, come luoghi, suoni e linguaggio parlato. Nel corso dell’anno, le funzionalità multimodali di Gemini Nano verranno introdotte su Talkback, aiutando le persone cieche o ipovedenti a ricevere descrizioni più chiare e dettagliate dei contenuti di un’immagine. In media, gli utenti di Talkback incontrano 90 immagini prive di etichetta ogni giorno. Questo aggiornamento aiuterà a fornire le informazioni mancanti, che si tratti di maggiori dettagli sui contenuti di una foto inviata da amici o familiari oppure lo stile e il taglio degli abiti durante lo shopping online. Poiché Gemini Nano è on-device, queste descrizioni vengono fornite rapidamente, anche in assenza di connessione di rete”.

In base a un recente report, durante un periodo di 12 mesi sono stati persi oltre mille miliardi di dollari a causa di frodi. Google sta “testando una nuova funzionalità che usa Gemini Nano per fornire avvisi in tempo reale durante una telefonata, se rileva schemi di conversazione comunemente associati a frodi. Ad esempio, ricevereste un avviso se un rappresentante della banca vi chiedesse di trasferire urgentemente fondi, effettuare un pagamento con una carta regalo o comunicare informazioni personali come PIN o password, poiché si tratta di richieste insolite da parte delle banche. Questa protezione avviene interamente sul dispositivo, così le conversazioni restano private. Condivideremo altre informazioni su questa funzionalità più avanti nel corso dell’anno”.

Il riquadro rosso mostra l'avviso di rilevamento della truffa con un testo che recita “Probabile truffa, le banche non vi chiederanno mai di spostare il vostro denaro per tenerlo al sicuro”. Sotto c'è l'opzione “Dismiss & Continue” o “End Call”.

Ancora Google sulla IA per Android: “Stiamo muovendo i primi passi nella comprensione delle modalità in cui l’AI on-device possa cambiare la funzionalità degli smartphone e continueremo a integrare Google AI in ogni aspetto dell’esperienza sugli smartphone Pixel, Samsung e altri ancora. Se siete sviluppatori, date un’occhiata al blog Android for Developers per scoprire come sviluppare app con i nostri strumenti e modelli di AI più recenti, come Gemini Nano e Gemini in Android Studio”.

Project Astra, l’IA di Gemini si proietta nel futuro di Google

L’obiettivo è arrivare ad avere una IA che dialoga come “computer” in Star Trek o strumenti fantascientifici equivalenti. Al Google I/O Demis Hassabis, capo di Google DeepMind e leader degli sforzi di Google nel campo dell’intelligenza artificiale, ha mostrato una primissima versione di quello che spera diventerà l’assistente universale. Google lo chiama Project Astra ed è un assistente AI multimodale in tempo reale in grado di vedere il mondo, sapere cosa sono le cose e dove le hai lasciate e può rispondere a domande o aiutarti a fare quasi qualsiasi cosa. In un video dimostrativo incredibilmente impressionante che Hassabis giura non sia falsificato o alterato in alcun modo, un utente Astra nell’ufficio londinese di Google chiede al sistema di identificare una parte di un altoparlante, trovare gli occhiali mancanti, rivedere il codice e altro ancora. Funziona tutto praticamente in tempo reale e in modo molto colloquiale.

Andando avanti, dice Hassabis, la storia dell’intelligenza artificiale riguarderà meno i modelli stessi e tutto ciò che possono fare per te. E quella storia riguarda gli agenti: robot che non si limitano a parlare con te ma realizzano effettivamente cose per tuo conto. “La nostra storia negli agenti è più lunga del nostro lavoro modello generalizzato”, afferma, indicando il sistema di gioco AlphaGo di quasi dieci anni fa. Alcuni di questi agenti, immagina, saranno strumenti semplicissimi per portare a termine le cose, mentre altri saranno più simili a collaboratori e compagni. “Penso che a un certo punto potrebbe anche dipendere dalle preferenze personali”, dice, “e dalla comprensione del contesto”.

Astra, afferma Hassabis, è molto più vicino rispetto ai prodotti precedenti al modo in cui dovrebbe funzionare un vero assistente IA in tempo reale. Quando Gemini 1.5 Pro, la più recente versione del modello linguistico mainstream di Google, fu pronto, Hassabis afferma di sapere che la tecnologia di base era abbastanza buona perché qualcosa come Astra iniziasse a funzionare bene. Ma il modello è solo una parte del prodotto. “Avevamo elementi di questo tipo sei mesi fa”, afferma, “ma uno dei problemi era proprio la velocità e la latenza. Senza questo, l’usabilità non è del tutto raggiunta”. Per sei mesi, quindi, accelerare il sistema è stato uno dei compiti più importanti del team. Ciò significava migliorare il modello ma anche ottimizzare il resto dell’infrastruttura affinché funzionasse bene e su larga scala. Fortunatamente, dice Hassabis ridendo, “questo è qualcosa che Google fa molto bene!”

Come funzioneranno esattamente questi assistenti e come li utilizzerai? Nessuno lo sa con certezza, nemmeno Hassabis. Una cosa su cui Google si sta concentrando in questo momento è la pianificazione del viaggio: ha creato un nuovo strumento per utilizzare Gemini per creare un itinerario per le tue vacanze che puoi quindi modificare insieme all’assistente. Alla fine ci saranno molte più funzionalità del genere. Hassabis afferma di essere ottimista su telefoni e occhiali come dispositivi chiave per questi agenti, ma afferma anche che “probabilmente c’è spazio per alcuni fattori di forma interessanti”. Astra è ancora in una fase iniziale di prototipo e rappresenta solo un modo in cui potresti voler interagire con un sistema come Gemini. Il team di DeepMind sta ancora ricercando il modo migliore per riunire modelli multimodali e come bilanciare modelli generali ultra-enormi con modelli più piccoli e più mirati.

Google sta ridisegnando la Search con Gemini perché sia sempre più propositiva

Il futuro della ricerca secondo Google è finalmente diventato realtà. Dopo un anno dalla promessa dell’azienda che la Search sarebbe cambiata. Così ecco che compare “AI Overviews”, precedentemente note come Search Generative Experience, o SGE, per gli utenti negli Stati Uniti e presto in tutto il mondo. Ben presto, miliardi di persone vedranno un riepilogo generato dall’intelligenza artificiale nella parte superiore di molti dei loro risultati di ricerca. E questo è solo l’inizio di come l’intelligenza artificiale sta cambiando la ricerca. “Ciò che vediamo con l’intelligenza artificiale generativa è che Google può fare più ricerche per te”, afferma Liz Reid, la nuova responsabile della ricerca di Google, che negli ultimi anni ha lavorato su tutti gli aspetti della ricerca basata sull’intelligenza artificiale. “La ricerca può richiedere molto duro lavoro, quindi puoi concentrarti sulle parti che puoi fare per portare a termine le cose o sulle parti dell’esplorazione che trovi entusiasmanti”.

La Search guadagna anche una nuova funzionalità in Lens che consente di effettuare ricerche catturando un video. C’è un nuovo strumento di pianificazione progettato per generare automaticamente un itinerario di viaggio o un piano alimentare basato su una singola query. C’è un nuovo modo basato sull’intelligenza artificiale per organizzare la pagina dei risultati stessa in modo che quando vuoi vedere ristoranti in una nuova città, potrebbe offrirti un gruppo per un appuntamento serale e un gruppo per un incontro di lavoro senza che tu debba nemmeno chiedere. Si tratta a dir poco di una integrazione dell’intelligenza artificiale totale nella ricerca. Google sta utilizzando la sua intelligenza artificiale Gemini per capire cosa stai chiedendo, sia che tu stia digitando, parlando, scattando una foto o girando un video. Utilizza un nuovo modello Gemini specializzato per riassumere il web e mostrarti una risposta. Utilizza persino Gemini per progettare e popolare la pagina dei risultati. 

Uno screenshot dei risultati di ricerca di Google che mostrano ristoranti degni di anniversario.

Tuttavia, non tutte le ricerche necessitano di così tanta intelligenza artificiale, dice Reid, e non tutte le ricerche la otterranno. “Se vuoi semplicemente navigare verso un URL, basta digitarlo. Non è davvero vantaggioso aggiungere l’intelligenza artificiale”. Secondo la manager, Gemini possono essere più utili è in situazioni più complesse, il genere di cose per le quali dovresti fare un sacco di ricerche o non andare mai su Google in primo luogo. Un esempio che piace a Reid è la ricerca locale. Con Gemini, dice, “possiamo fare cose come ‘Trova il miglior yoga o… studio di pilates a Boston valutato con oltre quattro stelle a mezz’ora a piedi da Beacon Hill.’” Forse, continua, vuoi anche dettagli su quale ha le migliori offerte per chi è alle prime armi. “In questo modo puoi ottenere informazioni combinate, attraverso il Knowledge Graph e sul Web, e metterle insieme.”

Questa combinazione di Knowledge Graph e AI (il vecchio strumento di ricerca di Google e quello nuovo) è fondamentale per Reid e il suo team. Alcune cose nella ricerca sono un problema risolto, come i risultati sportivi: “Se vuoi solo il punteggio, il prodotto funziona abbastanza bene”, dice Reid. Il lavoro di Gemini, in questo caso, è assicurarsi di ottenere il punteggio, non importa quanto stranamente tu lo chieda. “Puoi pensare di espandere i tipi di domande che potrebbero attivare con successo i punteggi”, dice, “ma vuoi comunque i dati sportivi canonici”.

Uno screenshot di una panoramica dell'intelligenza artificiale di Google che spiega la differenza tra tuoni e fulmini.

Per gran parte dell’ultimo decennio, Google ha cercato di cambiare il modo in cui effettui le ricerche. È iniziato come una casella in cui digiti le parole chiave; ora, vuole essere un essere onnisciente che puoi interrogare in qualsiasi modo tu voglia e ottenere risposte in qualunque modo ti sia più utile. “Aumenti la ricchezza e permetti alle persone di porre la domanda che farebbero naturalmente”, afferma Reid. Per Google, questo è il trucco per convincere ancora più persone a porre ancora più domande, il che fa guadagnare a Google ancora più soldi. Per gli utenti, potrebbe significare un modo completamente nuovo di interagire con Internet: meno digitazioni, meno schede e molte più chat con un motore di ricerca.

Google Veo, la IA per videomaker

Google risponde a OpenAI: dopo Sora ecco Veo. Veo è il modello di intelligenza artificiale generativa che produce video con risoluzione 1080p di “alta qualità” della durata di un minuto in un’ampia varietà di stili visivi e cinematografici. Veo ha “una comprensione avanzata del linguaggio naturale”, secondo il comunicato stampa di Google, consentendo al modello di comprendere termini cinematografici come “timelapse” o “riprese aeree di un paesaggio”. Gli utenti possono indirizzare l’output desiderato utilizzando testo, immagini o istruzioni basate su video e Google afferma che i video risultanti sono “più coerenti e coerenti”, descrivendo movimenti più realistici per persone, animali e oggetti durante le riprese.

Una tartaruga generata dall'intelligenza artificiale che nuota oltre una barriera corallina.

Come nel caso di molte di queste anteprime di modelli di intelligenza artificiale, la maggior parte delle persone che sperano di provare Veo da sole dovranno probabilmente aspettare un po’. Google afferma che sta invitando registi e creator selezionati a sperimentare il modello per determinare come può supportare al meglio i creativi e si baserà su queste collaborazioni per garantire che “i creatori abbiano voce in capitolo” nel modo in cui vengono sviluppate le tecnologie AI di Google.

Un video clip generato dall'intelligenza artificiale di un cavallo cavalcato da un cowboy davanti al tramonto.

Alcune funzionalità di Veo saranno inoltre rese disponibili a “creatori selezionati nelle prossime settimane” in un’anteprima privata all’interno di VideoFX: puoi iscriverti alla lista d’attesa qui per avere la possibilità di provarle in anticipo. Altrimenti, Google prevede anche di aggiungere alcune delle sue funzionalità a YouTube Shorts “in futuro”. Questo è uno dei numerosi modelli di generazione video che Google ha prodotto negli ultimi anni, da Phenaki e Imagen Video – che producevano video clip grezzi e spesso distorti – al modello Lumiere presentato nel gennaio di quest’anno. Quest’ultimo è stato uno dei modelli più impressionanti visti finora ed è comparabile a Sora. Che però sta evolvendo nella release Hollywood, nome con cui OpenAI vuole sottolineare che sta puntando alla qualità.

Gemini Nano in arrivo su Chrome

L’integrazione di Gemini Nano sarà effettiva con Chrome 126 per pc. Google afferma che utilizzerà LLM per potenziare le proprie funzionalità di intelligenza artificiale e accelerare strumenti come “Aiutami a scrivere”. Annunciata nel febbraio 2024 come parte di Chrome 122, la funzionalità utilizza l’intelligenza artificiale generativa per aiutarti a redigere e-mail, testi e altro ancora. Con l’elaborazione sul dispositivo, “Aiutami a scrivere” dovrebbe diventare più veloce ed efficiente nell’analisi e nella generazione di contenuti. Il modello sarà scaricato automaticamente in background per gli utenti Chrome che utilizzano attivamente “Aiutami a scrivere”, con Google che ne espanderà la disponibilità nel tempo. Ma date le dimensioni di LLM, sarà un download su richiesta.

Oltre ad “Aiutarmi a scrivere”, gli sviluppatori possono utilizzare Gemini Nano in Chrome per potenziare funzionalità come Traduci, Sottotitoli e Trascrivi. Google sta parlando con altri produttori di browser e presto aprirà un programma di anteprima per gli sviluppatori. Gemini aiuterà gli sviluppatori a eseguire il debug dei problemi in Chrome DevTools più velocemente.

Gemini arriverà anche agli approfondimenti della Console Chrome DevTools. Ciò consentirà al modello AI di spiegare e fornire possibili soluzioni di debug per gli errori che stai tentando di risolvere, incluso il codice scritto da altri. Google vuole che gli sviluppatori creino app web basate sull’intelligenza artificiale, quindi sta introducendo due nuove API. La prima è l’API Speculation Rules, che potrebbe “velocizzare notevolmente la navigazione” precaricando e prerenderizzando le pagine dall’interno di un sito Web in background. La prossima è l’API View Transitions, che viene lanciata oggi come parte di Chrome Canary 126. Fornirà un’esperienza di transizione fluida quando si passa da una pagina all’altra. Google ritiene che queste API consentiranno agli sviluppatori di creare app Web basate sull’intelligenza artificiale a pagina singola.

L’evoluzione di Gemini nel 2024

Spiega Google: “Introdurremo Gemini 1.5 Pro agli abbonati di Gemini Advanced in più di 35 lingue, insieme a una finestra contestuale da 1 milione di token: la più lunga di qualsiasi chatbot consumer disponibile al mondo. Ciò significa che è in grado di comprendere più informazioni che mai, come per esempio un PDF di 1500 pagine e, presto, 30.000 righe di codice e un video di un’ora. Gli abbonati a Gemini Advanced avranno presto accesso anche a Live, una nuova esperienza di conversazione mobile. Con Live è possibile parlare con Gemini scegliendo tra diverse voci dall’audio naturale. È possibile parlare al proprio ritmo e persino interrompere facendo domande, rendendo le conversazioni più intuitive. A partire da oggi Gemini Advanced è disponibile in lingua italiana”.

Non solo, a Mountain View stanno “lavorando anche ai modelli del futuro, abbiamo condiviso maggiori dettagli su Gemini 1.5 Flash, un modello pensato per essere veloce e efficiente sulla base del feedback degli utenti, con latenze più basse; e Project Astra, la nostra visione per la prossima generazione di assistenti AI, un agente reattivo in grado di comprendere e reagire al contesto delle conversazioni. Inoltre, abbiamo lavorato a stretto contatto con la comunità creativa per esplorare come l’IA generativa possa supportare al meglio il processo creativo e per assicurarci che i nostri strumenti di IA siano il più utili possibile in ogni fase”.

Come detto, per i creativi c’è Veo (“il nostro modello più capace pensato per generare video ad alta definizione”) e Imagen 3 (“il nostro modello text-to-image di altissima qualità”). Google sta anche condividendo “nuove registrazioni demo – con artisti di tutto il mondo – create con il nostro Music AI Sandbox”.

Tutto ciò si affida a un’infrastruttura rinnovata e potenziata, anche per perfezionare e migliorare l’addestramento dei modelli. Google punta sulla sesta generazione delle TPU denominata Trillium, che offre un miglioramento di 4,7 volte delle prestazioni di calcolo per chip rispetto alla generazione precedente, TPU v5e. Trillum sarà disponibile via cloud nel corso dei prossimi mesi. Spiega l’azienda: “Un’innovazione audace deve essere sostenuta da un approccio responsabile. Per questo motivo stiamo sviluppando una tecnica all’avanguardia che chiamiamo AI-assisted red teaming, che si ispira alle scoperte di Google DeepMind nel campo dei giochi, come AlphaGo, ed espandendo le nostre innovazioni tecniche di watermarking, come SynthID, in due nuove modalità – testo e video – in modo che i contenuti generati dall’IA siano più facili da identificare”.

Conclude Google: “Utilizzando la potenza di Gemini, intendiamo rendere l’IA utile per tutti. La mission di Google è quella di organizzare le informazioni del mondo attraverso ogni input, rendendole accessibili tramite qualsiasi output e combinare le informazioni del mondo con le informazioni del mondo, in un modo che sia veramente utile per voi. Gemini ci aiuterà a raggiungere questo obiettivo”.

TOPPS
GAMEPEOPLE
DIFUZED
FIZZ
PALADONE
OTL
CROCKPOT
TOPPS
SUBSONIC