Gemini, il nuovo modello di intelligenza artificiale di Google, ha ricevuto pareri contrastanti dopo il suo grande debutto, ma gli utenti, potrebbero aver meno fiducia nella tecnologia o nell’integrità dell’IA dopo aver scoperto che la demo più impressionante di mai vista era praticamente falsa.

Un video intitolato “Hands-on with Gemini: Interacting with multimodal AI” ha raggiunto due milioni di visualizzazioni in pochissimi giorni, e non è difficile capirne il motivo. La demo è impressionante “mette in evidenza alcune interazioni con l’IA chiamata Gemini“, mostrando come il modello multimodale (ovvero, che comprende e mescola linguaggio e abilità visive) possa essere flessibile e reattivo a una varietà di input.

Per cominciare, narra l’evoluzione di uno schizzo di un’anatra da un graffio a un disegno completo, definendolo un colore irrealistico, poi esprime sorpresa vedendo un’anatra blu giocattolo. Risponde poi a diverse domande vocali su quel giocattolo, quindi la demo passa ad altre mosse di esibizione, come seguire una palla dentro una tazza, riconoscere gesti di ombre, riordinare schizzi di pianeti, e così via.

È tutto molto reattivo, anche se il video avverte che “la latenza è stata ridotta e le risposte di Gemini sono state accorciate“. Quindi, una titubanza qui e una risposta troppo lunga là, hanno destato alcuni sospetti.

Gemini: non è tutto oro quello che luccica.

Nel complesso, è stata una dimostrazione piuttosto sbalorditiva nel campo della comprensione multimodale. Solo un problema: il video non è reale.

Abbiamo creato la demo catturando filmati per testare le capacità di Gemini su una vasta gamma di sfide. Poi abbiamo sollecitato Gemini utilizzando fotogrammi di immagini fisse dai filmati, e dando dei comandi tramite testo. (Parmy Olson di Bloomberg è stata la prima a segnalare la discrepanza.)

Quindi, anche se Gemini potrebbe fare le cose mostrate da Google nel video, non le ha fatte veramente, e forse non avrebbe potuto farle dal vivo nel modo in cui hanno lasciato intendere. In realtà, è stata una serie di prompt di testo attentamente regolati con immagini fisse, chiaramente selezionate e accorciate per rappresentare in modo erroneo come avvenga effettivamente l’interazione.

Da un lato, Gemini sembra davvero aver generato le risposte mostrate nel video. Ma gli spettatori sono ingannati sulla velocità, l’accuratezza e la modalità fondamentale di interazione con il modello messo a video.

Ad esempio, al minuto 2:45 nel video, una mano fa una serie di gesti in silenzio. Gemini risponde prontamente: “So cosa stai facendo! Stai giocando a Carta, forbice, sasso!” Ma la prima cosa nella documentazione della capacità è che il modello non ragiona in base alla visione di singoli gesti. Deve vedere tutti e tre i gesti contemporaneamente e deve essere sollecitato così:

  • Domanda:” Cosa pensi che stia facendo? Suggerimento: È un gioco.”
  • Risposta: “Stai giocando a Carta, forbice, sasso.”

Nonostante la somiglianza, non sono interazioni uguali. Sembrano interazioni fondamentalmente diverse, una valutazione intuitiva e senza parole che cattura un’idea astratta al volo.

gemini-ia-google-1

Foto by Google

In seguito, tre post-it con disegni del Sole, di Saturno e della Terra vengono messi sulla superficie.

  • Domanda”: È questo l’ordine corretto?”
  • Risposta di Gemini, “No, l’ordine corretto è Sole, Terra, Saturno.”

Ma in realtà  la richiesta era: “È questo l’ordine giusto? Considera la distanza dal sole e spiega il tuo ragionamento.

gemini-ia-google-2

Foto by Google

A questo punto mi viene da chiedere: Gemini ha indovinato? O ha sbagliato e ha avuto bisogno di un po’ di aiuto per produrre una risposta che potesse essere messa in un video? Ha riconosciuto i pianeti, o ha avuto bisogno di aiuto anche lì?

Sempre nel video, una palla di carta viene posta sotto una tazza che il modello rileva e segue istantaneamente e apparentemente in modo intuitivo. In realtà non funziona così, non solo l’attività deve essere spiegata, ma anche il modello deve essere addestrato (anche se rapidamente e utilizzando il linguaggio naturale) per seguire la palla e scoprire dove si trova. Ora, se il video avesse detto all’inizio, “Questa è una rappresentazione stilizzata delle interazioni testate dai nostri ricercatori“, nessuno avrebbe battuto ciglio, ma il video si intitola “Hands-on with Gemini” e quando dicono che mostra “le nostre interazioni preferite“, implica che le interazioni che vediamo siano reali, e in tutto questo, non ci viene nemmeno detto quale modello di Gemini si stia utilizzando se il Pro, ovvero quello che sarà disponibile agli sviluppatori o se la versione Ultra che debutterà il prossimo anno.

Forse dovremmo presumere che tutte le capacità nelle demo di Google AI siano esagerate per effetto. Ma nonostante includa alcune parti reali, il video semplicemente non riflette la realtà. Google afferma che il video “mostra risultati reali di Gemini“, il che è vero ma, il montaggio crea delle aspettative diverse mostrando delle capacità dell’AI di Google davvero lontane dalla realtà. Poi attenzione, magari tra qualche settimana, quando Gemini Pro sarà disponibile a tutti gli sviluppatori, verremo smentiti e saremo difronte a qualcosa di pazzesco e che supera fortemente le abilità di ChatGPT. In questo momento però, il video mostra qualcosa che è vero quindi prendiamo tutto con le pinze.