Lo sviluppo dell’intelligenza artificiale (IA) ha fatto grandi progressi in un tempo relativamente breve, ma c’è ancora molto da fare.
Prodotti all’avanguardia come ChatGPT e Copilot offrono capacità impressionanti, ma hanno anche molte limitazioni.
La scorsa settimana, Reuters ha riferito che OpenAI, il creatore di ChatGPT, stava lavorando a un nuovo approccio sui modelli di intelligenza artificiale nell’ambito del progetto “Strawberry“, noto anche come “Q*“, che dovrebbe consentire ai modelli linguistici di grandi dimensioni (LLM) di migliorare il loro ragionamento.
Sebbene la fonte a conoscenza della questione non abbia confermato la data di rilascio di Strawberry, ha condiviso la documentazione interna che fornisce alcuni dettagli di base sul progetto.
- Altro...
Cosa sappiamo del progetto AI “Strawberry” di OpenAI
Al momento le informazioni su Strawberry sono scarse, ma uno dei documenti esaminati da Reuters descrive un progetto che utilizza i modelli Strawberry per navigare autonomamente in Internet ed eseguire “ricerche approfondite”.
Ciò comporterebbe la navigazione in rete, l’estrazione di informazioni da articoli e altri contenuti, che Strawberry potrebbe poi utilizzare per migliorare continuamente il proprio ragionamento nel tempo.
Vale la pena notare che una delle fonti di Reuters ha osservato che Strawberry presenta delle somiglianze con la tecnica Self-Taught Reasoner (STaR ) sviluppata a Stanford nel 2022. Con STaR, un modello può creare iterativamente i propri dati di addestramento e diventare più intelligente nel tempo.
La fonte ha anche affermato che i documenti interni suggeriscono che OpenAI stia progettando Strawberry per eseguire compiti a lungo termine più complessi, ben oltre le semplici richieste che vengono attualmente fatte a ChatGPT.
Questa capacità darebbe al modello una maggiore indipendenza rispetto agli LLM di oggi.
Alon Yamin, co-fondatore e CEO di Copyleaks, ha dichiarato:
“Il progetto ‘Strawberry’ di OpenAI segna un progresso significativo nelle capacità dell’intelligenza artificiale, rivoluzionando potenzialmente il modo in cui interagiamo con la tecnologia dell’intelligenza artificiale generativa e il modo in cui questa risolve problemi complessi. Le implicazioni per la ricerca, lo sviluppo di software e persino la scoperta scientifica sono immense. Tuttavia, mentre andiamo avanti, dobbiamo continuare a dare priorità all’attuazione di misure di salvaguardia globali. Queste misure di salvaguardia garantiranno che i progressi dell’IA come “Strawberry” siano gestiti in modo responsabile, mitigando i rischi potenziali e massimizzando il loro impatto positivo sulla società”.
L’importanza del progetto Strawberry
Se le informazioni riportate sono corrette, ciò indica che lo sviluppo LLM di OpenAI si sta evolvendo in modo tale che i suoi modelli di intelligenza artificiale sono in grado di apprendere in modo più indipendente e di eseguire compiti complessi in più fasi.
I modelli che utilizzano questo approccio saranno in grado di automatizzare una gamma più ampia di attività rispetto agli attuali LLM, che richiedono un elevato livello di supervisione umana.
Ad esempio, per utilizzare ChatGPT, gli utenti non devono solo inserire richieste, ma anche controllarne i risultati per assicurarsi che non vi siano allucinazioni o affermazioni errate.
In effetti, gli LLMS non pensano in modo autonomo come gli esseri umani, ma sono addestrati per apprendere i modelli del linguaggio umano e prevedere le risposte in base ai dati.
Di conseguenza, non pensano come farebbe un essere umano e non hanno il concetto di buon senso o logica.
Non entusiasmiamoci troppo per Strawberry
Non c’è dubbio che Strawberry porterà alcune innovazioni sul mercato, ma in questa fase è importante non farsi prendere troppo la mano.
Dopotutto, prima del lancio di GPT-4o, si vociferava spesso dell’uscita di GPT-5.
Sebbene GPT-4o sia stato un solido ingresso multimodale nel mercato LLM, non è stato in grado di distinguersi da altri modelli linguistici popolari come Claude 3 Opus/Sonnet o Google Gemini in termini di prestazioni.
Detto questo, se Strawberry svelerà nuove tecniche in grado di migliorare le capacità di ragionamento degli LLMS, allora sarà una valida aggiunta al mercato, così come lo sono state la Retrieval Augmented Generation (RAG) e altre tecniche.
Le implicazioni a lungo termine di Strawberry
Fino a quando non avremo una conferma da OpenAI, in un modo o nell’altro, è difficile stabilire le implicazioni a lungo termine di Strawberry. Il progetto è legittimo? Potrebbe essere messo da parte?
Ma se le informazioni disponibili fossero esatte, indicherebbero che gli LLM si stanno evolvendo oltre l’assistenza umana verso un ruolo più autonomo, con la capacità di creare i propri set di dati per l’addestramento ed eseguire compiti con un’assistenza minima.
La capacità di automatizzare la creazione di dati di addestramento potrebbe alleggerire il carico di lavoro dei ricercatori di IA e machine learning (ML), che in genere hanno bisogno di gestire e aggiornare i set di dati, mentre la capacità di gestire automazioni complesse aprirà le porte a una gamma più ampia di casi d’uso in aree come lo sviluppo di software.
Un simile approccio potrebbe però anche aumentare i rischi. Se i modelli fossero più indipendenti, ci sarà inevitabilmente meno supervisione e controllo da parte dell’uomo.
Ciò solleva la questione se i dati di addestramento generati dall’IA e le azioni autonome possano essere mantenuti come parte di uno sviluppo responsabile dell’Intelligenza Artificiale.
Strawberry sarebbe in grado di rispondere a domande più complesse e rappresenterebbe un piccolo passo nel percorso di OpenAI verso lo sviluppo dell’Intelligenza Generale Artificiale (AGI), un tipo di IA le cui prestazioni sarebbero paragonabili a quelle dell’intelligenza umana.
Leggi anche: Chi sono i concorrenti di ChatGPT?
Sora AI: l’intelligenza artificiale generativa di video di Open AI
Oltre a Strawberry, Open AI sta lavorando a Sora AI, un’intelligenza artificiale generativa in grado di produrre video di qualità cinematografica partendo da una semplice descrizione.
Non conosciamo ancora la data di lancio ufficiale di Sora AI, ma si stima che dovrebbe essere disponibile entro la fine del 2024.
Durante un’intervista del 13 marzo 2024 Mira Murati, Chief Technology Officer di OpenAI, ha affermato che “Sora sarà disponibile al grande pubblico quest’anno”.
Ricordiamo che Mira Murati è un ingegnere informatico entrato a far parte del team OpenAI nel 2018, dopo aver ricoperto posizioni chiave in diverse aziende come Tesla, Zodiac Aerospace e la startup Leap Motion.
Attualmente ricopre il ruolo di Chief Technology Officer presso OpenAI e partecipa attivamente allo sviluppo dei principali prodotti dell’azienda come ChatGPT, Dall-E, Codex e Sora.
Alcune indiscrezioni prevedono un lancio di Sora AI dopo le elezioni presidenziali americane che si svolgeranno nel novembre 2024.
A tal proposito, sappiamo anche che Sora AI è stata appositamente addestrata non per generare video contenenti i volti dei politici, in modo da non destabilizzare le elezioni americane e allo stesso tempo attirare l’ira della FEC, la commissione incaricata di organizzare le elezioni negli USA.
Sora AI: quali caratteristiche avrà la nuova AI di Open AI?
Si prevede che Sora AI sarà in grado di offrire funzionalità di fascia alta nel campo dell’intelligenza artificiale generativa video, come:
- Generazione automatica di un video da una semplice descrizione e/o da un’immagine.
- Produzione di video adattati alla risoluzione dello schermo dell’utente, con dimensioni che vanno da un’ampia risoluzione di 1920×1080 pixel a 1080×1920 pixel.
- Generazione di video ultra realistici.Modifica di un prompt da un video già prodotto.
- Estendere la durata di un video già esistente, cosa che dovrebbe rivelarsi particolarmente utile ad esempio nel settore cinematografico.
- Video ultra dettagliati fino a un minuto.
Secondo Mira Murati, produrre un video di cinque secondi richiederà solo pochi minuti.
Il canale YouTube di AI Foundations (182.000 iscritti) ha presentato in anteprima alcune delle principali funzionalità di questo strumento:
Vale la pena ricordare che Sora AI non è ancora disponibile e che solo un piccolo gruppo di addetti ai lavori ha già potuto testare lo strumento e tutte le sue funzionalità.
Tuttavia, Sora AI non è l’unica applicazione sul mercato specializzata nella generazione automatica di video.
Gen-2 (Runway AI), ad esempio, è in grado di trasformare un testo, un’immagine o una traccia audio in un video ultra dettagliato.
Lo strumento utilizza la tecnologia Stable Diffusion per la creazione di video, mentre Sora AI è basato su DALL-E. Ogni video è limitato a soli 4 secondi, rispetto ai 60 secondi massimi di Sora AI.
Sebbene i primi risultati sembrino molto promettenti, Gen-2 presenta ancora grossi problemi, similmente al suo concorrente Sora AI, come ad esempio la deformazione degli oggetti durante il movimento della fotocamera.
Un’altra versione di questo strumento, Gen-3 Runway, è stata distribuita il 1 luglio 2024 in versione alpha ed è accessibile solo agli utenti professionali (abbonati).
Di gran lunga più performante, questa versione offre una migliore risoluzione ed ha corretto alcuni problemi criticati nella versione precedente, avvicinandosi alle prestazioni grafiche di Sora AI.
Un altro strumento che potrebbe competere con Sora Ai è?Dream Machine di Luma AI, progettato essenzialmente per dare vita ai meme, ma in grado di generare brevi video di alta qualità (5 secondi) caricando un’immagine e/o del testo.
Tuttavia, come le AI video concorrenti, anche questa soluzione soffre ancora di grossi problemi (deformazione anomala di oggetti o esseri viventi, mancanza di realismo durante il movimento della telecamera).
Anche la durata molto limitata dei video costituisce un ostacolo al suo sviluppo.
Un altro rilascio di alto profilo è Kling, un’intelligenza artificiale generatrice di video lanciata da Kuaishou (un’azienda cinese), che darà filo da torcere a OpenAI.
Lo strumento non solo è in grado di generare video della durata massima di due minuti, contro un solo minuto di Sora, ma i primi test rivelano che questa soluzione è in grado di produrre video di qualità cinematografica con una risoluzione di 1080 pixel.