Apple presenta un sistema di IA on-device che “supera GPT-4"

In un documento di ricerca pubblicato pochi giorni fa, i principali ingegneri che lavorano sull’intelligenza artificiale di Apple descrivono un sistema in cui Siri può fare molto di più che cercare di riconoscere cosa c’è in un’immagine. La parte migliore? Ritengono che uno dei modelli per eseguire questi benchmark sia migliore di ChatGPT 4.0.

Nel documento (ReALM: Reference Resolution As Language Modeling), Apple descrive qualcosa che potrebbe dare più utilità a un assistente vocale potenziato da un modello linguistico di grandi dimensioni. ReALM tiene conto sia di cosa c’è sullo schermo sia di quali attività sono attive. Ecco un frammento del documento che descrive questo approccio:

Entità sullo schermo: si tratta di entità attualmente visualizzate sullo schermo di un utente
Entità conversazionali: si tratta di entità rilevanti per la conversazione. Queste entità potrebbero provenire da un turno precedente legato all’utente (ad esempio, quando l’utente dice “Chiama mamma”, il contatto per la mamma sarebbe l’entità rilevante in questione), o dall’assistente virtuale (ad esempio, quando l’agent fornisce all’utente un elenco di luoghi o allarmi tra cui scegliere).
Entità in background: si tratta di entità rilevanti che provengono da processi in background che potrebbero non essere necessariamente una parte diretta di ciò che l’utente vede sul proprio schermo o della sua interazione con l’agent virtuale; ad esempio, una sveglia che inizia a suonare o la musica in sottofondo.

Tutto questo sembra la ricetta per un Siri più intelligente e utile. Anche Apple sembra fiduciosa nella propria capacità di portare a termine un compito del genere con una velocità impressionante. Il benchmarking viene confrontato con ChatGPT 3.5 e ChatGPT 4.0 di OpenAI:

Come ulteriore riferimento, utilizziamo le varianti GPT-3.5 e GPT-4 di ChatGPT, disponibili il 24 gennaio 2024, con apprendimento in contesto. Come nella nostra configurazione, miriamo a fare in modo che entrambe le varianti prevedano un elenco di entità da un set disponibile. Nel caso di GPT-3.5, che accetta solo testo, il nostro input consiste solo nel prompt; tuttavia, nel caso di GPT-4, che ha anche la capacità di contestualizzare sulle immagini, forniamo al sistema uno screenshot con il compito di risoluzione di riferimento sullo schermo, che aiuta a migliorare sostanzialmente le prestazioni.

Allora come si comporta il modello di Apple?

Confermiamo grandi miglioramenti rispetto a un sistema esistente con funzionalità simili su diversi tipi di riferimenti, con il nostro modello più piccolo che ottiene guadagni assoluti di oltre il 5% per i riferimenti sullo schermo. Effettuiamo anche benchmark con GPT-3.5 e GPT-4, con il nostro modello più piccolo che raggiunge prestazioni paragonabili a quelle di GPT-4, e i nostri modelli più grandi che le superano sostanzialmente.

Il documento si conclude come segue:

Mostriamo che ReaLM supera gli approcci precedenti e funziona più o meno come l’LLM all’avanguardia di oggi, GPT-4, nonostante contenga molti meno parametri, anche per i riferimenti sullo schermo. Supera inoltre GPT-4 per le espressioni utente specifiche del dominio, rendendo così ReaLM la scelta ideale per un pratico sistema di risoluzione di riferimento che può esistere sul dispositivo senza compromettere le prestazioni.

La tecnologia On-device senza compromettere le prestazioni sembra fondamentale per Apple. I prossimi anni di sviluppo della piattaforma dovrebbero essere interessanti, si spera, a partire da iOS 18 e dalla WWDC 2024 del 10 giugno.

Aggiungici al tuo feed su Google News