Apple sta già utilizzando internamente il proprio chatbot AI, ma da un nuovo documento interno emerge che il sistema sarà pensato per consentire l’esecuzione di una tecnologia in stile ChatGPT su iPhone.
Un secondo documento sull’intelligenza artificiale di Apple esamina i modi per generare avatar 3D animati da video standard, con ovvio riferimento al Vision Pro
Il documento legato al chatbot si intitola LLM in a flash: Efficient Large Language Model Inference with Limited Memory. Il “flash” nel titolo è un gioco di parole, poiché si tratta di ridurre al minimo la quantità di dati che devono essere trasferiti dalla memoria flash alla RAM. LLM è il termine generico per i sistemi di chat AI che vengono addestrati su grandi quantità di testo.
Gli LLM hanno requisiti di calcolo e di memoria intensivi che presentano diverse sfide, soprattutto per i dispositivi con capacità DRAM limitata. Questo documento affronta la sfida di gestire in modo efficiente LLM che superano la capacità DRAM disponibile memorizzando i parametri del modello sulla memoria flash ma portandoli su richiesta nella DRAM.
Il nostro metodo prevede la costruzione di un modello che si armonizzi con il comportamento della memoria flash, guidandoci a ottimizzare in due aree critiche: ridurre il volume di dati trasferiti dalla memoria flash e leggere i dati in blocchi più grandi e contigui. Questa svolta è particolarmente cruciale per l’implementazione di LLM avanzati in ambienti con risorse limitate, ampliando così la loro applicabilità e accessibilità.
Questo approccio consente agli LLM di essere eseguiti fino a 25 volte più velocemente su dispositivi con RAM limitata.
Per quanto riguarda gli avatar 3D animati generati da video “piatti”, Apple parte dal presupposto che tutti gli utenti hanno un sacco di video “piatti” (monoculari), per cui vuole sviluppare un metodo per trasformare video 2D in avatar 3D animati.
Il documento afferma che di solito se si desidera generare un avatar 3D realistico, è necessaria una configurazione multi-camera per catturare filmati da diverse angolazioni, combinandoli in un modello 3D. Ciò che Apple vuole offrire è un metodo per farlo da un brevissimo pezzo di filmato standard.
L’articolo è profondamente tecnico, con anche l’abstract e le conclusioni piene di acronimi, ma il punto è che il metodo di Apple è circa cento volte più veloce dei metodi esistenti per ottenere lo stesso risultato.
Ad oggi è impossibile sapere quando tutto questo verrà rilasciato, ma è probabile che almeno la parte legata al chatbot possa arrivare con iOS 18 nel 2024.