Apple ha pubblicato un nuovo articolo sul suo Machine Learning Journal dedicato agli sviluppatori. Il nuovo post si concentra sulla funzione Hey Siri di iOS.
Il nuovo articolo pubblicato da Apple sul suo Machine Learning Journal si concentra sul processo di personalizzazione con cui gli utenti possono gestire la funzione “Hey Siri” sui dispositivi iOS. In tutti i prodotti Apple compatibili, “Hey Siri” invoca l’assistente AI dell’azienda e può essere seguito da domande come “Come è il tempo?” o “Scrivi a Francesco che sto per arrivare“.
“Hey Siri” è stato introdotto con iOS 8 su iPhone 6 e all’inizio poteva essere utilizzato solo mentre l’iPhone si stava caricando. Successivamente, questo trigger si è evoluto, con la possibilità di struttare un processore a bassa potenza per rendere tale funzione sempre disponibile.
Nel nuovo articolo, il team Siri di Apple spiega il processo tecnico che ha consentito di gestire al meglio questa funzione. Il team ha creato reti neurali profonde e “ha preparato il terreno per miglioramenti” nelle future iterazioni di Siri, tutte motivate dall’obiettivo di creare “una maggiore personalizzazione sul dispositivo” per gli utenti.
Leggi anche: Come utilizzare Hey Siri con più dispositivi nelle vicinanze
Il team di Apple afferma che la frase “Hey Siri” è stata scelta a causa del suo fraseggio “naturale” e ha descritto tre scenari in cui le attivazioni involontarie si dimostrano problematiche per tale funzionalità: “quando gli utenti proprietari pronunciano una frase simile“, “quando altri utenti dicono Hey Siri ” e “quando altri utenti dicono una frase simile.” Secondo il team, l’ultimo scenario è “la più fastidiosa falsa attivazione di tutte“.
Per ridurre queste attivazioni accidentali di Siri, Apple sfrutta tecnologie legate al campo del riconoscimento vocale. È importante sottolineare che il team Siri afferma che il tutto è incentrato su “chi sta parlando” e meno su “ciò che è stato detto“.
L’obiettivo generale del riconoscimento degli altoparlanti (SR) è quello di accertare l’identità di una persona che usa la sua voce. Siamo interessati a “chi sta parlando”, in contrasto con il problema del riconoscimento vocale, che mira ad accertare “ciò che è stato detto”. SR viene eseguito utilizzando una frase conosciuta a priori, come “Hey Siri”.
Apple spiega anche che tale riconoscimento della voce è sia attivo che passivo. La parte attiva è quella iniziale, quando gli utenti pronunciano Hey Siri le prime volte, mentre la seconda lavora in background e viene creata nel tempo, andando a migliorarsi di volta in volta anche in base alle situazioni del mondo reale.
Le prossime sfide del team Apple in questo ambito saranno quelle di migliorare il riconoscimento in stanze grandi con riverbero e in luoghi affollati.