Frazių aptikimas yra tik proceso dalis.

Sušukti „Ok Google“ iš kito kambario, kad pakeistumėte muziką arba išjungtumėte šviesą kambaryje, tikrai jaučiatės neįtikėtina, tačiau šį, atrodytų, paprastą procesą skatina sudėtingas technologijų tinklas, veikiantis už scenos.

Beveik kiekvienas pagrindinis virtualus asistentas rinkoje turi skambinimo frazę, kurią naudojate pažadindami asistentą ir pasikalbėdami. Bet kaip balso padėjėjai žino, kai su jais kalbate?

Kaip veikia frazių aptikimas?

Kaip minėta pirmiau, kiekvienas balso padėjėjas turi „pažadinimo frazę“ arba pažadinimo žodį, kurį naudojate pažadindami asistentą ir duodami tolesnes komandas. Šios frazės aptikimo procesas yra daugmaž vienodas kiekvienam asistentui, išskyrus nedidelius niuansus. Be to, šie niuansai gali reikšti skirtumą tarp atsitiktinio pažadinimo komandos ištarimo ir daugkartinio šaukimo kartų, kad padėjėjas galėtų toliau miegoti, o tai kartais gali labai erzinti, ypač jei esate naudokite balso asistentą, kad nuramintumėte.

instagram viewer
Vaizdo kreditas: graphicsstudio/Vecteezy

Apskritai dauguma „protingų“ garsiakalbių turi mažą grandinę, kurios vienintelė užduotis yra aptikti pažadinimo komandą ir tada paleisti likusią aparatinę įrangą. Didžioji dalis apdorojimo atliekama debesyje, tačiau dėl akivaizdžių privatumo priežasčių frazės aptikimas vyksta įrenginyje. Frazių aptikimas telefonuose veikia daugiau ar mažiau taip pat.

Specifika dažniausiai yra paslėpta, tačiau šios aptikimo sistemos naudoja mašininį mokymąsi ir giliuosius neuroninius tinklus (DNN), kad išmokytų AI modelius aptikti jūsų balsą ir sudaryti raktą. Tada šis raktas naudojamas patikrinti, kada pasakėte tam tikrą frazę, o visa kita siunčiama į debesį tolesniam apdorojimui.

„Google“ padėjėjas

Telefonuose, palaikančiuose „OK Google“ aptikimą, paprastai yra raktinių žodžių paieškos (KWS) sistema, kuri aptinka frazę, o likusią jūsų užklausą pataiso debesyje. Kadangi mobiliųjų įrenginių skaičiavimo galia ir akumuliatoriaus veikimo laikas yra ribotas, šios sistemos paprastai nėra tokios geros kaip tos, kurias rasite „Google Nest“ garsiakalbiuose.

Ši įrenginyje esanti KWS sistema nuolat renka garsą iš įrenginio mikrofonų ir, aptikusi paleidimo frazę, inicijuoja ryšį su serveriu. „Google“ taip pat naudoja serverio kontekstinį automatinį kalbos atpažinimą (ASR), kad pagerintų bendrą KWS sistemos tikslumą. Daugiau apie tai galite perskaityti „Google“ tyrimo dokumentas [PDF].

Siri

„Siri“ veikia taip pat, kaip „Google Assistant“, aptikdama „Hey Siri“. „Apple“ stebėtinai atvirai kalbėjo apie tai, kaip veikia sistema, kuri apima „labai mažą“ kalbos atpažinimo įrenginį, kuris veikia fone ir klauso tik tų dviejų žodžių. Šis detektorius naudoja DNN, kad paverstų kiekvieno atvejo įrašyto jūsų balso akustinį modelį į tikimybių pasiskirstymą pagal kalbos garsus, iš esmės generuodamas pasitikėjimo balą.

Jūsų „iPhone“ arba „Apple Watch“ tai daro pakeisdami jūsų balsą į bangos formos pavyzdžių srautą, kurio dažnis yra 16 000 per sekundę. Tada tai sutrumpinama iki kadrų sekos, apimančios maždaug 0,01 sekundės garso spektrą. Tada iš viso 20 šių kadrų įvedama į aptikimo modelį, kuris konvertuoja šiuos modelius į tikimybę.

Vaizdo kreditas: Apple

Jei sistema pakankamai užtikrintai nustato, kad pasakėte „Ei, Siri“, „Siri“ atsibunda ir išsiųs likusią dalį užklausą į debesį, kur atliekama tolesnė analizė ir atliekami bet kokie jūsų prašomi veiksmai atlikta.

Žinoma, pridedamos papildomos priemonės, užtikrinančios atminties ir baterijos efektyvumą. Dėl šios priežasties jūsų iPhone visada įjungtas procesorius (AOP) turi prieigą prie įrenginio mikrofonų (iPhone 6S ir naujesnėse versijose), o nedidelė jo apdorojimo galios dalis skirta DNN paleisti. „Apple“ savo mašininio mokymosi svetainėje giliai įsigilina į visą sistemą, mašininis mokymasis.obuolys.

Alexa

Panašiai kaip „Google Assistant“ ir „Siri“, „Alexa“ taip pat nenaudoja didžiosios dalies apdorojimo galios jokiuose „Echo“ garsiakalbiuose, kuriuos galite įsigyti. Vietoj to, garsiakalbiai naudoja tai, ką „Amazon“ vadina automatiniu kalbos atpažinimu (ASR), kuris iš esmės paverčia ištartus žodžius tekstu, leidžiančia pagrindinei sistemai juos interpretuoti ir atitinkamai veikti.

ASR sudaro pagrindinį Alexa veikimo pagrindą. Vėlgi, yra integruota sistema, kuri klausosi pažadinimo žodžių, šiuo atveju „Alexa“, „Amazon“, "Echo" arba "Computer" ir suaktyvina likusią sistemos dalį, kai vartotojo nustatytas pažadinimo žodis yra aptikta. Jūs netgi galite pažadinkite savo „Alexa“ įrenginį naudodami „Hey Disney“ Jeigu nori.

Kaip ir „Google Assistant“, galite išmokyti pagrindinį „Alexa“ AI modelį, kad galėtumėte geriau aptikti jūsų balsą. Šis procesas apima pagrindinio „rakto“ sukūrimą, su kuriuo lyginamas ištartas pažadinimo žodis, o radus atitiktį įrenginys atitinkamai reaguoja.

Ar balso padėjėjai visada klauso?

Kaip tikriausiai jau spėjote, taip, jie yra. Jie niekaip negalėtų aptikti pažadintų žodžių kitaip. Tačiau dėl privatumo problemų dar nereikia išmesti visų išmaniųjų garsiakalbių.

Klausyti visko, ką sako vartotojai, siųsti jį atgal į nuotolinį serverį ir analizuoti (arba saugoti) reikalauja milžiniškų techninės įrangos ir finansinių išteklių tiek, kad praktiškai tai nėra prasmės perspektyvą. Pridėkite prie to didžiulius privatumo rūpesčius, su kuriais jau susiduria tokios įmonės kaip „Google“, „Apple“ ir „Amazon“, ir idėja nėra prasminga.

Tai taip pat labai paveikia telefonų veikimą ir baterijos veikimo laiką naudojant pažadinimo žodžio aptikimo funkcijas, ypač „Google Pixels“ ir „iPhone“. Jei jūsų telefonas nuolat klausosi, ką sakote, ir siunčia tą garsą atgal į nuotolinį serverį, jis iškraus akumuliatorių ir sumažins įrenginio veikimą.

Kas efektyviausiai aptinka frazes ir kodėl?

Nelengva objektyviai palyginti, kuris virtualus asistentas geriausiai aptinka frazes, nes visi jie naudoja šiek tiek skirtingus tos pačios bendros koncepcijos įgyvendinimus. Tačiau atrodo, kad „Google“ nuosekliau aptinka frazes dėl „Google Assistant“ pranašumo, palyginti su „Siri“ ir „Alexa“.

Nepaisant to, kad programos, naudojančios didelius kalbų modelius (LLM), pvz., „ChatGPT“ ir „Bing Chat“, tampa populiariomis, „Google Assistant“ išlaiko savo poziciją kaip viena iš labiausiai paplitusių. populiarūs virtualūs asistentai vien todėl, kad jį galima palieti kiekviename „Android“ įrenginyje, pradedant išmaniaisiais televizoriais ir baigiant automobilio stereosistemomis ir, žinoma, išmaniaisiais telefonais.

„Siri“ ir „Alexa“ turi šiek tiek pasivyti šiame skyriuje, tačiau kalbant apie frazių aptikimą, jie nėra taip toli. Vis dėlto turėsite didesnę galimybę pažadinti „Google“ padėjėją „Pixel“ iš kito kambario nei naudodami „Siri“ savo „iPhone“, nors galite padidinkite Siri galimybes naudodami Super Siri režimą. Kadangi „Alexa“ dažniausiai naudojama „Amazon“ „Echo“ garsiakalbių linijoje, ji turi nedidelį pranašumą, atsižvelgiant į tai, kad šie garsiakalbiai yra sukurti taip, kad galėtų paimti vartotojo balsą.

AI yra toks pat baisus, kiek patogus

Iškviesti dirbtinio intelekto asistentą tik savo balsu gali būti labai naudinga. Dėl funkcijos, kuri sklandžiai integruojasi į mūsų gyvenimą, užkulisiuose vyksta daug dalykų, apie kuriuos daugelis iš mūsų dažnai nepagalvojame.

Be to, šis patogumas taip pat sukelia nerimą, kai įrenginys nuolat klausosi, ką sakote. Iki šiol įrenginyje esantys kalbos atpažinimo įrenginiai ir pažadinimo žodžiai yra tarp to, ką girdi virtualus padėjėjas, ir to, ką sakote.