Skelbimas

Dabar galime kalbėtis su beveik visomis programėlėmis, tačiau kaip tai veikia? Kai paklausite „Kokia tai daina?“ arba pasakyti „Skambink mamai“, įvyksta šiuolaikinių technologijų stebuklas. Ir nors atrodo, kad tai yra moderniausia, ši idėja kalbėtis su įrenginiais siekia dešimtmečius - beveik tiek pat, kiek mokslinės fantastikos rinkiniai!

Šiandien didžiausias dėmesys, susijęs su balso valdymu, yra išmaniuosiuose telefonuose. „Apple“, „Amazon“, „Microsoft“ ir „Google“ yra grandinės viršuje, kiekviena siūlo savo būdą susikalbėti su elektronika. Jūs žinojote, kas jie yra: „Siri“, „Alexa“, „Cortana“ ir bevardė būtybė „Gerai, Google“. Kas kelia didelį klausimą ...

Kaip įrenginys priima ištartus žodžius ir paverčia juos komandomis, kurias jis gali suprasti? Iš esmės kalbama apie modelių derinimą ir prognozavimą remiantis šiais modeliais. Kalbant konkrečiau, balso atpažinimas yra sudėtinga užduotis Akustinis modeliavimas ir Kalbos modeliavimas.

Akustinis modeliavimas: bangos formos ir telefonai

instagram viewer
bangos forma

Akustinis modeliavimas yra kalbos bangos formos paėmimas ir jos analizė naudojant statistinius modelius. Labiausiai paplitęs metodas yra Paslėpto Markovo modeliavimas, kuris naudojamas vadinamajame tarimo modeliavimas suskaidyti kalbą į komponentus, vadinamus telefonais (nepainioti su realiais telefono prietaisais). „Microsoft“ daugelį metų buvo pirmaujanti šios srities tyrinėtoja.

Paslėpto Markovo modeliavimas: tikimybių būsenos

Paslėpto Markovo modeliavimas yra numatomasis matematinis modelis, kai dabartinė būsena nustatoma analizuojant išėjimą. Vikipedija turi puikus pavyzdys naudojant du draugus.

Įsivaizduokite du draugus - vietinį draugą ir nuotolinį draugą -, kurie gyvena skirtinguose miestuose. Vietinis draugas nori išsiaiškinti, koks yra oras ten, kur gyvena nuotolinis draugas, tačiau nuotolinis draugas nori pasikalbėti tik apie tai, ką jis tą dieną padarė: pasivaikščioti, apsipirkti ar išvalyti. Kiekvienos veiklos tikimybė priklausomai nuo dienos oro.

Paslėpto Markovo modeliavimas

Apsimesti, kad tai yra vienintelė turima informacija. Su ja „Vietinis draugas“ gali sužinoti tendencijas, kaip oras keitėsi kiekvieną dieną, ir pasinaudodamas šiomis tendencijomis gali pradėti mokytis spėlioti, kokie bus šios dienos orai, remiantis vakar jos draugės veikla. (Aukščiau galite pamatyti sistemos schemą.)

Jei norite sudėtingesnio pavyzdžio, peržiūrėkite šį pavyzdį „Matlab“. Kalbant apie balso atpažinimą, šis modelis iš esmės lygina kiekvieną bangos formos dalį su tuo, kas yra prieš ir kas ateina, ir su bangos formų žodynu, kad išsiaiškintų, kas sakoma.

Iš esmės, jei skambėsite „th“ garsą, jis patikrins, ar garsas yra labiausiai tikėtinas, paprastai prieš jį ir po jo. Gal tai reiškia patikrinti „e“ garsą, „at“ garsą ir pan. Kai šablonas teisingai suderinamas, tada jame yra visas jūsų žodis. Tai pernelyg supaprastinimas, bet jūs galite pamatyti Visas „Microsoft“ paaiškinimas pateiktas čia.

Kalbos modeliavimas: daugiau nei garsas

Akustinis modeliavimas labai palengvina jūsų kompiuterio supratimą, bet kaip su homonimais ir tarimo regioniniais variantais? Štai čia pradedamas kalbos modeliavimas. „Google“ paskatino daug tyrimų šioje srityje, daugiausia naudodamasi N-gramų modeliavimas.

Kai „Google“ bando suprasti jūsų kalbą, ji tai daro remdamasi modeliais, gautais iš didžiulės paieškos balsu banko ir „YouTube“ transkripcijų. Visos šios beprotiškai klaidingos vaizdo įrašų antraštės iš tikrųjų padėjo „Google“ tobulinti jų žodynus. Taip pat jie naudojosi išvykusiaisiais GOOG-411 rinkti informaciją apie tai, kaip žmonės kalba.

langinės sandėlyje_70757203

Visa ši kalbų kolekcija sukūrė daugybę tarimų ir tarmių, kurios sudarė patikimą žodžių žodyną ir jų skambesį. Tai leidžia rungtynėms, kurių klaidų lygis yra žymiai mažesnis nei brutaliosios jėgos atitikimas, remiantis neapdorotomis tikimybėmis. Galite perskaityti trumpą straipsnį čia aprašydamas jų metodus.

Nors „Google“ yra šios srities lyderė, yra kuriami ir kiti matematiniai modeliai, įskaitant nepertraukiamą erdvę modeliai ir pozicinės kalbos modeliai, kurie yra tobulesni būdai, gimę iš dirbtinio intelekto tyrimų. Šie metodai yra pagrįsti tuo, kaip atkartojami samprotavimai, kuriuos žmonės daro klausydamiesi vienas kito. Tai yra daug labiau pažengę ne tik technologija, bet ir matematika bei programavimas, reikalingi šiems modeliams nustatyti.

„N-Gram“ modeliavimas: tikimybė tenkina atmintį

N-gramo modeliavimas remiasi tikimybėmis, tačiau jis naudoja esamą žodžių žodyną, kad sukurtų išsišakojusį galimybių medį, kuris vėliau efektyvumo sumetimais išlyginamas. Tam tikra prasme tai reiškia, kad N-gramų modeliavimas panaikina daugybę minėto Paslėpto Markovo modeliavimo netikrumų.

Kaip minėta aukščiau, šio metodo pranašumas yra didelis kalbų žodynas žodžiai ir naudojimas, ne tik primityvus garsai. Tai suteikia programai galimybę pasakyti skirtumą tarp homofonų, tokių kaip „mušti“ ir „runkeliai“. Tai kontekstinė, tai reiškia, kad kai jūs kalbate apie praėjusios nakties balus, programa netraukia žodžių apie barščius.

Tačiau šie modeliai iš tikrųjų nėra patys geriausi kalbai, daugiausia dėl problemų, susijusių su žodžių tikimybe ilgesnėmis frazėmis. Kai pridedate daugiau žodžių prie sakinio, šis modelis šiek tiek atslūgsta, nes vargu ar jūsų ankstyvieji žodžiai įkels viską, ko reikia jūsų išsamiai minčiai.

Tačiau tai yra paprasta ir lengva įgyvendinti, todėl tai puikiai tinka tokiai kompanijai kaip „Google“, kuriai patinka mesti serverius dėl skaičiavimo problemų. Toliau galite skaityti N-gramo modelieng skaitydami Vašingtono universitetas, arba galite žiūrėti a paskaita Kursoje.

Šaukimas debesyse: programos ir įrenginiai

Kiekvienas, kuris naudojosi „Siri“, žino, koks yra lėto tinklo ryšio nusivylimas. Taip yra todėl, kad jūsų komandos „Siri“ siunčiamos per tinklą, kad jas dekoduotų „Apple“. Norint tinkamai naudoti „Cortana“, skirtą „Windows“ telefonui, reikalingas tinklo ryšys. Tačiau, priešingai, „Amazon“ Echo yra tik „Bluetooth“ garsiakalbis be jokio interneto.

Kodėl skirtumas? Kadangi „Siri“ ir „Cortana“ reikia sunkiųjų serverių, kad dekoduotų jūsų kalbą. Ar tai galima padaryti telefone ar planšetiniame kompiuteryje? Aišku, tačiau proceso metu sunaikinsite savo našumą ir akumuliatoriaus energiją. Tiesiog yra prasmingiau perkelti apdorojimą į tam skirtas mašinas.

„SIGCHI_Conference_Paper_Format“ _-_ „KumarSpeechRecognitionForMobileApps_pdf“

Pagalvok apie tai taip: tavo komanda yra automobilis, įstrigęs purve. Tikriausiai galėtumėte tai išstumti patys, turėdami pakankamai laiko ir pastangų, tačiau tai užtruks valandas ir jus išnaudos. Vietoj to, jūs skambinate pagalbos kelyje ir jie vos per kelias minutes ištraukia jūsų automobilį. Neigiama yra tai, kad jūs turite paskambinti ir laukti jų, tačiau jis vis tiek yra greitesnis ir mažiau apmokestinamas.

Dėl galingesnės aparatinės įrangos tokie stalinių kompiuterių modeliai kaip „Nuance“ dažniausiai naudoja vietinius išteklius. Galų gale, pasak Steve'o Jobso, jūsų darbalaukis yra sunkvežimis. (Tai daro šiek tiek kvaila, kad OS X naudojasi serveriai jos apdorojimui.) Taigi, kai reikia apdoroti kalbą ir balsą, jis jau yra pakankamai įrengtas, kad galėtų savarankiškai tvarkyti.

Kita vertus, „Android“ leidžia kūrėjams į savo programas įtraukti neprisijungusį kalbos atpažinimą. „Google“ mėgsta žengti į priekį technologijomis, ir galite lažintis, kad kitos platformos įgys šį sugebėjimą, nes jų aparatinė įranga taps galingesnė. Niekam nepatinka, kai prasta aprėptis ar blogas priėmimas išnaudoja jų prietaisą.

Pradėkite naudoti balso komandas dabar

Dabar, kai žinote pagrindines sąvokas, turėtumėte žaisti su įvairiais savo įrenginiais. Išbandykite naują balso įvedimas „Google“ dokumentuose Kaip balso rašymas yra nauja geriausia „Google“ dokumentų savybėPastaraisiais metais balso atpažinimas pagerėjo. Anksčiau šią savaitę „Google“ pagaliau įvedė balso rašymą į „Google“ dokumentus. Bet ar tai yra gerai? Išsiaiškinkime! Skaityti daugiau . Tarsi interneto biuro rinkinys dar nebuvo pakankamai galingas, valdymas balsu leidžia visiškai diktuoti ir formatuoti dokumentus. Tai plečia galingas technologijas, kurias jie jau sukūrė „Chrome“ ir „Android“.

Kitos idėjos apima jūsų „Mac“ naudoti balso komandas Kaip naudotis kalbų komandomis „Mac“ Skaityti daugiau ir nustatyti savo „Amazon Echo“ su automatine kasa Kaip „Amazon Echo“ gali padaryti jūsų namus protingais namaisIšmaniųjų namų technologijos vis dar yra gyvos, tačiau naujas „Amazon“ produktas, vadinamas „Echo“, gali padėti jį integruoti. Skaityti daugiau . Gyvenkite ateityje ir imkitės kalbėjimo su savo dalykėliais - net jei tiesiog užsisakote daugiau popierinių rankšluosčių. Jei esate priklausomas nuo išmaniųjų telefonų, mes taip pat turime mokymus, skirtus Siri 8 dalykai, ko tikriausiai nesuvokėte, „Siri“ galėtų padaryti„Siri“ tapo viena iš „iPhone“ apibūdinančių funkcijų, tačiau daugeliui žmonių ji ne visada yra pati naudingiausia. Nors visa tai dėl balso atpažinimo apribojimų, keista naudoti ... Skaityti daugiau , Cortana 6 šauniausi dalykai, kuriuos galite valdyti naudodami „Cortana“ sistemoje „Windows 10“„Cortana“ gali padėti jums naudotis laisvų rankų įranga „Windows 10“. Galite leisti jai ieškoti jūsų failų ir žiniatinklio, atlikti skaičiavimus arba sudaryti orų prognozę. Čia apžvelgsime keletą jos šaunesnių įgūdžių. Skaityti daugiau ir „Android“ Gerai, „Google“: 20 naudingų dalykų, kuriuos galite pasakyti savo „Android“ telefonui„Google“ asistentas gali padėti jums daug nuveikti telefone. Čia yra visa eilė pagrindinių, bet naudingų „Google“ komandų, kurias reikia išbandyti. Skaityti daugiau .

Koks yra jūsų mėgstamiausias balso valdymo būdas? Praneškite mums komentaruose.

Vaizdo kreditai: „T-flex“ per „Shutterstock“, „Terencehonles“ per „Wikimedia Foundation“, Arizonos valstija, „Cienpies Design“ per „Shutterstock“

Michaelas nenaudojo „Mac“, kai jie buvo pasmerkti, tačiau jis gali koduoti „Applescript“. Jis turi informatikos ir anglų kalbos laipsnius; jis jau kurį laiką rašo apie „Mac“, „iOS“ ir vaizdo žaidimus; ir jau daugiau nei dešimtmetį jis yra dienos IT beždžionė, kurios specializacija yra scenarijų kūrimas ir virtualizavimas.