Balso atpažinimo technologija turi turtingą raidos istoriją, dėl kurios ji tapo tokia, kokia yra šiandien. Tai yra šiuolaikinio gyvenimo esmė, suteikianti mums galimybę atlikti užduotis tiesiog kalbant su įrenginiu. Taigi, kaip ši nuostabi technologija vystėsi bėgant metams? Pažiūrėkime.

1952: Audrey sistema

Pirmasis žingsnis atpažįstant balsą buvo padarytas 1950 -ųjų pradžioje. „Bell Laboratories“ 1952 metais sukūrė pirmąją mašiną, galinčią suprasti žmogaus balsą, ir ji buvo pavadinta „Audrey System“. Vardas Audrey buvo tarsi frazės „Automatinis skaitmenų atpažinimas“ sutraukimas. Nors tai buvo didelė naujovė, ji turėjo tam tikrų didelių apribojimų.

Labiausiai pastebima, kad Audrey galėjo atpažinti tik skaitinius skaitmenis 0–9, be žodžių. Audrey duotų grįžtamąjį ryšį, kai kalbėtojas pasakytų skaičių, užsidegęs 1 iš 10 lempučių, kurių kiekviena atitinka skaitmenį.

Vaizdo kreditas: metamorworks/Shutterstock.com

Nors ji galėjo suprasti skaičius 90% tikslumu, Audrey apsiribojo tam tikru balso tipu. Štai kodėl vienintelis asmuo, kuris tikrai jį naudotų, buvo HK Davisas, vienas iš kūrėjų. Kai buvo pasakytas skaičius, pranešėjui reikėjo palaukti mažiausiai 300 milisekundžių, kol jis pasakė kitą.

instagram viewer

Jis buvo ne tik funkcionalus, bet ir naudingas. Mašinai, kuri galėjo suprasti tik skaičius, nebuvo daug naudos. Vienas iš galimų naudojimo būdų buvo telefono numerių rinkimas, tačiau buvo daug greičiau ir lengviau surinkti numerius ranka. Nors Audrey neegzistavo grakščiai, ji vis dar yra puikus žmogaus pasiekimų etapas.

Susijęs: Kaip naudoti rašymą balsu „Microsoft Word“

1962: IBM batų dėžė

Praėjus dešimtmečiui po Audrey, IBM išbandė savo jėgas kurdama balso atpažinimo sistemą. 1962 m. Pasaulinėje parodoje IBM pademonstravo balso atpažinimo sistemą „Showbox“. Kaip ir Audrey, jo pagrindinis darbas buvo suprasti skaitmenis 0–9, tačiau jis taip pat galėjo suprasti šešis žodžius: pliusas, minusas, klaidingas, bendras, tarpinis ir išjungtas.

„Shoebox“ buvo matematikos mašina, galinti atlikti paprastas aritmetines užduotis. Kalbant apie atsiliepimus, vietoj šviesų „Shoebox“ sugebėjo atspausdinti rezultatus ant popieriaus. Dėl to jis buvo naudingas kaip skaičiuotuvas, nors kalbėtojui vis tiek reikia padaryti pertrauką tarp kiekvieno skaičiaus/žodžio.

1971: IBM automatinis skambučių identifikavimas

Po Audrey ir „Shoebox“ kitos laboratorijos visame pasaulyje sukūrė balso atpažinimo technologiją. Tačiau jis pakilo tik praėjusio amžiaus aštuntajame dešimtmetyje, kai 1971 m. IBM rinkai pristatė pirmąjį tokio pobūdžio išradimą. Ji buvo vadinama automatine skambučių atpažinimo sistema. Tai buvo pirmoji balso atpažinimo sistema, naudojama telefono sistemoje.

Inžinieriai paskambins ir bus prijungti prie kompiuterio Raleigh mieste, Šiaurės Karolinoje. Tada skambinantysis ištars vieną iš 5000 savo žodyno žodžių ir gaus atsakymą „žodžiu“.

Susijęs: Kaip naudoti balso diktavimą „Mac“

1976: Harpy

Aštuntojo dešimtmečio pradžioje JAV gynybos departamentas domėjosi balso atpažinimu. DARPA (gynybos pažangių tyrimų projektų agentūra) 1971 m. Sukūrė kalbų supratimo tyrimų (SUR) programą. Ši programa suteikė finansavimą kelioms įmonėms ir universitetams, kad padėtų moksliniams tyrimams ir plėtrai balso atpažinimui.

1976 m. Dėl SUR Carnegie Mellon universitetas sukūrė Harpy sistemą. Tai buvo didelis balso atpažinimo technologijų šuolis. Sistemos iki to laiko sugebėjo suprasti žodžius ir skaičius, tačiau Harpy buvo unikali tuo, kad galėjo suprasti visus sakinius.

Joje buvo tik apie 1011 žodžių žodynas, kuris, anot leidinio B. Lowerre ir R. Reddy, prilyginama daugiau nei trilijonui skirtingų galimų sakinių. Tada leidinyje teigiama, kad Harpy galėjo suprasti žodžius 93,77% tikslumu.

Devintasis dešimtmetis buvo lemiamas balso atpažinimo technologijų laikas, nes tai yra dešimtmetis, kai balsas atpažinimo technologija, nes būtent šį dešimtmetį mes buvome supažindinti su paslėpto Markovo metodu (HMM). Pagrindinė HMM varomoji jėga yra tikimybė.

Kai sistema užregistruoja fonemą (mažiausią kalbos elementą), yra tam tikra tikimybė, kokia bus kita. HMM naudoja šias tikimybes, kad nustatytų, kuri fonema greičiausiai ateis toliau ir sudarys labiausiai tikėtinus žodžius. Dauguma balso atpažinimo sistemų šiandien vis dar naudoja HMM kalbai suprasti.

Dešimtas dešimtmetis: balso atpažinimas pasiekia vartotojų rinką

Nuo tada, kai buvo sukurta balso atpažinimo technologija, ji pradėjo ieškoti vietos vartotojų rinkoje. Devintajame dešimtmetyje IBM pristatė kompiuterio prototipą, galintį diktuoti kalbą į tekstą. Tačiau tik dešimtojo dešimtmečio pradžioje žmonės pradėjo matyti tokias programas savo namuose.

1990 m. „Dragon Systems“ pristatė pirmąją kalbos į tekstą diktavimo programinę įrangą. Jis buvo vadinamas „Dragon Dictate“ ir iš pradžių buvo išleistas „Windows“. Ši 9 000 JAV dolerių programa buvo revoliucinė, kad masės atpažintų balso atpažinimo technologiją, tačiau buvo vienas trūkumas. Naudota programinė įranga diskretiškas diktantas, tai reiškia, kad vartotojas turi padaryti pertrauką tarp kiekvieno žodžio, kad programa galėtų juos pasiimti.

1996 m. IBM vėl prisidėjo prie pramonės su „Medspeak“. Tai buvo ir kalbos į tekstą diktavimo programa, tačiau ji nepatyrė diskretiško diktavimo, kaip tai padarė „Dragon Dictate“. Vietoj to, ši programa galėjo diktuoti nuolatinę kalbą, todėl ji tapo patrauklesnė.

Susijęs: Kaip naudotis „Google“ padėjėju su ausinėmis

2010: mergina, vardu Siri

2000 -aisiais balso atpažinimo technologija išpopuliarėjo. Jis buvo įdiegtas į daugiau programinės ir techninės įrangos nei bet kada anksčiau, o vienas esminis žingsnis balso atpažinimo raidoje buvo Siri, skaitmeninis asistentas. 2010 m. Įmonė „Siri“ pristatė virtualų asistentą kaip „iOS“ programą.

Tuo metu „Siri“ buvo įspūdinga programinė įranga, galinti padiktuoti kalbėtojo kalbą ir duoti išprususį bei šmaikštų atsakymą. Ši programa buvo tokia įspūdinga, kad tais pačiais metais „Apple“ įsigijo įmonę ir šiek tiek pakeitė „Siri“, stumdama ją link šiandien žinomo skaitmeninio asistento.

Būtent per „Apple“ „Siri“ gavo savo ikoninį balsą (balsas - Susan Benett) ir daugybę naujų funkcijų. Jis naudoja natūralios kalbos apdorojimas valdyti daugumą sistemos funkcijų.

2010 -ieji: didieji 4 skaitmeniniai asistentai

Šiuo metu balso atpažinime ir papildomoje programinėje įrangoje dominuoja keturi dideli skaitmeniniai asistentai.

  • Siri yra beveik visuose „Apple“ produktuose: „iPhone“, „iPod“, „iPad“ ir „Mac“ kompiuterių šeimoje.
  • „Google“ padėjėjas yra daugelyje daugiau nei 3 milijardų rinkoje esančių „Android“ įrenginių. Be to, vartotojai gali naudoti komandų daugelyje „Google“ paslaugų, pvz., „Google Home“.
  • „Amazon Alexa“ neturi daug specialios platformos, kurioje gyvena, tačiau vis tiek yra žinomas asistentas. Jį galima atsisiųsti ir naudoti „Android“, „Apple“ įrenginiuose. ir net pasirinkti „Lenovo“ nešiojamuosius kompiuterius
  • Bixby yra naujausias skaitmeninio asistento sąrašo įrašas. Tai „Samsung“ namų skaitmeninis asistentas, esantis tarp bendrovės telefonų ir planšetinių kompiuterių.

Kalbama istorija

Balso atpažinimas nuėjo ilgą kelią nuo Audrey laikų. Tai padarė didelę naudą keliose srityse; pavyzdžiui, pagal „Clear Bridge Mobile“, medicinos sritis gavo naudos iš balso valdomų pokalbių robotų pandemijos metu 2020 m. Balso atpažinimas yra tik viena iš naudingiausių šiuolaikinio amžiaus technologijų - tai tik gebėjimas suprasti skaičius iki skirtingų sakinių variantų.

Dalintis„Tweet“Paštu
Kaip veikia balso atpažinimas?

Mes nuolat naudojame balso atpažinimą, bet kaip tai veikia?

Skaityti toliau

Susijusios temos
  • Technologija paaiškinta
  • Siri
  • „Google“ padėjėjas
  • Alexa
  • Bixby
  • Balso komandos
Apie autorių
Arthuras Brownas (Paskelbti 31 straipsniai)

Arthuras yra technologijų žurnalistas ir muzikantas, gyvenantis Amerikoje. Pramonėje jis dirba beveik dešimtmetį, rašydamas internetiniams leidiniams, tokiems kaip „Android Headlines“. Jis puikiai išmano „Android“ ir „ChromeOS“. Kartu su informacinių straipsnių rašymu jis taip pat puikiai praneša apie technologijų naujienas.

Daugiau iš Arthur Brown

Prenumeruokite mūsų naujienlaiškį

Prisijunkite prie mūsų naujienlaiškio, kad gautumėte techninių patarimų, apžvalgų, nemokamų el. Knygų ir išskirtinių pasiūlymų!

Norėdami užsiprenumeruoti, spustelėkite čia