„ChatGPT“ kūrėjai turi dar vieną įrankį, kuriuo siekiama nuimti naštą nuo pirštų.

Tie patys ChatGPT žmonės sukūrė kitą dirbtiniu intelektu pagrįstą įrankį, kurį šiandien galite naudoti savo produktyvumui padidinti. Turime omenyje Whisper – balso į tekstą sprendimą, kuris nustelbė visus panašius sprendimus, buvusius prieš jį.

Galite naudoti Whisper savo programose arba komandinėje eilutėje. Ir vis dėlto tai praranda patį tikslą: spausdinti be klaviatūros. Jei norint jį naudoti reikia įvesti tekstą, kodėl jį naudoti, kad nereikėtų rašyti? Laimei, dabar galite naudoti Whisper per darbalaukio GUI. Dar geriau, jis taip pat gali perrašyti jūsų balsą beveik realiuoju laiku. Pažiūrėkime, kaip galite rašyti balsu naudodami Whisper Desktop.

Kas yra „OpenAI's Whisper“?

„OpenAI's Whisper“ yra automatinio kalbos atpažinimo sistema (sutrumpintai ASR) arba, paprasčiau tariant, yra sprendimas sakytinę kalbą paversti tekstu.

Tačiau skirtingai nuo senesnių diktavimo ir transkripcijos sistemų, „Whisper“ yra dirbtinio intelekto sprendimas, skirtas daugiau nei 680 000 valandų kalbos įvairiomis kalbomis. „Whisper“ siūlo neprilygstamą tikslumą ir, be abejo, yra ne tik daugiakalbis, bet ir gali versti iš vienos kalbos į kitą.

instagram viewer

Dar svarbiau, kad jis nemokamas ir prieinamas kaip atvirasis šaltinis. Dėl to daugelis kūrėjų įtraukė jo kodą į savo projektus arba sukūrė juo pagrįstas programas, pvz., „Whisper Desktop“.

Jei pageidaujate „vanilinės“ Whisper versijos ir terminalo universalumo, o ne gremėzdiškų GUI, peržiūrėkite mūsų straipsnį apie kaip paversti savo balsą tekstu naudojant OpenAI Whisper for Windows.

Ar „Whisper“ ir „Whisper Desktop“ yra tas pats?

Nepaisant oficialiai skambančio pavadinimo, „Whisper Desktop“ yra trečiosios šalies „Whisper“ GUI, sukurta visiems, kurie nori spustelėti mygtukus, o ne rinkti komandas.

„Whisper Desktop“ yra atskiras sprendimas, kuris nepriklauso nuo esamo „Whisper“ diegimo. Kaip premiją ji naudoja alternatyvią, optimizuotą Whisper versiją, todėl ji turėtų veikti geriau nei atskira versija.

Esate kitame spektro gale ir užuot ieškoję paprastesnio būdo naudoti Whisper nei terminalą, ieškote būdų, kaip jį įdiegti savo sprendimuose? Džiaukis, už OpenAI atvėrė prieigą prie ChatGPT ir Whisper API.

Atsisiųskite ir įdiekite „Whisper Desktop“.

Nors Whisper Desktop yra lengviau naudoti nei atskirą Whisper, jo diegimas yra sudėtingesnis nei kartotinis vedlio spustelėjimas Next.

  1. Apsilankykite „Whisper Desktop“ oficialus „Github“ puslapis. Pažiūrėkite dešinėje ir spustelėkite naujausią versiją apačioje Išleidimai.
  2. Pagal Turtas, spustelėkite WhisperDesktop.zip ir atsisiųskite jį į savo kompiuterį.
  3. Ištraukite atsisiųstą archyvą į aplanką ir aplankykite jį naudodami failų tvarkyklę. Viduje rasite Whisper Desktop programą. Dukart spustelėkite jį, kad paleistumėte.
  4. Jums taip pat reikia Whisper kalbos modelio GCML dvejetainis formatas. „Whisper Desktop“ pateiks dvi nuorodas, kurias galite įsigyti. Praleiskite antrąją nuorodą, kad sukurtumėte savo modelį, nes tai sudėtingesnis procesas. Spustelėkite Apkabinantis Veidas kad atidarytumėte tą puslapį numatytojoje naršyklėje, iš kur galėsite atsisiųsti paruoštą naudoti failą.
  5. Whisper Desktop versija, kurią naudojome rašydami šį straipsnį, pateikė nuorodą į pasenusią Hugging Face saugyklą. Jei susiduriate su ta pačia problema, atkreipkite dėmesį į nuorodą į a nauja vieta. Spustelėkite jį, kad apsilankytumėte naujoje saugykloje.
  6. Spustelėkite nuorodą, kuri nuves jus į galimą modeliai.
  7. Šiame sąraše spustelėkite bet kurį ggml-medium.bin arba ggml-medium.en.bin, priklausomai nuo to, ar „Whisper“ norite palaikyti daugiakalbę, ar tik anglų kalbą.
  8. Galiausiai turėjote pasiekti savo tikslą. Atkreipkite dėmesį į eilutę, kurioje teigiama, kad šis failas saugomas naudojant Git LFS ir yra per didelis, kad būtų rodomas, bet vis tiek galite jį atsisiųsti. Spustelėkite parsisiųsti padaryti būtent tai.
  9. Pasibaigus failo atsisiuntimui, naudokite savo mėgstamą failų tvarkyklę (tai padarys „File Explorer“), kad perkeltumėte atsisiųstą kalbos modelio failą į tą patį aplanką, kaip ir Whisper Desktop.

Perrašymas naudojant Whisper Desktop

Perrašyti naudojant „Whisper Desktop“ paprasta, tačiau norint naudotis programa vis tiek gali prireikti vieno ar dviejų paspaudimų.

Iš naujo paleiskite „Whisper Desktop“. Ar (vis dar) trūksta teisingo kelio į atsisiųstą kalbos modelį? Spustelėkite ant mygtuką su trimis taškais lauko dešinėje ir rankiniu būdu pasirinkite failą, kurį atsisiuntėte iš Hugging Face.

Šioje vietoje taip pat galite naudoti šalia esantį išskleidžiamąjį meniu Modelio įgyvendinimas pasirinkti, ar norite paleisti Whisper savo GPU (GPU), tiek CPU, tiek GPU (Hibridinis), arba tik CPU (Nuoroda).

The Išplėstinė mygtukas atveria daugiau parinkčių, turinčių įtakos tai, kaip „Whisper“ veiks jūsų aparatinėje įrangoje. Tačiau, kadangi mygtukas aiškiai nurodo, kad jie yra išplėstiniai, siūlome juos koreguoti tik tuo atveju, jei šalinate triktis arba žinote, ką darote. Čia nustačius neteisingas parinkčių reikšmes gali būti taikoma nuobauda už našumą arba programa gali tapti netinkama naudoti.

Spustelėkite Gerai, kad pereitumėte į pagrindinę programos sąsają.

Jei jau turite savo balso įrašą, kurį norite paversti rašytiniu tekstu, spustelėkite Perrašyti failą ir pasirinkite jį. Vis dėlto šio straipsnio tiesioginei transkripcijai naudosime „Whisper Desktop“.

Siūlomi variantai yra nesudėtingi. Galite pasirinkti kalba Šnabždesys naudos, pasirinkite, jei norite išversti tarp kalbų ir įgalinti programą Debug Console.

Dauguma angliškai kalbančių vartotojų gali saugiai praleisti šias parinktis ir tik įsitikinti, kad išskleidžiamajame meniu šalia Užfiksavimo įrenginys.

Įsitikinkite Išsaugoti tekstiniame faile ir Pridėkite prie to failo yra įgalinti, kad Whisper Desktop išsaugotų išvestį faile neperrašant jo turinio. Naudoti mygtuką su trimis taškais failo kelio lauko dešinėje, kad apibrėžtumėte minėtą tekstinį failą.

Spustelėkite Užfiksuoti kad pradėtumėte perrašyti savo kalbą į tekstą.

„Whisper Desktop“ parodys tris indikatorius, nurodančius, kada aptinka balso veiklą, kada jis aktyviai perrašomas ir kai procesas sustoja.

Galite kalbėti tiek ilgai, kiek norite, ir kartais turėtumėte pamatyti, kaip mirksi du pirmieji indikatoriai, kai programa paverčia jūsų balsą tekstu. Spustelėkite Sustabdyti kai padaryta.

Pasirinktas tekstinis failas turėtų būti atidarytas numatytajame teksto rengyklėje, kuriame rašytine forma yra viskas, ką pasakėte, kol spustelėjote Sustabdyti.

Turėtume atkreipti dėmesį, kad taip pat galite elgtis priešingai nei matėme čia: konvertuoti bet kokį tekstą į kalbą. Tokiu būdu galite klausytis bet ko taip, tarsi tai būtų podcast'as, o ne varginti akis, žiūrinčias į ekranus. Norėdami gauti daugiau informacijos apie tai, peržiūrėkite mūsų straipsnį kai kurie iš geriausių nemokamų internetinių įrankių, leidžiančių atsisiųsti tekstą į kalbą kaip MP3 garsą.

„Whisper“ darbalaukio rašymo balsu patarimai

Nors Whisper Desktop gali būti gelbėtojas, leidžiantis rašyti balsu daug greičiau, nei galėtumėte įvesti tekstą, jis toli gražu nėra tobulas.

Bandydami nustatėme, kad jis kartais gali mikčioti, praleisti kai kuriuos žodžius, nepavykti transkribuoti, kol rankiniu būdu sustabdyti ir paleisti procesą iš naujo arba įstrigti cikle ir toliau perrašyti tą pačią frazę pakartotinai.

Manome, kad tai yra laikini trikdžiai, kurie bus pašalinti, nes atskiras „Whisper“ neturi tų pačių problemų.

Be tų nedidelių nelygumų, naudojant „Whisper Desktop“ balso pavertimas tekstu turėtų būti paprastas. Vis dėlto, atlikdami bandymus nustatėme, kad jis gali veikti dar geriau, jei...

  1. Užuot ištaręs tik du ar tris žodžius ir pristabdęs, Whisper gali jus geriau suprasti, jei tęsite ilgiau. Stenkitės duoti bent visą sakinį vienu metu.
  2. Dėl tos pačios priežasties venkite pakartotinai pradėti ir sustabdyti transkripcijos procesą.
  3. Kai suprasite, kad padarėte klaidą, nekreipkite dėmesio į tai ir tęskite. Kalbos modelio įkėlimas ir iškrovimas, atrodo, yra daugiausiai laiko reikalaujanti proceso dalis, atsižvelgiant į dabartinę Whisper būseną ir mūsų turimą aparatinę įrangą. Taigi, greičiau kalbėti ir vėliau taisyti klaidas.
  4. Kaip ir naudojant atskirą Whisper versiją, geriausia naudoti turimos aparatinės įrangos optimalų kalbos modelį. Galite naudoti iki vidutinis modelis, jei jūsų GPU turi 8 GB VRAM. Jei norite mažiau VRAM, rinkitės mažesnius modelius. Pasirinkite tik šiek tiek tikslesnius, bet ir daug reiklesnius didelis modelis, jei naudojate GPU su 16 GB ar daugiau VRAM.
  5. Atminkite, kad kuo didesnis kalbos modelis, tuo lėtesnis transkripcijos procesas. Nesirinkite didesnio nei reikia modelio. Tikriausiai pastebėsite, kad „Whisper Desktop“ jau gali jus „suprasti“ didžiąją laiko dalį naudojant vidutinius ar mažesnius modelius, o pastraipoje yra tik viena ar dvi klaidos.

Ar vis dar rašote? Naudokite savo balsą šnabždesiais

Nepaisant to, kad sąrankai reikia šiek tiek laiko, kaip pamatysite išbandę, „Whisper Desktop“ veikia daug geriau nei dauguma alternatyvų, daug didesniu tikslumu ir didesniu greičiu.

Kai pradėsite ją naudoti spausdindami balsu, klaviatūra gali atrodyti kaip senų laikų reliktas.