„OpenAI's Whisper“ yra naujas dirbtinio intelekto sprendimas, galintis paversti jūsų balsą tekstu. Kas geriausia, tai kainuoja nulines.
Tačiau yra vienas dalykas: ją įdiegti ir naudoti yra sudėtingiau nei įprastą „Windows“ paslaugų programą. Ypač jei norite naudoti „Nvidia GPU“ tensorinius branduolius, kad suteiktumėte gerą postūmį.
Vis dėlto nesijaudinkite. Štai kodėl mes čia! Skaitykite toliau, kad sužinotumėte, kaip jį įdiegti ir naudoti, o taip pat, jei turite, kad Whisper pasinaudotų jūsų Nvidia GPU.
Kas yra „OpenAI's Whisper“?
„ChatGPT“ šiais laikais yra labai populiarus, ir mes jau matėme kaip galite naudoti „ChatGPT by OpenAI“.. Ir vis dėlto tai ne vienintelis įdomus OpenAI projektas.
Naudojama gilaus mokymosi ir neuroninių tinklų, „Whisper“ yra natūrali kalbos apdorojimo sistema, galinti „suprasti“ kalbą ir perrašyti ją į tekstą. Bet tai taip pat savaime, sėdi vietoje tarp visų panašių sprendimų:
- Whisper yra dirbtinio intelekto sprendimas, „išmokytas“ natūralios kalbos. Taigi, jis geriau supranta „normalią“ žmogaus kalbą nei senesni sprendimai.
- „Whisper“ neturi sąsajos ir negali įrašyti garso. Jis gali priimti tik esamus garso failus ir išvesties tekstinius failus.
- Kadangi Whisper puikiai geba „įprasminti kalbą“, „Whisper“ taip pat turi automatinio vertimo supergalią vienu žingsniu.
- Whisper nėra internetinė paslauga ir gali veikti visiškai neprisijungus.
- Jei turite palyginti modernų Nvidia GPU (GTX970 arba naujesnį), Whisper gali veikti „aparatinės įrangos pagreitintu režimu“, kad padidintų greitį.
- Nereikia registruotis, įsigyti licencijos ar prenumeratos.
Kodėl AMD GPU nepalaikomi?
Kad GPU būtų naudingi ne tik grafiniam naudojimui, jie turėtų veikti kaip visiškai programuojami procesoriai. Štai kodėl „Nvidia“ sukūrė CUDA, oficialiai laikomą „lygiagrečia skaičiavimo platforma ir programavimo modeliu“. Norėdami sužinoti daugiau apie CUDA ir susijusią aparatinę įrangą („CUDA branduoliai“), skaitykite mūsų straipsnį apie kas yra CUDA branduoliai ir kaip jie pagerina žaidimus kompiuteriu.
CUDA yra patentuota Nvidia technologija, suderinama tik su Nvidia GPU. Artimiausios AMD aparatinės įrangos alternatyvos yra OpenCL ir Radeon Compute Platform. Norėdami sužinoti daugiau apie tai, kaip lyginami kiekvienos įmonės sprendimai, peržiūrėkite mūsų straipsnį AMD skaičiavimo įrenginiai vs. Nvidia CUDA branduoliai.
Palyginti su alternatyvomis, CUDA laikoma brandesne, našesne ir lengviau naudojama. Taigi dauguma kūrėjų taikosi tik į CUDA, o tai savo ruožtu reiškia, kad jų programinė įranga naudojasi tik Nvidia GPU techninės įrangos funkcijomis. Ir tai apima Whisper.
Kaip atsisiųsti ir įdiegti Whisper
Deja, „Whisper“ nėra atskira programa, kurią galite atsisiųsti, įdiegti ir paleisti. Ji priklauso nuo kitos programinės įrangos, kuri taip pat turi būti įdiegta.
„Windows“ sistemoje, kad šis vadovas būtų paprastas, mes plačiai naudosime „Chocolatey“ diegdami daugumą būtinų programinės įrangos dalių. Peržiūrėkite mūsų vadovą greičiausias būdas įdiegti „Windows“ programinę įrangą Norėdami gauti daugiau informacijos apie Chocolatey.
„Linux“ ir „Mac“ kompiuteriuose diegimo procesas (išskyrus „Windows“ kelio kintamąjį ir lengvai naudojamus paketinius failus, kuriuos sukursime) turėtų būti panašus.
- Norėdami įdiegti ir naudoti „Whisper“, turite turėti Python ir tai PIP įdiegtas įrankis ir pridėtas prie „Windows“ kintamojo „Path“. Norėdami gauti daugiau informacijos apie tai, peržiūrėkite mūsų straipsnį kaip įdiegti Python PIP sistemoje Windows, Mac ir Linux.
- Diegti FFMPEG per Chocolatey su šia komanda:
Taip pat įdiekite jos Python versiją su:šokoladas diegti ffmpeg
pip3 diegti python-ffmpeg
- Galiausiai įdiekite „Whisper“ iš „Github“ puslapio su:
pip3 įdiegti git+https://github.com/openai/whisper.git
Kaip gauti Whisper CUDA įgalintą versiją
Nors Whisper nenaudoja Nvidia GPU, deglas paketas, kuriuo jis remiasi, siūlo CUDA pagreitintą versiją. Naudojant šią vietoj „paprastos“ versijos, „Whisper“ gali daug greičiau užbaigti transkripcijas, naudojant „Nvidia“ GPU.
Norėdami turėti Whisper, naudokite savo Nvidia GPU CUDA branduolius:
- Jei jau įdiegėte „vanilinę“ degiklio versiją, pašalinkite ir išvalykite jos likučius naudodami:
Kai tai bus padaryta, atlikite toliau nurodytus veiksmus.pip3 pašalinti deglas
pip talpyklavalymas
- Įdiekite žibintuvėlio CUDA versiją su:
pip3 diegti torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
- Norėdami patikrinti, ar Whisper gali naudoti jūsų Nvidia GPU, naudokite:
Turėtum pamatyti (numatytasis nustatymas: cuda) vietoj (numatytasis: CPU).šnibždėti --pagalba | findstr -i pytorch
Ką daryti, jei žibintuvėlio nepavyksta įdiegti
Jei diegdami žibintuvėlį susiduriate su klaida „versija nerasta“, gali tekti įdiegti senesnę Python versiją lygiagrečiai su dabartine.
Norėdami tai padaryti, naudokite šią komandą:
šokoladas diegti pitonas --versija OLDER_VERSION --greta
Pakeiskite „OLDER_VERSION“ versija, pvz., 3.10.
Tada naudokite antrinės versijos kelią visoms „bendrinėms“ „Whisper“ komandoms (pvz., „c:\Python310\Scripts\pip.exe“, o ne tik „pip“).
Kaip įrašyti savo balsą
Galite naudoti bet kurią garso įrašymo programą, kad paverstumėte savo balsą WAV arba MP3 failu. „Windows“ turi tokią programą – daugiau informacijos apie tai žr kaip naudoti „Windows 10“ balso įrašymo programą.
Jei norite gauti daugiau funkcijų, pabandykite Audacity. Sužinokite, kaip tai padaryti, naudodami mūsų vadovą kaip naudoti „Audacity“ garso įrašymui „Windows“ ir „Mac“..
Kaip pradėti perrašyti šnabždesiais
Nors „Whisper“ neturi patogios grafinės sąsajos, jos naudojimas yra itin paprastas.
Tarkime, kad failą turime LatestNote.mp3 kuriame yra kalba graikų kalba, aplanke c:\MyAudioFiles, ir norite išversti į anglų kalbą bei perrašyti į tekstinį failą.
- Pradedame nuo bėgimo Komandinė eilutė arba PowerShell.
- Mes „pakeičiame katalogą“, kuriame saugomas garso failas, naudodami šią komandą:
cd C:\MyAudioFiles
- Mes atskleidžiame Whisper faile su:
šnibždėti--modelisbazė-- kalbagr--užduotisišverstiNaujausia pastaba.mp3
Apdorotas tekstinis failas (pavadintas „LatestNote.mp3.txt“) bus rodomas tame pačiame aplanke. Atidarykite jį teksto rengyklėje, pvz Užrašų knygelė norėdami peržiūrėti išverstą tekstą.
Naudojome vertimo pavyzdį, nes transkripcija anglų kalba yra dar paprastesnė: tereikia „prarasti“ žymas „--language“ ir „-task“. Taigi paprastam transkripcijai aukščiau pateikta komanda būtų tokia:
šnibždėti--modelisbazėNaujausia pastaba.mp3
„Modelio“ vėliavėlė reikalinga, nes „Whisper“ naudoja vieną iš įvairių parinkčių. Išplėskime jas, kad padėtume jums pasirinkti geriausią pagal jūsų poreikius.
Kurį modelį pasirinkti?
Whisper siūlo įvairius kalbų modelius. Kuo didesnis modelis, tuo geresnis jo tikslumas, bet tuo pat aukštesni techninės įrangos reikalavimai. Jie yra:
- Mažas.
- Bazė.
- Mažas.
- Vidutinis.
- Didelis.
Daugumai anglų kalbos turėtų būti gerai mažas arba bazė modeliai. Asmenys, kuriems anglų kalba nėra gimtoji, gali matyti geresnius rezultatus naudodami didesnius modelius, pvz., mažas ir vidutinis.
Tačiau atminkite, kad vidutiniams ir dideliems modeliams reikia daugiau nei 8 GB VRAM (tai yra „jūsų GPU atmintis“).
Norėdami pasirinkti vieną iš jų, nurodykite modelį po jungiklio „--model“ komandoje:
šnibždėti -- modelis mažas / mažas / vidutinis / didelis [failas]
Pavyzdžiui:
šnibždėti--modelismažasMano_Balso_Pastaba.mp3
Kaip supaprastinti savo transkripciją
Kiekvieną kartą, kai norite perrašyti garso įrašą, reikia įvesti visą „Whisper“ komandą, gali greitai pasidaryti nuobodu. Sukurkime visuotinai prieinamą paketinį failą, kad supaprastintume procesą.
- Bėk „Windows Explorer“. ir apsilankykite savo C: diske.
- Sukurkite savo scenarijų aplanką ir nukopijuokite jo kelią į mainų sritį.
- „Windows“ meniu Pradėti ieškokite „kelias“ ir pasirinkite Redaguokite sistemos aplinkos kintamuosius.
- Surask Kelias kintamasis pagal YOUR_USERNAME naudotojo kintamieji. Norėdami redaguoti, dukart spustelėkite jį. Spustelėkite Naujair įklijuokite kelią į scenarijų aplanką. Spustelėkite Gerai priimti pakeitimus.
- Grįžkite į scenarijų aplanką „Windows Explorer“. Ten sukurkite naują paketinį failą pavadinimu „wht.bat“. Jo viduje įdėkite šią komandą:
šnibždėti --model tiny --language lt %1
- Sukurkite dar du paketinius failus „whs“ ir „whm“.
- Įdėkite tai į pirmąjį scenarijų:
šnibždėti --model small --language lt %1
- Įdėkite tai į antrąjį:
šnibždėti --model medium --language lt %1
Sveikiname, dabar turite tris scenarijus, kad galėtumėte lengvai naudoti mažus, mažus ir vidutinius Whisper modelius su garso failais! Norėdami perrašyti bet kurį garso failą į tekstą:
- Raskite failą naudodami „Windows“ failų naršyklė.
- Dešiniuoju pelės mygtuku spustelėkite tuščioje vietoje ir pasirinkite Atidaryti terminale.
- Įveskite šią komandą, pakeisdami „wht“ į „whs“ arba „whm“, kad galėtumėte naudoti mažos arba vidutinės kalbos modelius:
kąYOUR_AUDIO_FILE.mp3
Rašykite garso greičiu šnabždėdami
Net patys greičiausi spausdinimo meistrai negali prilygti greičiui, kuriuo kalbame. Tačiau iki šiol kalbėti, o ne rašyti, nebuvo optimalu kuriant dokumentus.
Dauguma balso į tekstą sprendimų davė vidutiniškus rezultatus. Galite rasti keletą sprendimų, kuriuos verta išbandyti, tačiau juos buvo sudėtinga naudoti arba jie buvo brangūs. Laimei, Whisper visa tai pakeitė.
Atlikę aukščiau nurodytus veiksmus, turėtumėte būti pasirengę labai tiksliai transkribuoti arba išversti savo balsą naudodami tik vieną komandą.