Jei esate studentas arba jūsų darbas susijęs su daugybe vaizdų ir PDF failų, tam tikru momentu jautėte poreikį išgauti tekstą iš vaizdo ar dokumento.

Laimei, tai leidžia išgauti tekstą. Ir yra keletas įrankių, kuriais galite tai padaryti. gImageReader yra vienas iš daugelio įrankių. Juo naudotis galima nemokamai ir jis veikia tiek su vaizdo failais, tiek su PDF dokumentais.

Išsamiai išnagrinėkime „gImageReader“ ir sužinokime, kaip galite ją panaudoti tekstui iš vaizdų ir PDF failų išgauti.

Kas yra gImageReader?

„gImageReader“ yra programa, leidžianti išgauti tekstą iš vaizdų ir PDF failų sistemoje „Linux“. Iš esmės tai yra GUI arba sąsaja Tesseact OCR variklis, an atviro kodo Hewlett-Packard sukurtas variklis, kuris laikomas vienu geriausių turimų OCR variklių.

Naudodami gImageReader galite lengvai ir gana tiksliai išgauti tekstą iš vaizdų ar PDF dokumentų keliais paprastais paspaudimais. Tada galite eksportuoti ištrauktą tekstą į tekstinį arba PDF failą tolesniam naudojimui.

„gImageReader“ funkcijos

instagram viewer

„gImageReader“ turi šias funkcijas:

  • Importuokite PDF dokumentus ir vaizdus iš skirtingų šaltinių (disko, nuskaitymo įrenginių, iškarpinės ir ekrano kopijos)
  • Atvaizdų ar dokumentų paketinis apdorojimas, t. y. ištraukite tekstą iš kelių vaizdų ar dokumentų vienu metu
  • Atpažinkite teksto fragmentus kaip paprastą tekstą arba hOCR dokumentus
  • Integruotas rašybos tikrintuvas
  • Automatinis teksto srities aptikimas
  • Pagrindinis vaizdo / dokumento redagavimas
  • Išsaugokite išvestį kaip tekstinį failą

Kaip įdiegti „gImageReader“ sistemoje „Linux“.

„gImageReader“ pasiekiama dauguma pagrindinių Linux platinimų. Tačiau prieš pradėdami diegti, savo sistemoje turite įdiegti Tesseract OCR variklį.

Norėdami tai padaryti, atidarykite Programinės įrangos tvarkyklė savo sistemoje ir ieškokite tesseraktas. Kai jis pateikia rezultatų sąrašą, įdiekite tesseraktas-ocr ir tesseract-ocr-eng paketus. Taip pat galite naudoti komandinės eilutės paketų tvarkykles, kad įdiegtumėte paketą, jei jums patogiau naudoti terminalą.

Po to peržiūrėkite diegimo instrukcijas tolesniuose skyriuose, kad įdiegtumėte gImageReader kompiuteryje.

Jei naudojate Debian arba Ubuntu, atidarykite terminalą ir paleiskite toliau pateiktas komandas, kad įdiegtumėte gImageReader:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-gauti atnaujinti
sudo apt diegti gimagereader

„Fedora“, „CentOS“ arba „Red Hat Enterprise Linux“ (RHEL):

sudo dnf diegti gimagereader-qt 

Įjungta Arch Linux arba Manjaro:

sudo pacman -S gimagereader

openSUSE vartotojai gali įdiegti gImageReader naudodami:

sudo zypper diegti gimagereader

Jei naudojate bet kurį kitą Linux platinimą, galite sukurti gImageReader iš šaltinio, vadovaudamiesi instrukcijomis, pateiktomis adresu gImageReader GitHub.

Kaip naudoti „gImageReader“ sistemoje „Linux“.

„gImageReader“ yra gana paprasta naudoti ir veikia su visų rūšių vaizdo failais bei PDF dokumentais. Vykdykite toliau pateiktas instrukcijas, kad ištrauktumėte tekstą iš vaizdų ar PDF failų sistemoje „Linux“.

Atidarykite programų meniu, ieškokite gImageReaderir paleiskite programą. Paspauskite Maksimaliai mygtuką gImageReader lange, kad atidarytumėte jį viso ekrano rodinyje.

Dabar spustelėkite Pridėti paveikslėlių mygtuką kairiojoje srityje po įrankių juosta ir naudokite failų naršyklę, kad pasirinktumėte vaizdą (-ius) arba PDF (-ius), iš kurių norite išgauti tekstą.

Spustelėkite Gerai norėdami importuoti vaizdą (-ius) arba PDF (-ius) į gImageReader. Arba, jei norite išgauti tekstą iš to, kas rodoma ekrane, spustelėkite šalia esantį išskleidžiamąjį meniu Pridėti paveikslėlių mygtuką ir pasirinkite Padaryti ekrano nuotrauką. „gImageReader“ padarys ekrano turinio ekrano kopiją.

Pridėję vaizdą prie gImageReader, spustelėkite Perjungti išvesties sritį mygtuką (vienas su užrašų knygelės piktograma), kad būtų parodyta išvesties sritis. Čia rodomas tekstas, kurį ištraukiate iš vaizdų ar PDF.

Priklausomai nuo to, kaip norite tęsti, dabar turite galimybę automatiškai arba rankiniu būdu identifikuoti tekstą paveikslėlyje arba PDF formatu. Norėdami tai padaryti automatiškai, spustelėkite Automatiškai aptikti išdėstymą mygtuką ir jis paryškins visus teksto blokus pasirinktame paveikslėlyje arba PDF dokumente.

Po to bakstelėkite Atpažinti pasirinkimą > Dabartinis puslapis Norėdami pradėti teksto ištraukimo procesą.

Arba, norėdami pasirinkti tekstą rankiniu būdu, užveskite pelės žymeklį virš teksto, kurį norite išgauti, ir kryželiu nubrėžkite laukelį aplink sritį, iš kurios norite išgauti tekstą. Tada paspauskite Atpažinti pasirinkimą mygtuką tęsti.

Jei tai PDF dokumentas ir norite išgauti tekstą iš skirtingų puslapių, bakstelėkite Pliusas (+) mygtuką, norėdami apversti puslapius.

Norėdami grįžti atgal, paspauskite Minusas (-) mygtuką. Tada pasirinkite tekstą, kurį norite išgauti, ir paspauskite Atpažinti pasirinkimą mygtuką, kad jį ištrauktumėte.

Nors ir retai, kartais gImageReader gali grąžinti ištrauktą tekstą kita nei anglų kalba. Kai tai atsitiks, tiesiog bakstelėkite šalia esantį išskleidžiamąjį mygtuką Atpažinti pasirinkimą mygtuką ir pasirinkite vieną iš anglų kalbos parinkčių.

Galiausiai, norėdami išsaugoti ištrauktą tekstą, spustelėkite Išsaugoti išvestį mygtuką. Tai atvers langą Išsaugoti. Čia suteikite failo pavadinimą ir paspauskite Gerai.

Ką dar galite padaryti naudodami „gImageReader“?

Kaip minėta anksčiau, „gImageReader“ taip pat suteikia galimybę keisti tam tikrus importuotų vaizdų ar dokumentų aspektus, pvz., ryškumą, kontrastą ir skyrą. Be to, jei reikia, galite apversti spalvas arba pasukti vaizdus ar dokumentus.

Dauguma šių parinkčių gali būti naudingos, kai vaizde ar dokumente esantis tekstas neįskaitomas programai „gImageReader“, todėl įrankiui neleidžiama atpažinti teksto.

Norėdami pasiekti bet kurią iš šių redagavimo parinkčių, spustelėkite Vaizdo valdikliai mygtuką ir po pagrindine įrankių juosta bus parodyta mini įrankių juosta. Iš čia pasirinkite atitinkamus mygtukus, kad atliktumėte pageidaujamą vaizdo ar dokumento redagavimo operaciją.

Teksto ištraukimas sistemoje „Linux“ yra paprastas naudojant „gImageReader“.

Tekstui išgauti dažnai reikia tinkamo įrankio: tokio, kuriame būtų naudojamas patikimas ir tikslus OCR variklis leidžia efektyviai identifikuoti tekstą paveikslėlyje ar dokumente, todėl galite jį efektyviai išskleisti be jokių vargo.

„gImageReader“ tai puikiai atlieka dėl fone naudojamo „Tesseract“ OCR variklio. Atsižvelgiant į naudojimo paprastumą, „gImageReader“ neabejotinai yra vienas geriausių „Linux“ teksto ištraukimo įrankių.

Arba, jei ieškote paprastesnio sprendimo, galite patikrinti „TextSnatcher“, kuri yra greita ir gana paprasta naudoti.