Soovitatav, 2020

Toimetaja Valik

Teksti eemaldamine nendest parimatest OCR-tarkvaraga piltidest

Nendel päevadel on peaaegu kõik (nt fotod, muusika, videod) läinud digitaalseks (ja see on mõistlik, sest digitaalset sisu saab mugavalt hallata, muuta ja jagada). Niisiis, kuidas saavad tekstid jääda maha. Tänu optilise märgituvastuse (OCR) tehnikate edusammudele on nüüdseks lihtsam kui kunagi varem digiteerida teksti sisu trükitud / käsitsi kirjutatud dokumentides, muutes selle redigeeritavaks tekstitöötlusprogrammidega.

Selleks on vaja mõningaid tõeliselt häid OCR-i rakendusi ja just see on see artikkel. Need tarkvarad võivad hankida skaneerimisseadmetest prinditud allikate dokumendid või sisestada oma dokumendi pilte, mida saab muuta redigeeritavaks tekstiks. Huvitav? Noh siis ärge pekske ümber põõsa ja saage 5 parima OCR-tarkvara juurde .

1. ABBYY FineReader

Kui tegemist on optilise märgituvastusega, siis pole peaaegu midagi, mis oleks ABBYY FineReaderi lähedal. Laaditud ääreni koos hulga jõuallikate omadustega, teeb ABBYY FineReader igat liiki piltide väljavõtte imelihtne.

ABBYY FineReader on väga lihtne kasutada funktsioone ja funktsioone. See võib eraldada teksti peaaegu igasugustest populaarsetest pildivormingutest, näiteks PNG, JPG, BMP ja TIFF. Ja see pole veel kõik. ABBYY FineReader saab ka PDF- ja DJVU-failidest väljavõtte teha. Kui allikate fail või pilt (mis peaks optimaalse skaneerimise jaoks eelistatavalt olema vähemalt 300 dpi), laaditakse programm selle läbi ja määrab automaatselt välja ekstraheeritava teksti erinevad osad. Teil on võimalik kas kogu tekst välja tõmmata või valida ainult mõned konkreetsed sektsioonid. Pärast seda on kõik, mida sa pead tegema, valima suvand Salvesta, et valida väljundvorming ja ABBYY FIneReader hoolitseb ülejäänud eest. Toetatud on palju väljundvorminguid, näiteks TXT, PDF, RTF ja isegi EPUB.

Väljundtekst on täiuslikult redigeeritav ning tekst kõige sisulisematest dokumentidest (nt need, millel on mitu veergu ja keerulised paigutused) eraldatakse veatult. Muud funktsioonid hõlmavad ulatuslikku keeletoetust, arvukaid kirjatüüpe / suurusi ning skanneritest ja kaameratest pärinevate failide korrigeerimise tööriistu.

Lühidalt öeldes, kui soovite, et seal oleks absoluutne parim OCR tarkvara koos ulatusliku sisend / väljundi vorminguga ja töötlemistoega, siis mine ABBYY FineReaderi.

Platvormi kättesaadavus: Windows 10, 8, 7, Vista ja XP; Mac OS X 10.6 ja uuemad

Hind: Tasulised versioonid algavad $ 169.99, 30 päeva tasuta prooviversioon

Lae alla

2. Readiris

On äärmiselt võimas OCR tarkvara, mis on raske funktsioone, kuid ei tõesti võtab palju jõupingutusi, et alustada? Heitke pilk Readirisele, sest see võib olla just see, mida vajate.

Professionaalse klassi rakendusel on Readiris'el ulatuslik funktsioonide komplekt, mis on suures osas identne eelnevalt käsitletud ABBYY FineReaderiga. Alates BMP-st PNG-le ja PCX-st TIFF-ile toetab Readiris üsna vähe pildivorminguid. Peale selle saab PDF- ja DJVU-faile sama hästi töödelda. Pilte saab hankida skanneri seadmetest ja rakenduse abil saate enne nende analüüsimist seadistada kohandatud töötlusparameetreid lähtefailide / piltide jaoks, nagu näiteks silumis- ja DPI-reguleerimine. Kuigi Readiris saab töödelda madalama eraldusvõimega pilte just hästi, peaks optimaalne eraldusvõime olema vähemalt 300 dpi. Kui analüüs on läbi viidud, määrab Readiris tekstiosad (või tsoonid) ja teksti saab eraldada kas konkreetsetest tsoonidest või kogu failist. Ekstraheeritud tekst on redigeeritav ja seda saab salvestada mitmes vormingus, näiteks PDF, DOCX, TXT, CSV ja HTM.

Veelgi enam, Readiris Pro pilvesäästufunktsioon võimaldab teil otse väljavõtetud teksti salvestada erinevatesse pilvemälu teenustesse nagu Dropbox, OneDrive, GoogleDrive ja seejärel veel mõned. Samuti on olemas terve hulk teksti redigeerimise / töötlemise funktsioone ning isegi vöötkoode saab skaneerida.

Kokkuvõttes peaksite kasutama Readirist, kui soovid lihtsa kasutusega paketis tugevaid tekstide ekstraheerimise / redigeerimise funktsioone koos ulatusliku sisend / väljundi vormingu toega. Readiris teeb siiski keeruliste skeemidega dokumentide töötlemise, näiteks mitme veeru, tabeli jne.

Platvormi kättesaadavus: Windows 10, 8, 7, Vista ja XP; Mac OS X 10.7 ja uuem

Hind: Tasulised versioonid algavad $ 99, 10 päeva tasuta prooviperioodil

Lae alla

3. FreeOCR

Kui otsite lihtsat ja hämmastavat OCR-tarkvara, millel on korralikud tekstituvastusvõimalused, vaata, mitte kaugemale kui FreeOCR . Kuigi see ei pruugi olla igasuguste väljamõeldud funktsioonidega üle koormatud, toimib see siiski väga hästi.

Tänu äärmiselt populaarsele Google'i toetatud Tesseract OCR-i mootorile on FreeOCR-i kasutamine väga lihtne. See võib saada skannerite kaudu skaneeritud trükitud dokumente ning võimaldab teil laadida ka teksti, millel on tekstiline sisu. Mitte ainult seda, see võib ka väljavõtte teksti tugevalt vormindatud mitme lehekülje dokumentidest. Rakendusel võib olla kas kogu tekstist PDF-i / pildi tekst või määrata konkreetne tekstiosa. Konversioonikiirused on päris head ja konverteeritud teksti saab salvestada TXT ja RTF-vormingusse või eksportida otse Microsoft Wordi. FreeOCR toetab kõiki peamisi pildivorminguid, nagu PNG, JPG ja TIFF.

Sellegipoolest on FreeOCRil mõned puudused. See on liiga tavaline ja ei sisalda teksti järeltöötlusfunktsioone. Veelgi enam, ekstraheeritud teksti paigutus läheb tihti segadusse, kattuvate joonte ja veergudega. Kasutage seda ainult siis, kui vajate juhusliku kasutuse jaoks mõningaid põhilisi OCR-funktsioone.

Platvormi kättesaadavus: Windows 10, 8, 7, Vista ja XP

Hind: tasuta

Lae alla

4. Microsoft OneNote

OneNote on muljetavaldav funktsioonirikas rakendus, mis on samuti lihtne alustada. Kuid notetaking ei ole ainus asi, mis on hea. Kui kasutate OneNote'i oma töövoo osana, saate seda kasutada mõne põhilise teksti väljavõtte tegemiseks tänu sellele ehitatud OCR-i headusele.

OneNote'i kasutamine piltide väljavõtmiseks on naeruväärselt lihtne. Kui kasutate töölaua rakendust, peate kasutama ainult suvandit Lisa, et sisestada pilt mis tahes sülearvutisse või sektsioonidesse. Kui see on valmis, klõpsa pildil lihtsalt paremklõps ja valige suvandist Kopeeri tekst pildist. Kogu teksti tekstiline sisu kopeeritakse lõikepuhvrisse ja seda saab kleepida (ja seega muuta) kõikjal vastavalt nõudele. Kas see on PNG, JPG, BMP või TIFF, toetab OneNote peaaegu kõiki peamisi pildivorminguid.

Kuid OneNote'i tekstiekstraktsioonivõimalused on üsna piiratud ja ei saa käsitleda kujutisi, millel on keerulised tekstisisu paigutused nagu tabelid ja alamrubriigid. Nii et see on midagi, mida peaksite meeles pidama.

Platvormi kättesaadavus: Windows 10, 8, 7 ja Vista; Mac OS X 10.10 ja uuem

Hind: tasuta

Lae alla

5. GOCR

Märkus: Enne alustamist on oluline teada, et kuigi GOCR toetab tavalisi kujutise vorminguid, nagu PNG ja JPG, ei suutnud nad meie testimise ajal neid Windows 10 operatsioonisüsteemis (PC 10) teostada. On väga võimalik, et see võib töötada nende formaatidega Linuxi masinatel, kuid kui te kasutate Windowsi, peate teisendama lähtepildi (d) PNM-vormingusse. Seda saab teha arvukate veebifailide konverteerimisvahendite kaudu, nagu see.

Mis seab GOCRi peale partii, on see, et sellel ei ole graafilist kasutajaliidest (GUI). See on käsureal põhinev tööriist ja sellisena ei ole see kõige lihtsam kasutada. Aga kui olete põhitõedega rahul, võib GOCR osutuda tõesti kasulikuks tekstide väljavõtmisel piltidest. Samuti väärib märkimist, et GOCRi korralikuks töötamiseks peaks lähtekujutistel olema selgelt nähtav tekstiline sisu ja soovitavalt valge taust, kuna utiliit ei tööta tegelikult keeruliste lähtefailidega. GOCR ekstraktib teksti piltidest ja salvestab need TXT-vormingus. Kuigi see toetab üsna vähe argumente ja funktsioone, peab alustamiseks olema teada vaid mõned. Näiteks selleks, et ekstraktida PNM-pildist proovi, tuleb käsureale sisestada järgmine.

X: proovi kaust coc049 -i file.pnm -o file.txt

Siin, X: proovi kaust on koht, kus asub GOCRi käsurea tööriist ja fail.p.mm ja file.txt on vastavalt sisend- ja väljundfailid (mõlemad asuvad samas kohas GOCR-iga; kui asukoht on erinev, tuleb täpsustada kogu tee). Samuti, kui soovite muuta pilti halltoonide tasemeid, saate argumenti lisada ka arvulise väärtuse koos l-ga. Üksikasjalikuma kasutamise kohta lugemiseks klõpsake siia.

Kokkuvõtteks võib öelda, et GOCR on üsna hea OCR-i utiliit, ja kui tegemist on lihtsast pildist väljavõtte tegemisega, töötab see erakordselt hästi. Siiski on see funktsioonide poolest piiratud ja nõuab töötamiseks üsna palju jõupingutusi.

Platvormi kättesaadavus: Windows 10, 8, 7, Vista ja XP; Linux; OS / 2

Hind: tasuta

Lae alla

Kõik seatud piltide teisendamiseks tekstiks?

Trükitud (ja käsitsi kirjutatud) teksti sisu digiteerimine on äärmiselt kasulik, kuna see muudab teksti salvestamise, redigeerimise ja jagamise väga lihtsaks. Ja ülalkirjeldatud OCR-tarkvara teeb just selle tegemise kiireks tööks, olenemata sellest, kui põhilised või täiustatud on teie teksti kaevandamise vajadused. Kas vajate professionaalse taseme tekstide ekstraheerimise funktsioone parimate järeltöötlusvahenditega? Minge ABBYY FineReaderi või Readirise jaoks. Kas eelistaks lihtsamat OCR-tarkvara, mis lihtsalt teeb põhitõed? Kasutage OneNote'i või FreeOCR-i. Proovige neid läbi ja vaadake, kuidas nad teie jaoks välja töötavad. Teate mis tahes muud OCR-i tarkvara, mis oleks võinud ülaltoodud loetellu lisada? Hüüdke allpool toodud kommentaarides.

Top