Onko PDF-asiakirja tai kuva, jonka haluat muuntaa tekstiksi? Äskettäin joku lähetti minulle asiakirjan, jonka tarvitsin muokata ja lähettää korjauksineen. Henkilö ei löytänyt digitaalista kopiota, joten minulle annettiin tehtäväksi saada kaikki tämä teksti digitaaliseen muotoon.
Minulla ei ollut mitään tapaa viettää tunteja kirjoittamalla kaikki takaisin, joten päädyin ottamaan kivaa korkealaatuista kuvaa asiakirjasta ja poltin tietäni joukon online-OCR-palveluita nähdäksesi, mikä voisi antaa minulle parhaan tuloksiin.
Tässä artikkelissa käyn läpi muutamia OCR-suosikkisivustoja, jotka ovat ilmaisia. On syytä huomata, että useimmat näistä sivustoista tarjoavat peruspalvelun ja maksavat vaihtoehtoja, jos haluat lisäominaisuuksia, kuten suurempia kuvia, monisivuisia PDF-dokumentteja, erilaisia syöttökieliä jne.
On myös hyvä tietää etukäteen, että useimmat näistä palveluista eivät pysty vastaamaan alkuperäisen asiakirjan muotoilua. Nämä ovat pääasiassa tekstin poimimista varten ja se on se. Jos tarvitset kaiken olevan tiettyyn ulkoasuun tai muotoon, sinun on tehtävä se manuaalisesti, kun saat kaiken tekstin OCR-tekstistä.
Lisäksi parhaat tulokset tekstin saamiseksi tulevat asiakirjoista, joiden resoluutio on 200-400 dpi. Jos sinulla on pieni DPI-kuva, tulokset eivät ole yhtä hyviä.
Lopuksi, testattiin paljon sivustoja, jotka eivät vain toimi. Jos Google on ilmainen OCR-verkko, näet joukon sivustoja, mutta useiden 10 parhaan joukossa olevan sivuston tulokset eivät edes suorittaneet tulosta. Jotkut aikakatkaistuivat, muut tekisivät virheitä ja jotkut juoksuivat vain "muuntaa" -sivulle, joten en edes vaivaudu mainitsemaan näitä sivustoja.
Kunkin sivuston osalta testasin kaksi asiakirjaa, jotta näen, kuinka hyvin tuotos olisi. Testini käytin vain iPhone 5S: n avulla ottamaan kuvan molemmista asiakirjoista ja lähetin ne sitten suoraan verkkosivustoihin muuntamiseen.
Jos haluat nähdä, mitä kuvat näyttivät, joita käytin testiini, olen liittänyt ne tänne: Test1 ja Test2. Huomaa, että nämä eivät ole puhelimesta otettujen kuvien täysi resoluutio. Käytin täyden resoluution kuvaa ladatessani sivustoihin.
OnlineOCR.net on puhdas ja yksinkertainen sivusto, joka toimitti erittäin hyviä tuloksia testiin. Tärkein asia, josta pidän siitä, että siinä ei ole paljon mainoksia koko paikan päällä, mikä yleensä tapahtuu tällaisten kapealla palvelupisteellä.
Aloita valitsemalla tiedosto ja odota, kunnes se latautuu. Tämän sivuston enimmäiskoko on 100 Mt. Jos rekisteröidyt maksutiliäsi varten, saat muutamia lisäominaisuuksia, kuten suuremman latauskoko, monisivuiset PDF-tiedostot, eri syöttökielet, enemmän tuloksia tunnissa jne.
Valitse sitten syöttökieli ja valitse sitten tulostusmuoto. Voit valita Word, Excel tai Tavallinen teksti. Klikkaa Muuntaa -painiketta ja näet tekstin alareunassa näkyvän tekstin ja latauslinkin.
Jos haluat vain tekstin, kopioi ja liitä se ruutuun. Ehdotan kuitenkin, että lataat Word-dokumentin, koska se on yllättävän hieno työ säilyttää alkuperäisen asiakirjan asettelu.
Esimerkiksi kun avasin Word-dokumentin toisen testiä varten, olin yllättynyt siitä, että asiakirja sisälsi taulukon, jossa oli kolme saraketta, aivan kuten kuvassa.
Kaikista sivustoista tämä oli ylivoimaisesti paras. Se kannattaa rekisteröityä, jos sinun täytyy tehdä paljon tuloksia.
Täydellisyyden vuoksi aion myös linkittää kunkin palvelun luomaa tulostustiedostoa, jotta voit nähdä tulokset itsellesi. Tässä on tulokset OnlineOCR: Test1 Doc ja Test2 Doc.
Huomaa, että avatessasi nämä Word-dokumentit tietokoneellesi, saat Word-sanoman, jossa sanotaan, että se on Internetistä ja muokkaus on poistettu käytöstä. Tämä on täysin OK, koska Word ei luota asiakirjoista Internetistä ja sinun ei todellakaan tarvitse ottaa muokkausta, jos haluat vain tarkastella asiakirjaa.
Toinen sivusto, joka antoi melko hyviä tuloksia, oli i2OCR. Prosessi on hyvin samanlainen: valitse kieli, tiedosto ja paina sitten Poimi teksti.
Sinun täytyy odottaa minuutti tai täällä, koska tämä sivusto vie vähän kauemmin. Myös vaiheessa 2, varmista, että kuvasi näkyy esikatselussa oikealla puolella, muussa tapauksessa saat tulosteeksi joukon halkeamia. Jostain syystä iPhoneni kuvat näyttivät pystyasennossa tietokoneellani, mutta maisema, kun lähetin tälle sivustolle.
Minun piti manuaalisesti avata kuva valokuvien muokkaussovelluksessa, kiertää sitä 90 astetta, kiertää se takaisin muotokuvaan ja tallentaa sen sitten uudelleen. Kun olet valmis, selaa alaspäin ja se näyttää sinulle esikatselun tekstistä sekä latauspainikkeen.
Tämä sivusto lähti melko hyvin ensimmäisen testin tuotosta, mutta ei tehnyt niin hyvin toista testiä, jolla oli sarakekokoonpano. Tässä ovat tulokset i2OCR: Test1 Doc ja Test2 Doc.
Free-OCR.com ottaa kuvat ja muuntaa ne tavalliseksi tekstiksi. Sillä ei ole mahdollisuutta viedä Word-muotoon. Valitse tiedosto, valitse kieli ja napsauta sitten alkaa.
Sivusto on nopea ja saat tuotoksen melko nopeasti. Napsauta linkkiä ladataksesi tekstitiedoston tietokoneellesi.
Kuten alla mainituissa NewOCR: ssä, tämä sivusto aktivoi kaikki T: n asiakirjassa. Minulla ei ole aavistustakaan, miksi se tekisi niin, mutta jonkin outoa syytä varten tämä sivusto ja NewOCR tekivät niin. Se ei ole iso juttu muuttaa sitä, mutta se on työläs prosessi, jota sinun ei todellakaan pitäisi joutua tekemään.
Tässä on tulokset FreeOCR: Test1 Doc ja Test2 Doc.
Jotta voit käyttää FineReader Onlineia, sinun täytyy rekisteröityä tilille, joka saa 15 päivän ilmaisen kokeiluversion OCR: lle jopa 10 sivua ilmaiseksi. Jos tarvitset vain kertaluonteista tekstintunnistusohjelmaa pari sivua, voit käyttää tätä palvelua. Varmista, että napsautat vahvistusviestin vahvistusviestissä rekisteröinnin jälkeen.
Klikkaa Tunnistaa yläosassa ja napsauta sitten upload valitse tiedosto. Valitse kieli, tulostusmuoto ja napsauta sitten Tunnistaa pohjalla. Tällä sivustolla on puhdas käyttöliittymä eikä mainoksia.
Testissäni tämä sivusto pystyi tarttumaan tekstin ensimmäiseen testitietoon, mutta se oli aivan valtava, kun avasin Word-dokumentin, joten päätin tehdä sen uudelleen ja valitsen tavallisen tekstin tulostusmuodoksi.
Toinen testi sarakkeiden kanssa Word-dokumentti oli tyhjä, enkä löytänyt tekstiä. Etkö ole varma, mitä tapahtui siellä, mutta se ei näytä pystyvän käsittelemään muuta kuin yksinkertaisia kohtia. Tässä ovat FineReaderin tulokset: Test1 Doc ja Test2 Doc.
Seuraava sivusto, NewOCR.com, oli OK, mutta ei läheskään yhtä hyvä kuin ensimmäinen sivusto. Ensinnäkin se saa mainoksia, mutta ei oleneksi. Valitse ensin tiedosto ja napsauta sitten esikatselu painiketta.
Voit sitten kiertää kuvaa ja säätää sitä aluetta, johon haluat skannata tekstiä. Se on melko paljon sellaista kuin skannaus prosessi toimii tietokoneella liitteenä skanneri.
Jos asiakirjassa on useita sarakkeita, voit tarkistaa Sivun ulkoasu -painiketta ja yrittää jakaa tekstin ylös sarakkeisiin. Napsauta OCR-painiketta, odota muutama sekunti, kunnes se loppuu ja selaa alaspäin, kun sivu päivittyy.
Ensimmäisessä testissä se sai kaiken tekstin oikein, mutta jostain syystä aktivoi jokaisen T: n asiakirjassa! Ei ole aavistustakaan, miksi se tekisi niin, mutta se teki. Toisessa testissä, jossa sivun analyysi oli käytössä, se sai suurimman osan tekstistä, mutta ulkoasu oli kokonaan pois päältä.
Tässä ovat tulokset NewOCR: Test1 Doc ja Test2 Doc.
Kuten näette, vapaa ei todellakaan anna sinulle kovin hyviä tuloksia suurimman osan ajasta valitettavasti. Ensimmäinen mainittu sivusto on paras, koska se ei ainoastaan tehnyt erinomaista työtä kaiken tekstin tunnistamisessa, vaan onnistui säilyttämään alkuperäisen asiakirjan muodon.
Jos tarvitset vain tekstiä, suurin osa edellä mainituista verkkosivustoista voi tehdä sen sinulle. Jos sinulla on kysyttävää, voit kommentoida. Nauttia!