Yksi asioita, jotka ovat usein turhauttaneet minua, on kyvyttömyys helposti kopioida tekstiä kuvista ja tietyistä PDF-tiedostoista (esim. Ne, jotka on luotu skannattuista asiakirjoista). Onneksi ajan mittaan on kehitetty ohjelmistoratkaisuja tämän ongelman ratkaisemiseksi, mikä säästää huomattavasti aikaa, joka muuten olisi kulunut tekstin manuaaliseen kopiointiin ja uudelleen kirjoittamiseen. Tämänpäiväisessä kärjessäni puhun ilmaisesta ohjelmistotyökalusta nimeltä Capture2Text, joka käyttää optisen merkkien tunnistus (OCR) -algoritmia, jonka avulla voit kaapata tekstiä kuva- ja PDF-tiedostoista.
Asennus ja asennus
Aloita siirtymällä projektin SourceForge-sivulle ja lataamalla uusin Capture2Text-versio. Ohjelmisto toimitetaan zip-arkistona, eikä siihen tuolloin kuulu erillistä asentajaa. Kun olet ladannut, pura arkisto ja käynnistä Capture2Text.exe-tiedosto. Tämä käynnistää ohjelmiston ja laittaa kuvakkeen alas ilmaisinalueelle:
Ensinnäkin sinun on määritettävä ohjelmiston asetukset, erityisesti mitä pikanäppäimiä (tai pikanäppäimiä) käytetään sieppauksen aloittamiseen ja lopettamiseen:
Minun tapauksessani olen päättänyt käyttää “Windows + q” -näppäimiä aloittamaan sieppauksen ja “Enter” lopettaaksesi sen. Voit säätää nämä vaihtoehdot parhaiten sopiviksi. Muista, että “Windows + s” -näppäintä käytetään usein jo näytön kaappaamiseen (esim. Ohjelmat, kuten Microsoft One Note).
Seuraavassa välilehdessä OCR-asetukset voidaan määrittää sisältäen syöttökieli (tällä hetkellä tuetaan seitsemää kieltä) ja sitä, käytetäänkö OCR-esikäsittelyä tarkkuuden parantamiseksi (erittäin suositeltavaa). Lopuksi Tuloste-välilehdessä voidaan valita muun muassa, tallennetaanko siepattu teksti leikepöydälle vai avataanko erillinen ponnahdusikkuna.
Ohjelmiston käyttäminen
Kun ohjelmisto on asennettu ja määritetty, voit aloittaa sen käytön aloittamisen sieppauksen pikanäppäinyhdistelmällä. Valitse hiiren avulla kuvasta alue, joka sisältää kaapattavan tekstin. Voit lopettaa sieppauksen napsauttamalla vain pikanäppäintä, jonka valitsit pysäyttääksesi kaappauksen. Teksti kopioidaan sitten joko leikepöydälle, tulostuksen ponnahdusikkunaan tai molempiin. Alla on esimerkki.
Pikatestin avulla työkalua kuvien avulla olen todennut sen tarkkuuden olevan kunnollinen. On selvää, että tämänkaltaisille työkaluille ja yleensä OCR: lle on rajoituksia. Esimerkiksi voimakkaasti muokattu teksti (erittäin kursivoiva, kursivoitu tai moderni) ei välttämättä toimi yhtä hyvin, ja joskus ei ollenkaan. Joissakin tapauksissa se auttaa säätämään sieppausrasian mittoja hiukan tai pelaamaan itse kuvan zoomauksella saadaksesi tarkemman tuloksen.
Kun sieppataan tekstiä skannattuista PDF-asiakirjoista, tarkkuus on kunnossa. Muutamia lopullisia muutoksia tarvitaan yleensä kaapattuun tulostukseen (alkuperäisen skannauksen laadusta riippuen). Olen myös huomannut, että ohjelmiston käsittely voi viedä muutaman sekunnin kauemmin, varsinkin kun minua on pyydetty muuntamaan suuria määriä tekstiä.
Kaiken kaikkiaan mielestäni työkalu tekee hyvää työtä, varsinkin kun se on vapaasti saatavilla - rohkenen sinua kokeilemaan sitä.
Lisäys 16.11.2015:
Toisena vaihtoehtona niille, joilla on Google-tili, on myös mahdollista käyttää Googlen tekstintunnistusominaisuuksia lähettämällä tiedosto Google Driveen (lisätietoja löytyy täältä). Lisäksi Google Chromen käyttäjille on saatavana OCR-laajennus, nimeltään Copyfish, jonka haluat myös tarkistaa.
