If-Koubou

Kuinka tekstin voi kopioida PDF-muotoa säilyttäen muotoilu?

Kuinka tekstin voi kopioida PDF-muotoa säilyttäen muotoilu? (Miten)

PDF, joka on kaikkialla käytössä oleva dokumenttiformaatti, sopii erinomaisesti asiakirjojen jakamiseen säilyttäen fontit, kuvat ja yleisen asettelun eri alustoille. Onko olemassa kuitenkin helppo tapa säilyttää tämä hyvin muotoilu kopioimalla ja liittämällä tekstiä asiakirjasta?

Tämän päivän kysymys- ja vastausistunto tulee meihin SuperUserin hyväksi - Stack Exchangein alaosasto, joka on yhteisöllinen Q & A-sivustojen ryhmittely.

Kysymys

SuperUser-lukija Colen etsii tapaa poimia tekstiä PDF-tiedostoista säilyttäen muotoilun:

Kun kopaan tekstiä PDF-tiedostosta ja tekstieditoriksi, se päätyy hajautettuun monin eri tavoin. Muotoilu kuten lihavointi ja kursiivi menettää; tekstin kappaleessa olevat pehmeät riviosuudet muunnetaan kovan linjan katkeiksi; viivat rikkomaan sanaa kahteen riviin säilyvät, vaikka ne eivät olisikaan; ja yhden ja kaksinkertaisen lainausmerkinnät korvataan? merkkejä.

Ihannetapauksessa haluaisin pystyä kopioimaan tekstin PDF-tiedostosta ja muotoilemalla HTML-koodit, "älykkäät lainausmerkit" muunnettuiksi "ja" ja rivinvaihtelut tehty oikein. Onko mitään tapaa tehdä tämä?

Onko Colenille (ja muillekin) helppo ja nopea tapa saada teksti tarttumatta muotoilusta?

Vastaus

SuperUser-avustaja Frabjous tarjoaa ratkaisun, johon liittyy raskas varovaisuus:

Ensinnäkin sinun on ymmärrettävä, mitä PDF-tiedosto on. PDF-dokumentit on suunniteltu jäljittelemään tulostettua sivua, ja ne on suunniteltu vain tulostusmuodoksi, ei tulomuotoon. PDF on pohjimmiltaan kartta, joka sisältää merkit (yksittäiset kirjaimet tai välimerkit, jne.) tai kuvat. Useimmissa tapauksissa PDF-tiedosto ei edes tallenna tietoja siitä, mihin sana päättyy, ja toinen alkaa, paljon vähemmän kuin pehmeät tauot tai kappaleen päättymiseen liittyvät vaikeat tauot.

(Muutamat viimeisimmät PDF-tiedostot tallentavat tietoja tästä aineistosta, mutta tämä on uusi tekniikka, ja sinulla olisi onnekas löytää tällaiset PDF-dokumentit. Vaikka et, niin PDF-katseluohjelma ei ehkä tiedä siitä.)

Joka tapauksessa, sinun on ohjelmiston avulla pantava täytäntöön jonkinlainen "tekoäly", jotta voidaan erottaa pelkästään yksittäisten merkkien sijainnit, mikä on sana, mikä on kappale ja niin edelleen. Erilaiset ohjelmistot tekevät tämän paremmin kuin toiset, ja se riippuu myös siitä, miten PDF-tiedosto on tehty. Joka tapauksessa sinun ei pitäisi koskaan odottaa täydellisiä tuloksia. Lähtö-PDF-tiedosto ei ole sama kuin lähdedokumentin. Paljon parempi yrittää saada, jos voit.

Tavallinen ratkaisu ongelmaan on käyttää Adobe Acrobat Professionalia (kallista, ei vapaata lukijaa) muuntaa PDF HTML: ään. Jopa tämä ei aio saada täydellisiä tuloksia.

On vapaata ohjelmistoa, jota voidaan käyttää tekstin poistamiseen PDF-tiedostoista joidenkin muotoilun ollessa ehjinä, mutta toisaalta, älä odota täydellisiä tuloksia. Katso esim. Kaliiperi (joka voi muuntaa RTF-muodossa), pdftohtml / pdfreflow tai AbiWord-tekstinkäsittelyohjelma (kaikki tuonti- ja vientisovittimet ovat käytössä). Myös OpenOfficen PDF-tuontisovellus on saatavana.

Mutta älä odota täydellisyyttä mihinkään näistä tuloksista. Olet menossa jyviä vastaan ​​täällä. PDF ei ole tarkoitettu muokattavaksi syöttömuodoksi.

Jos sinulla on vaikeuksia päättää, minkä työkalun alkuun, Caliber on todellinen asiakirja Sveitsin armeijan veitsi. Voit myös käyttää sitä muuntamaan PDF-tiedostoja käytettäväksi eBook-lukijaan ja järjestämään eBook- tai dokumenttikirjasto.

Onko jokin asia lisättävä selitykseen? Kuulkaa kommentit. Haluatko lukea lisää vastauksia muilta tech-tajuilta Stack Exchange-käyttäjiltä? Katso koko keskusteluketju täältä.