DjVu/DjVu versus PDF

Jak bylo zmíněno v závěru předchozí kapitoly, DjVu bylo od samého počátku navrženo jako formát dokumentů, pro jejich sdílení prostřednictvím internetu. Proto se také svým návrhem liší od známějšího formátu PDF.

V DJVU dokumentu je každá stránka samostatným objektem, který na rozdíl od PDF rovnou pracuje s několika vrstvami. Základem je obrazová vrstva, která je přítomna vždy. Kromě ní mohou být přítomny i další textové vrstvy s metadaty, hyperlinky, skrytým textem obsahu stránky a poznámkami. Díky wavelet kompresi je taková stránka co do objemu dat vždy menší než u PDF. Jenže wavelet komprese je ztrátová, a to u dokumentů určených k tisku není vhodné.

V dobách, kdy se začalo masově šířit PDF tomu bylo jinak. Dnešní svět PC je v podstatě rozparcelován a IT prostředí ve firmách a institucích z hlediska použitých operačních systémů homogenizované. Tehdy ovšem byl software byl poměrně nákladnou záležitostí a kvalitní aplikace neexistovaly pro všechny operační systémy. Víc než potřeba dokumenty sdílet prostřednictvím internetu tedy pálila firmy potřeba mít dokument identicky vytištěný, bez ohledu na to, ve kterém prostředí OS byl tisk realizován.

Firma Adobe Systems, která vyvíjela svůj ščpičkový software pro Mac OS X a MS Windows proto přišla se svým formátem PDF, který oproti DjVu umožňoval použít také bezztrátovou kompresi. Wavelet komprese, použitá u DjVu navíc byla patentově chráněna, což vylučovalo její implementaci do PDF.

Když na velikosti nezáleží... editovat

PDF, má podobně jako postscript lineární zápis tj. prohlížeč čte dokument a postupně přitom vykresluje jednotlivé objekty specifikované pomocí souřadnic a atributů na stránku. Text je renderován podle použité znakové sady a případných dalších nastavení, kdežto obrázky jsou vloženy v kvalitě odpovídající určení dokumentu. Využívá se přitom toho, že v případě dokumentu určeného pro čtení z monitoru je zbytečné u obrázků použít vyšší rozlišení než 100dpi, zatím co u dokumentu pro tisk by měly mít obrázky nejmíň 300dpi. Vnitřní struktura PDF dokumentu se tak může značně lišit podle toho pro jaký účel byl takový dokument vytvořen, přestože na první pohled vypadá výsledek v prohlížeči stejně.

Aby bylo zajištěno identické písmo při tisku, bylo PDF navrženo tak, aby umožnilo do dokumentů vkládat kromě obrázků také použitý font. Text tak mohl být v PDF uložen několika způsoby:

  • text + font
  • jednotlivá písmena jako obrázky
  • celá stránka jako obrázek

Který způsob se použije a jak pak bude velký výsledný soubor pak záleží na aplikaci, která PDF dokument ukládá a jejím nastavení. Například dokument uložený přímo do PDF např. z OpenOffice.org, nebo vytištěný přes CUPS-PDF bude malý, protože text není uložen jako vyrenderovaný obrázek, ale přímo jako text. Má to však háček. Pokud si tento dokument otevře na svém stroji někdo, kdo nemá nainstalované písmo, které bylo použito při generování PDF dokumentu, místo textu uvidí jen hromadu čtverečků. Tomu lze zabránit právě tím, že se do PDF dokumentu nechá vložit i font. Ovšem tím jeho velikost pochopitelně nabobtná.

To není nutné, pokud se jednotlivé znaky nechají vyrenderovat jako grafika. Jenže, to má háček v tom, že výsledný dokument již jej nelze dále editovat, ani prohledávat. Poslední možnost, kdy se vloží celý dokument do PDF jako obrázek - což se často dělá, pokud obsahuje nějaké podpisy, razítka, atp. způsobí že soubor ještě víc nakyne - možnost jeho fulltextového prohledávání však může být zachována, pokud do něj OCR aplikace vloží rozpoznaný text. Možnost takto zpracovat PDF nabízí většina moderních OCR aplikací - bohužel většina z nich je "only for MS Windows"

Velikost výsledného PDF dokumentu tak může kolísat od několika megabajtů do stovek megabajtů. Pokud se však k přenosu takových souborů použije externí disk, nebo DVD, tak to nevadí.

Jak PDF ovládlo pole editovat

Připojení k internetu svižnou linkou se stalo běžným standardem poměrně nedávno. Data k tisku se proto přenášela prostřednictvím jiných médií. Zpočátku na disketách, pak - jak přibývalo v dokumentech grafiky - na CD a donedávna pomocí USB klíčenky.

Prudký rozvoj internetových sítí přišel v době poměrně nedávné, kdy už se do povědomí uživatelů tvrdě zadřelo PDF. Proto jen málokoho napadlo že by dokumenty mohly být uloženy i v jiném, pro internetové použití mnohem vhodnějším formátu.

DjVu se vrací na scénu editovat

Teprve rozvoj mobilních sítí a zařízení znovu vyvolal zájem o DjVu. Vzhledem k jejich omezení datového toku totiž záleží na každém přeneseném bajtu, proto je vhodné když jsou data přenášena v komprimované podobě a rozbalí se až v prohlížeči. Poměru mezi objemem dat před rozbalením a po rozbalení se říká kompresní poměr. Běžné kompresní metody (které používalo PDF) ať již bezztrátové, nebo ztrátové nemohly z hlediska kompresního poměru konkurovat wavelet kompresi. Proto Adobe začalo do PDF implementovat wavelet kompresi JPEG-2000 (od Adobe Acrobata verze 6), ovšem kvůli zachování kompatibility se staršími prohlížeči se u většiny PDF dokumentů stejně používá klasická komprese na bázi LZW (bezztrátová) nebo JPEG (ztrátová).

U DjVu formátu je použití wavelet komprese jedním ze základních kamenů. Při této kompresi se nepracuje s bitmapovou verzí obrázku, obrázek je složen z barevných plošek, definovaných vektorovým popisem jejich okraje. Dalším tajným trumfem v rukávu (a patentově chráněnou technologií) je použití masky při kompresi. Zjednodušeně řečeno. Před kompresí jsou odfiltrovány pomocí masky kontrastní plochy, takže s výsledkem je pak možné naložit, jako by šlo o spojitou barevnou plochu. Místo mnoha členitých křivek je tak komprimovaná jedna spojitá, která je uložena jako pozadí (background). Data odfiltrovaná pomocí masky se pak komprimují do oddělené vrstvy popředí (foreground). Maska samotná je čistě černobílá a je uložena rovněž v samostatné vrstvě. Hyperlinky, textové poznámky a další doplňkové informace jsou uloženy ve skryté textové vrstvě.

Nejsilnější argument - práce s poznámkami a vloženým textem editovat

V roce 2001 došlo k zásadnímu průlomu. Firma Lizardtech, vědoma si možností open source tehdy uvolnila formát DjVu pro volné použití pod GPL2 licencí. Umožnila tím vývoj svobodné knihovny DjVuLibre, kterou využívá pro renderování DjVu stránek většina současných open source prohlížeček.

Léon Bottou, který byl jedním z otců formátu DjVu, tak mohl vytvořit a dát do pléna nástroje, srovnatelné s původním komerčním produktem, který se orientuje na oblast proprietárních operačních systémů MS Windows a Mac OS X. Každý tak má možnost dokumenty DjVu nejenom vytvářet, ale také upravovat v nich uložené textové informace.

Vzhledem k tomu, že se vlastní formát nemění, lze díky čím dál lepším open source nástrojům i dodatečně zpracovat staré DjVu dokumenty a doplnit jejich pomocí dosud chybějící metainformace a textová data.

Pokud jde o PDF, byla zhruba před čtyřmi lety (r. 2006) situace pokud jde o editaci textového obsahu (nikoliv manipulaci se stránkami dokumentu) u PDF naprosto tristní, neboť s výjimkou komerčního Adobe Acrobata nebyl k dispozici žádný nástroj, který by usnadnil orientaci v textové vrstvě a zjednodušil u těchto dokumentů vkládání hypertextových odkazů a poznámek.

V současné době sice již takové nástroje existují, ovšem vzhledem k vlastnostem formátu PDF jejich použití nemůže ani zdaleka přinášet uspokojivý výsledek. Proto je mnohem efektivnější PDF dokumenty určené k elektronické archivaci převádět do DjVu a dále již pracovat s tímto formátem.

Obsah
◄ DjVu - formát pro elektronickou archivaci dokumentů DjVu versus PDF Vývoj DjVu v datech ►