Więcej o DjVu i systemie dLibra

Byłem wczo­raj na szko­le­niu dla redak­to­rów Śląskiej Biblio­teki Cyfro­wej. Wszystko, co napi­szę poni­żej, można stre­ścić w kilku sło­wach: jestem pod wiel­kim wra­że­niem, zarówno dLi­bry “od kuchni” jak i moż­li­wo­ści for­matu DjVu, o któ­rym wspo­mi­na­łem już nieco wcze­śniej, ale nie pisa­łem wię­cej. A jest o czym pisać.

Naj­pierw jed­nak słów kilka o szko­le­niu. Było ono podzie­lone na dwie czę­ści: teo­re­tyczną, odby­wa­jącą się w sali Par­nas­sos Biblio­teki Śląskiej, na któ­rej Remi­giusz Lis mówił nieco o pra­wach autor­skich, a potem opo­wia­dał o forum ŚBC, Tomasz i Mariusz (nazwisk nie pamię­tam, mam nadzieję, że mi wyba­czą) nato­miast mówili o ska­no­wa­niu i obróbce doku­men­tów i prak­tyczną, prze­pro­wa­dzoną w budynku Uni­wer­sy­tetu Śląskiego, na któ­rej uczy­li­śmy się korzy­sta­nia z apli­ka­cji redak­tora i umiesz­cza­li­śmy publi­ka­cje w biblio­tece. Sam, tymi ręcami, opu­bli­ko­wa­łem przed­wo­jenną Kato­wicką pocz­tówkę, zeska­no­waną nieco wcześniej.

Ale wróćmy jed­nak do początku. Przed­po­łu­dniowa część szko­le­nia poświę­cona była trzem zasad­ni­czym kwe­stiom: ska­no­wa­niu doku­men­tów, ich obróbce i kom­pre­sji do for­matu DjVu.

Ska­no­wa­nie to nie­zbyt pasjo­nu­jąca rzecz, ale i tu zna­la­zło się kilka cie­ka­wych infor­ma­cji. Ska­ner uży­wany w Biblio­tece Śląskiej to Plu­stek Optic­Book 3600, inte­re­su­jący przede wszyst­kim ze względu na swoją budowę. Jedna z kra­wę­dzi powierzchni ska­nu­ją­cej przy­su­nięta jest do samego brzegu ska­nera, dzięki czemu można bar­dzo wygod­nie ska­no­wać książki, które ciężko byłoby kłaść całą powierzch­nią na ska­ne­rze. Sprytna rzecz. Do tego ska­ner jest szybki, jedna strona w roz­dziel­czo­ści 300 DPI to ok. 10 sekund ska­no­wa­nia i wygodny, bo ma duże przy­ci­ski ste­ru­jące z boku, nie trzeba w ogóle posłu­gi­wać się myszą czy klawiaturą.

Gdy mamy już zeska­no­wany doku­ment, trzeba go nieco pod­ra­so­wać, jeśli jest nie­wy­raźny czy zbyt szary. Popra­wić to można w dowol­nym nieco bar­dziej zaawan­so­wa­nym pro­gra­mie do obróbki gra­fiki. Biblio­teka Śląska korzy­sta z Pho­to­shopa, w BUŚ w uży­ciu jest Paint Shop Pro. Oba są o tyle dobre, że można za ich pomocą obró­cić skan, wyczy­ścić go nieco, wyre­gu­lo­wać poziomy kolo­rów, sło­wem — przy­go­to­wać do publi­ka­cji w biblio­tece cyfro­wej. I można to zro­bić seryj­nie dla więk­szej ilo­ści pli­ków. Pomocna jest tutaj auto­ma­ty­za­cja kon­kret­nych pro­ce­sów, które można powta­rzać dla wszyst­kich ska­nów, któ­rych może być nawet kil­ka­set w przy­padku grub­szej książki. Takie prze­twa­rza­nie wsa­dowe.
Wie­czo­rem po przyj­ściu z pracy spró­bo­wa­łem to samo zro­bić w Gim­pie i nie było z tym żadnego pro­blemu. Nie­stety zauto­ma­ty­zo­wa­nie sobie pracy nie jest łatwe. Gimp nie ma inter­fejsu, dzięki któ­remu łatwo można by było zro­bić, nie da się “nagrać” kilku kro­ków, a potem odtwo­rzyć ich dla wszyt­kich pli­ków. Gene­ral­nie jest to moż­liwe, ale trzeba kle­pać wszystko z palca w wier­szu pole­ceń. Ani to łatwe ani przyjemne.

Kompresja DjVuPo zeska­no­wa­niu i obro­bie­niu doku­mentu wystar­czy go jesz­cze przed publi­ka­cją skom­pre­so­wać do for­matu DjVu. I tutaj zaczną się peany. DjVu jest nie­sa­mo­wity! Kom­pre­suje tak fan­ta­stycz­nie, że PDF się zupeł­nie kryje! Sto­pień kom­pre­sji pli­ków DjVu widać na obrazku zamiesz­czo­nym obok, gdzie porów­nany jest on do tiffa, jpega i pdfa.

Takie fan­ta­styczne wyniki można osią­gnąć dzięki nie­ty­po­wemu spo­so­bowi kom­pre­sji pli­ków. DjVu oparte jest na naj­bar­dziej zaawan­so­wa­nej, wciąż roz­wi­ja­nej, meto­dzie seg­men­ta­cji obrazu. Polega to na roz­dzie­le­niu nawet naj­bar­dziej skom­pli­ko­wa­nych obra­zów na odrębne war­stwy i pod­da­niu ich odręb­nej opty­ma­li­za­cji i kom­pre­sji. W prak­tyce wygląda to tak, że jeśli mamy skan strony książki, to tło tek­stu jest skom­pre­so­wane w jeden spo­sob, bar­dzo mocno, a sam tekst w inny spo­sób. Do tego wszyst­kiego w locie robiony jest OCR tekstu.

Naj­le­piej jed­nak jest poka­zać to wszystko na przy­kła­dzie. W jed­nej z publi­ka­cji umiesz­czo­nych w ŚBC jest zeska­no­wany obra­zek (strona dzie­wiąta, gdyby to kogoś inte­re­so­wało). Na pierw­szym obrazku poka­zana jest war­stwa, którą kom­pre­sor DjVu uznał za treść i zacho­wał szcze­góły, niżej mocno skom­pre­so­wane tło z zatar­tymi deta­lami, a na końcu oba zło­żone w całość.
Treść obrazka w DjVu miniatura

Tło obrazka w DjVu miniatura

obrazek w DjVu miniatura

Cały obra­zek, po zło­że­niu wygląda tak:

obrazek w DjVu

Na potrzeby prze­glą­da­nia publi­ka­cji w biblio­tece elek­tro­nicz­nej jest to zupeł­nie wystar­cza­jąca jakość.

Drugą rze­czą, która powala w DjVu jest spo­sób ser­wo­wa­nia doku­mentu czy­tel­ni­kowi. W przy­padku PDF-a musimy ścią­gać cały doku­ment, żeby obej­rzeć jedną okre­śloną stronę. W DjVu każda strona jest osob­nym pli­kiem (choć można rów­nież zapi­sać cały doku­ment do jed­nego pliku), więc jeśli chcemy obej­rzeć stronę numer 283 z czte­ry­stu­stro­ni­co­wego doku­mentu, to nie musimy pobie­rać wszyst­kiego, tylko tę stronę, na któ­rej nam zależy. W połą­cze­niu z moż­li­wo­ścią kom­pre­sji, jaką dys­po­nuje for­mat DjVu, daje nam to natych­mia­stową moż­li­wość prze­glą­da­nia tek­stu online, prak­tycz­nie bez cze­ka­nia na pobra­nie doku­mentu. Dla mnie bomba.

Tyle na razie o szko­le­niu i o DjVu (niech żyje!), drugą część, tę prak­tyczną, posta­ram się opi­sać wkrótce.

Podobne wpisy:

  1. Biblio­teki w przyszłości
  2. dLi­bra i Śląska Biblio­teka Cyfrowa

Wpis został opublikowany 16 grudnia 2006 r. i oznaczony następującymi tagami:
, .

Dodaj własny komentarz: