Saturday, 16.12.2006, 19:09:16
Więcej o DjVu i systemie dLibra
Byłem wczoraj na szkoleniu dla redaktorów Śląskiej Biblioteki Cyfrowej. Wszystko, co napiszę poniżej, można streścić w kilku słowach: jestem pod wielkim wrażeniem, zarówno dLibry “od kuchni” jak i możliwości formatu DjVu, o którym wspominałem już nieco wcześniej, ale nie pisałem więcej. A jest o czym pisać.
Najpierw jednak słów kilka o szkoleniu. Było ono podzielone na dwie części: teoretyczną, odbywającą się w sali Parnassos Biblioteki Śląskiej, na której Remigiusz Lis mówił nieco o prawach autorskich, a potem opowiadał o forum ŚBC, Tomasz i Mariusz (nazwisk nie pamiętam, mam nadzieję, że mi wybaczą) natomiast mówili o skanowaniu i obróbce dokumentów i praktyczną, przeprowadzoną w budynku Uniwersytetu Śląskiego, na której uczyliśmy się korzystania z aplikacji redaktora i umieszczaliśmy publikacje w bibliotece. Sam, tymi ręcami, opublikowałem przedwojenną Katowicką pocztówkę, zeskanowaną nieco wcześniej.
Ale wróćmy jednak do początku. Przedpołudniowa część szkolenia poświęcona była trzem zasadniczym kwestiom: skanowaniu dokumentów, ich obróbce i kompresji do formatu DjVu.
Skanowanie to niezbyt pasjonująca rzecz, ale i tu znalazło się kilka ciekawych informacji. Skaner używany w Bibliotece Śląskiej to Plustek OpticBook 3600, interesujący przede wszystkim ze względu na swoją budowę. Jedna z krawędzi powierzchni skanującej przysunięta jest do samego brzegu skanera, dzięki czemu można bardzo wygodnie skanować książki, które ciężko byłoby kłaść całą powierzchnią na skanerze. Sprytna rzecz. Do tego skaner jest szybki, jedna strona w rozdzielczości 300 DPI to ok. 10 sekund skanowania i wygodny, bo ma duże przyciski sterujące z boku, nie trzeba w ogóle posługiwać się myszą czy klawiaturą.
Gdy mamy już zeskanowany dokument, trzeba go nieco podrasować, jeśli jest niewyraźny czy zbyt szary. Poprawić to można w dowolnym nieco bardziej zaawansowanym programie do obróbki grafiki. Biblioteka Śląska korzysta z Photoshopa, w BUŚ w użyciu jest Paint Shop Pro. Oba są o tyle dobre, że można za ich pomocą obrócić skan, wyczyścić go nieco, wyregulować poziomy kolorów, słowem - przygotować do publikacji w bibliotece cyfrowej. I można to zrobić seryjnie dla większej ilości plików. Pomocna jest tutaj automatyzacja konkretnych procesów, które można powtarzać dla wszystkich skanów, których może być nawet kilkaset w przypadku grubszej książki. Takie przetwarzanie wsadowe.
Wieczorem po przyjściu z pracy spróbowałem to samo zrobić w Gimpie i nie było z tym żadnego problemu. Niestety zautomatyzowanie sobie pracy nie jest łatwe. Gimp nie ma interfejsu, dzięki któremu łatwo można by było zrobić, nie da się “nagrać” kilku kroków, a potem odtworzyć ich dla wszytkich plików. Generalnie jest to możliwe, ale trzeba klepać wszystko z palca w wierszu poleceń. Ani to łatwe ani przyjemne.
Po zeskanowaniu i obrobieniu dokumentu wystarczy go jeszcze przed publikacją skompresować do formatu DjVu. I tutaj zaczną się peany. DjVu jest niesamowity! Kompresuje tak fantastycznie, że PDF się zupełnie kryje! Stopień kompresji plików DjVu widać na obrazku zamieszczonym obok, gdzie porównany jest on do tiffa, jpega i pdfa.
Takie fantastyczne wyniki można osiągnąć dzięki nietypowemu sposobowi kompresji plików. DjVu oparte jest na najbardziej zaawansowanej, wciąż rozwijanej, metodzie segmentacji obrazu. Polega to na rozdzieleniu nawet najbardziej skomplikowanych obrazów na odrębne warstwy i poddaniu ich odrębnej optymalizacji i kompresji. W praktyce wygląda to tak, że jeśli mamy skan strony książki, to tło tekstu jest skompresowane w jeden sposob, bardzo mocno, a sam tekst w inny sposób. Do tego wszystkiego w locie robiony jest OCR tekstu.
Najlepiej jednak jest pokazać to wszystko na przykładzie. W jednej z publikacji umieszczonych w ŚBC jest zeskanowany obrazek (strona dziewiąta, gdyby to kogoś interesowało). Na pierwszym obrazku pokazana jest warstwa, którą kompresor DjVu uznał za treść i zachował szczegóły, niżej mocno skompresowane tło z zatartymi detalami, a na końcu oba złożone w całość.



Cały obrazek, po złożeniu wygląda tak:

Na potrzeby przeglądania publikacji w bibliotece elektronicznej jest to zupełnie wystarczająca jakość.
Drugą rzeczą, która powala w DjVu jest sposób serwowania dokumentu czytelnikowi. W przypadku PDF-a musimy ściągać cały dokument, żeby obejrzeć jedną określoną stronę. W DjVu każda strona jest osobnym plikiem (choć można również zapisać cały dokument do jednego pliku), więc jeśli chcemy obejrzeć stronę numer 283 z czterystustronicowego dokumentu, to nie musimy pobierać wszystkiego, tylko tę stronę, na której nam zależy. W połączeniu z możliwością kompresji, jaką dysponuje format DjVu, daje nam to natychmiastową możliwość przeglądania tekstu online, praktycznie bez czekania na pobranie dokumentu. Dla mnie bomba.
Tyle na razie o szkoleniu i o DjVu (niech żyje!), drugą część, tę praktyczną, postaram się opisać wkrótce.