Thursday, 25.10.2007, 08:50:31

Google publikuje OCRopus

Firma Google opublikowała wczoraj pierwszą wersję alpha linuksowego programu do skanowania i rozpoznawania tekstu o nazwie OCRopus. Program jest oparty o technologię Tesseract, rozwijaną do 1995 roku przez firmę Hewlett-Packard. W 2005 roku, po 10 latach braku jakichkolwiek prac, HP upublicznił kod (na licencji Apache License 2.0), a Google go wykorzystało do stworzenia swojego programu.

Oprócz Tesseract OCRopus używa własnego systemu analizy danych i jest stworzony w taki sposób, żeby łatwo można było dodać inne moduły, obsługujące na przykład alfabety niełacińskie. Do oskryptowania i konfiguracji program korzysta z wbudowanego interpretera języka Lua.

Według testów jakie przeprowadził serwis ArsTechnica, OCRopus radzi sobie na razie całkiem nieźle, ale do FineReadera mu jeszcze daleko. Przy plikach (skanach) w miarę dobrej jakości, program dawał radę wypluć czytelny tekst w mniej więcej połowie przypadków. Ale jak na wczesną alphę, to wg mnie całkiem niezły wynik.

Podejrzewam, że za jakiś czas program może stać się dużą konkurencją dla komercyjnych programów służących do skanowania i rozpoznawania tekstu. Projekty Google, które zakasowały konkurencję można przecież wymieniać dobrą chwilę. W przypadku OCRopusa może być podobnie, tym bardziej, że jest to interes dla Google, które dużo robi w temacie skanowania i publikowania książek w formie elektronicznej.

Nie ma jeszcze żadnych komentarzy do tego wpisu.

Napisz komentarz

lub wypełnij poniższe pola: