Google publikuje OCRopus

Firma Google opu­bli­ko­wała wczo­raj pierw­szą wer­sję alpha linuk­so­wego pro­gramu do ska­no­wa­nia i roz­po­zna­wa­nia tek­stu o nazwie OCRo­pus. Pro­gram jest oparty o tech­no­lo­gię Tes­se­ract, roz­wi­janą do 1995 roku przez firmę Hewlett-Packard. W 2005 roku, po 10 latach braku jakich­kol­wiek prac, HP upu­blicz­nił kod (na licen­cji Apa­che License 2.0), a Google go wyko­rzy­stało do stwo­rze­nia swo­jego programu.

Oprócz Tes­se­ract OCRo­pus używa wła­snego sys­temu ana­lizy danych i jest stwo­rzony w taki spo­sób, żeby łatwo można było dodać inne moduły, obsłu­gu­jące na przy­kład alfa­bety nie­ła­ciń­skie. Do oskryp­to­wa­nia i kon­fi­gu­ra­cji pro­gram korzy­sta z wbu­do­wa­nego inter­pre­tera języka Lua.

Według testów jakie prze­pro­wa­dził ser­wis ArsTech­nica, OCRo­pus radzi sobie na razie cał­kiem nie­źle, ale do Fine­Re­adera mu jesz­cze daleko. Przy pli­kach (ska­nach) w miarę dobrej jako­ści, pro­gram dawał radę wypluć czy­telny tekst w mniej wię­cej poło­wie przy­pad­ków. Ale jak na wcze­sną alphę, to wg mnie cał­kiem nie­zły wynik.

Podej­rze­wam, że za jakiś czas pro­gram może stać się dużą kon­ku­ren­cją dla komer­cyj­nych pro­gra­mów słu­żą­cych do ska­no­wa­nia i roz­po­zna­wa­nia tek­stu. Pro­jekty Google, które zaka­so­wały kon­ku­ren­cję można prze­cież wymie­niać dobrą chwilę. W przy­padku OCRo­pusa może być podob­nie, tym bar­dziej, że jest to inte­res dla Google, które dużo robi w tema­cie ska­no­wa­nia i publi­ko­wa­nia ksią­żek w for­mie elektronicznej.

Podobne wpisy:

  1. Google Books w bada­niach nauko­wych – wcale nie tak różowo
  2. Google Edi­tions czyli Google sprze­daje książki
  3. Google kupuje reCAPTCHA
  4. Kon­ku­ren­cja w digi­ta­li­za­cji: Google, Micro­soft czy OCA?
  5. Google Book Search jesz­cze ciekawsze

Wpis został opublikowany 25 października 2007 r. i oznaczony następującymi tagami:
.

Dodaj własny komentarz: