Google kupuje reCAPTCHA

Po całym zamie­sza­niu, jakie panuje ostat­nio w związku Google Book Search i poro­zu­mie­niem Google z wydaw­cami, w czwar­tek na ofi­cjal­nym blogu Google padła bomba. Google kupiło firmę reCAPT­CHA dostar­cza­jącą zabez­pie­cze­nia anty­spa­mowe i przy oka­zji wyko­nu­jącą fajną robotę zwią­zaną z digi­ta­li­za­cją. Jeśli ktoś nie wie, co to jest CAPTCHA i reCAPT­CHA i dla­czego według mnie to taka bomba, spie­szę z wyjaśnieniami.

© Jill Glossy Veneer

CAPTCHA to skrót od Com­ple­tely Auto­ma­ted Public Turing test to tell Com­pu­ters and Humans Apart, czyli kom­plet­nie zauto­ma­ty­zo­wany test Turinga, który potrafi odróż­nić czło­wieka od maszyny. Zapewne każdy z czy­tel­ni­ków tego bloga choć raz przy reje­stro­wa­niu się lub logo­wa­niu do jakie­goś miej­sca musiał prze­pi­sać tekst z obrazka, podobny do tego, który widać po pra­wej stronie.

Czło­wiek spo­koj­nie sobie prze­czyta taki obra­zek (choć cza­sami można tra­fić na jakiś zupeł­nie zwa­rio­wany, który ciężko prze­czy­tać), dla kom­pu­tera jest on nie do przej­ścia. Dzięki temu CAPTCHA świet­nie spraw­dza się jako sys­tem anty­spa­mowy. Wystar­czy mały obra­zek, żeby zablo­ko­wać 99% botów spa­mu­ją­cych blogi, zakła­da­ją­cych fał­szywe konta pocz­towe itp. Są już sygnały o tym, że ist­nieją auto­maty zdolne czy­tać te obrazki, ale myślę, że miesz­czą się one w tym jed­nym pro­cen­cie, będą­cym mar­gi­ne­sem zjawiska.

recaptcha-logo

Dzien­nie około 200 milio­nów osób prze­pi­suje tekst z obrazka reje­stru­jąc się, logu­jąc lub pisząc gdzieś komen­tarz. Twórcy sys­temu reCAPT­CHA zauwa­żyli, że mar­nuje się w ten spo­sób strasz­nie dużo ludz­kiej pracy. Dla­czego by nie zro­bić cze­goś poży­tecz­nego przy oka­zji wpi­sy­wa­nia tych słówek?

Natu­ral­nym roz­wią­za­niem była digi­ta­li­za­cja. Typo­wym pro­ble­mem przy digi­ta­li­zo­wa­niu doku­men­tów jest OCR, czyli roz­po­zna­nie tek­stu. O ile ska­no­wa­nie da się już raczej w pełni zauto­ma­ty­zo­wać, to roz­po­zna­wa­nie tek­stu wciąż, mimo ist­nie­nia świet­nych pro­gra­mów, szwan­kuje. Widać to na poniż­szej ilustracji:

sample-ocr

Skoro maszyny sobie nie radzą, to prze­cież można poka­zy­wać nie­czy­telne frag­menty ludziom i niech oni czy­tają. Tak wła­śnie powstał sys­tem reCAPT­CHA. Walkę ze spa­mem połą­czono ze spo­łecz­no­ściową digi­ta­li­za­cją doku­men­tów na ogromną skalę (przy­po­mi­nam: robi to 200 mln osób dzien­nie) i wycho­dzi to świet­nie, co można zoba­czyć na stro­nie pro­jektu i poczy­tać w arty­kule z maga­zynu Science (pdf).

recaptcha

Ale jeśli kom­pu­ter nie roz­po­zna tek­stu, to jak sys­tem wie, że wpi­sa­li­śmy pra­wi­dłowe słowo? To kolejny fajny pomysł. Otóż do odczy­ta­nia dosta­jemy dwa słowa. Jedno sys­tem już zna, dru­giego nie. Jeśli pra­wi­dłowo odczy­tamy to pierw­sze, to sys­tem zakłada, że to dru­gie rów­nież jest dobre. To samo nie­znane słowo jest poda­wane pew­nej licz­bie użyt­kow­ni­ków, żeby upew­nić się, że zostało popraw­nie rozpoznane.

Jeśli do tego wszyst­kiego dodać otwarte API, plu­giny do popu­lar­nych sys­te­mów zarzą­dza­nia stro­nami (Word­Press, Dru­pal, Joomla), środo­wisk pro­gra­mi­stycz­nych (PHP, Python, Ruby, Java itp.), dostęp­ność (nie­wi­do­mym reCAPT­CHA prze­czyta tekst z obrazka), to widzimy nie­sa­mo­wite, kom­pletne roz­wią­za­nie za pomocą któ­rego naprawdę dużo można zrobić.

googlerecaptcha

Taką wła­śnie firmę kupiło Google. Zacie­ka­wiło mnie, że rela­tyw­nie nie­wiele pol­skich ser­wi­sów zaj­mu­ją­cych się IT odno­to­wało to wyda­rze­nie. Zazwy­czaj każda trans­ak­cja doko­nana przez Google odbija się wszę­dzie sze­ro­kim echem. A tu dość cicho… A prze­cież jeśli wziąć pod uwagę ostat­nią aktyw­ność firmy z Moun­tain View zwią­zaną z digi­ta­li­za­cją, wspo­mniane przeze mnie na początku kon­tro­wer­sje zwią­zane z Book Search i umo­wami z wydaw­cami, ten zakup wyraź­nie poka­zuje, że Google naprawdę poważ­nie trak­tuje swoje dzia­ła­nia w dzie­dzi­nie digi­ta­li­za­cji. Kupno reCAPT­CHA daje im kolejne potężne narzę­dzie poma­ga­jące w digitalizacji.

Cie­kawe kiedy we wszyst­kich usłu­gach wiel­kiego G zamiast zwy­kłych obraz­ków będziemy mieli reCAPTCHA.

Podobne wpisy:

  1. Google Books w bada­niach nauko­wych – wcale nie tak różowo
  2. Google Edi­tions czyli Google sprze­daje książki
  3. 10 wyszu­ki­wa­rek Google dla bibliotekarzy
  4. Google publi­kuje OCRopus
  5. Google Book Search jesz­cze ciekawsze

Wpis został opublikowany 19 września 2009 r. i oznaczony następującymi tagami:
, , , , .

Komentarze do wpisu:

  1. zzz, 20.09.2009, 21.00

    Dzięki temu CAPTCHA świet­nie spraw­dza się jako sys­tem anty­spa­mowy. Wystar­czy mały obra­zek, żeby zablo­ko­wać 99% botów spa­mu­ją­cych blogi, zakła­da­ją­cych fał­szywe konta pocz­towe itp. Są już sygnały o tym, że ist­nieją auto­maty zdolne czy­tać te obrazki, ale myślę, że miesz­czą się one w tym jed­nym procen­cie, będą­cym mar­ginesem zja­wi­ska.” — pal­ną­łeś głu­potę. Po pierw­sze: 1% to nie mar­gi­nalne zja­wi­sko, ale kata­strofa, bo wystar­czy jeden czy­ta­jący dany typ capt­chy bot, by zasy­pać inter­net spa­mem. Po dru­gie więk­szość CAPTCHA jest zła­mane i boty radzą sobie z nimi bez naj­mniej­szych problemów.

  2. malin, 20.09.2009, 23.51

    Żadnej głu­poty nie pal­ną­łem. Próby (udane) zła­ma­nia zabez­pie­czeń opar­tych na CAPTCHA to stricte akademickie/programistyczne testy, więk­szość z nich pocho­dzi sprzed kilku albo kil­ku­na­stu mie­sięcy i odnosi się do kon­kret­nego rodzaju obrazka, z takim a nie innym tłem albo takim a nie innym rodza­jem tekstu.

    Poczy­taj tro­chę o tym, a znaj­dziesz arty­kuły zaty­tu­ło­wane “Gmail CAPTCHA explo­ited” albo “Yahoo CAPTCHA bro­ken” — odno­szą się one do poje­dyn­czych imple­men­ta­cji tego typu zabez­pie­czeń anty­spa­mo­wych, nie do całej metody. Algo­rytmy typu EZ-Gimpy łamiące wszyst­kie CAPTCHA jak leci to pieśń przeszłości.

    To, że CAPTCHA dosto­so­wuje się do stanu wie­dzy na temat moż­li­wo­ści jego zła­ma­nia widać na przy­kła­dzie reCAPT­CHA. Jeśli spoj­rzysz na gra­fiki powy­żej, to możesz zoba­czyć, że nie sto­suje się tam już obraz­ków na mocno “zaszu­mio­nym” tle, bo takie szumy auto­mat łatwo odsieje. Zamiast tego przez doda­nie krzy­wych linii w tek­ście przy­po­mi­na­ją­cych kształty liter utrud­nia się seg­men­ta­cję obrazu, czyli podzie­le­nie go na pola zawie­ra­jące po jed­nej lite­rze, co auto­mat czy­ta­jący obra­zek robi po usu­nię­ciu tła, żeby roz­po­znać tekst na obrazku.

    Obrazki ser­wo­wane przez reCAPT­CHA są jedną z naj­bez­piecz­niej­szych tego typu metod walki ze spa­me­rami. Dowo­dem może być to, że na ofi­cjal­nej stro­nie CAPTCHA, zale­cana jest… reCAPTCHA.

    Wszystko jest do zła­ma­nia, jeśli nie auto­ma­tem to przez zatrud­nie­nie tysiąca miesz­kań­ców Ban­gla­de­szu albo ama­to­rów por­no­gra­fii, żeby te obrazki czy­tali. Ale nie o to chodzi.

    Ja uwa­żam, że próby zła­ma­nia tych dobrych zabez­pie­czeń to zja­wi­sko mar­gi­nalne z jed­nego waż­nego powodu. Jego sto­so­wa­nie zwy­czaj­nie się spa­me­rom nie opłaca. Musie­liby pro­jek­to­wać boty do kon­kret­nych imple­men­ta­cji zabez­pie­czeń. Dla nich skórka nie jest warta wyprawki, bo wciąż ist­nieją miliardy stron nie posia­da­ją­cych zabez­pie­czeń anty­spa­mo­wych, na które dzia­łają. Łatwiej­sza kasa i tyle.

  3. zzz, 21.09.2009, 08.19

    Mylisz poję­cie CAPTCHA z kon­kret­nym roz­wią­za­niem, któ­rym jest reCAPT­CHA. To wręcz zabawne, hehe. Gdyby CAPT­CHe nie były łamane, nie musia­łoby powsta­wać tyle nowych. :)

  4. kobier, 21.09.2009, 11.01

    Pole­cam przyj­rzeć się pro­jek­towi PWNt­cha: http://caca.zoy.org/wiki/PWNtcha

  5. mcv, 21.09.2009, 11.20

    malin: Typowe CAPTCHA’e _są_ łatwe do zła­ma­nia. To zada­nia na pozio­mie stu­denc­kim. To o czym Ty mówisz, to Google’owa CAPTCHA — jak sam zauwa­ży­łeś, nie ma tam ani szu­mów w tle ani innych kolo­ro­wych lite­rek (kolo­rowe literki to wręcz by uła­twiły łama­nie), ale takie wła­śnie wodo­try­ski są w olbrzy­miej ilo­ści serwisów.

    PS: „Ofi­cjalna strona CAPTCHA” brzmi tak samo sen­sow­nie jak „ofi­cjalna strona samo­chodu”. Na ofi­cjal­nej stro­nie samo­chodu zale­cają Toyotę. ;-)

  6. malin, 21.09.2009, 11.42

    @zzz: nie mylę, wiem co to jest CAPTCHA i wiem czym jest jego kon­kretna imple­men­ta­cja w postaci reCAPTCHA.

    @kobier: PWNt­cha jest też cie­ka­wym pro­jek­tem, podob­nie jak EZ-Gimpy, ale radzi sobie tylko z tymi mniej spryt­nymi obraz­kami. Ta druga tabelka na stro­nie poda­nej przez Cie­bie zawiera też obrazki, z któ­rymi PWNt­cha sobie nie radzi.

    @mcv: nie łap mnie za słówka :-) Cho­dziło mi o stronę pro­jektu. A to, że nie­które tego typu zabez­pie­cze­nia są łatwe do zła­ma­nia to wiem, wystar­czy tylko spoj­rzeć na wpadki z CAPTCHA, które były sto­so­wane w phpBB2 i phpBB3.

    Ale wciąż uwa­żam, że spa­me­rom bar­dziej się opłaca omi­jać strony, które mają trud­niej­sze do zła­ma­nia CAPTCHA niż sto­so­wać różne algo­rytmy do łama­nia kon­kret­nych typów obrazków.

  7. Marti, 21.09.2009, 14.17

    taaa… i nie­długo google, by pomoc w digi­ta­li­za­cji do swo­jego pro­jektu google books bedzie pro­sić: “if you want to send this email enter captcha” :)

  8. mw, 21.09.2009, 14.42
  9. qqrq, 21.09.2009, 17.39

    Wg mnie (i nie tylko mnie) CAPTCHA to zwa­la­nie obo­wiązku walki ze spa­mem na użyt­kow­ni­ków — każdy taki “gadżet bez­pie­czeń­stwa” umiesz­czony na stro­nie sku­tecz­nie znie­chęca mnie do niej. O dostęp­no­ści już nie wspomnę.

  10. rugby, 26.09.2009, 23.49

    @malin: Nie wiem czy wiesz, ale reCAPT­CHA, którą tak się pod­nie­casz, została już zła­mana: http://webhosting.pl/Hakerzy.4chanu.osmieszyli.magazyn.Time.i.system.reCAPTCHA
    I pomyśl, jak zgubny wpływ może to mieć dla zdi­gi­ta­li­zo­wa­nych książek!

  11. malin, 27.09.2009, 14.12

    @rugby: to było zwy­kłe brute force doko­nane przez ludzi. CAPTCHA, jak sama nazwa wska­zuje, służy do tego, żeby odróż­nić auto­mat od czło­wieka. W takiej sytu­acji jest bez­radny. Napi­sa­łem w komen­ta­rzu wyżej, że wszystko się da zro­bić mając odpo­wied­nio dużo ludzi, nie­za­leż­nie od tego, czy to tania siła robo­cza z Ban­gla­de­szu czy użyt­kow­nicy 4chana.

  12. CapaciousCore, 18.01.2010, 01.21

    A co mysli­cie o sblam?

    Metod sa tysiace az po pelna mode­ra­cje wlacznie :-)

Dodaj własny komentarz: