Google kupuje reCAPTCHA
Po całym zamieszaniu, jakie panuje ostatnio w związku Google Book Search i porozumieniem Google z wydawcami, w czwartek na oficjalnym blogu Google padła bomba. Google kupiło firmę reCAPTCHA dostarczającą zabezpieczenia antyspamowe i przy okazji wykonującą fajną robotę związaną z digitalizacją. Jeśli ktoś nie wie, co to jest CAPTCHA i reCAPTCHA i dlaczego według mnie to taka bomba, spieszę z wyjaśnieniami.
CAPTCHA to skrót od Completely Automated Public Turing test to tell Computers and Humans Apart, czyli kompletnie zautomatyzowany test Turinga, który potrafi odróżnić człowieka od maszyny. Zapewne każdy z czytelników tego bloga choć raz przy rejestrowaniu się lub logowaniu do jakiegoś miejsca musiał przepisać tekst z obrazka, podobny do tego, który widać po prawej stronie.
Człowiek spokojnie sobie przeczyta taki obrazek (choć czasami można trafić na jakiś zupełnie zwariowany, który ciężko przeczytać), dla komputera jest on nie do przejścia. Dzięki temu CAPTCHA świetnie sprawdza się jako system antyspamowy. Wystarczy mały obrazek, żeby zablokować 99% botów spamujących blogi, zakładających fałszywe konta pocztowe itp. Są już sygnały o tym, że istnieją automaty zdolne czytać te obrazki, ale myślę, że mieszczą się one w tym jednym procencie, będącym marginesem zjawiska.
Dziennie około 200 milionów osób przepisuje tekst z obrazka rejestrując się, logując lub pisząc gdzieś komentarz. Twórcy systemu reCAPTCHA zauważyli, że marnuje się w ten sposób strasznie dużo ludzkiej pracy. Dlaczego by nie zrobić czegoś pożytecznego przy okazji wpisywania tych słówek?
Naturalnym rozwiązaniem była digitalizacja. Typowym problemem przy digitalizowaniu dokumentów jest OCR, czyli rozpoznanie tekstu. O ile skanowanie da się już raczej w pełni zautomatyzować, to rozpoznawanie tekstu wciąż, mimo istnienia świetnych programów, szwankuje. Widać to na poniższej ilustracji:

Skoro maszyny sobie nie radzą, to przecież można pokazywać nieczytelne fragmenty ludziom i niech oni czytają. Tak właśnie powstał system reCAPTCHA. Walkę ze spamem połączono ze społecznościową digitalizacją dokumentów na ogromną skalę (przypominam: robi to 200 mln osób dziennie) i wychodzi to świetnie, co można zobaczyć na stronie projektu i poczytać w artykule z magazynu Science (pdf).

Ale jeśli komputer nie rozpozna tekstu, to jak system wie, że wpisaliśmy prawidłowe słowo? To kolejny fajny pomysł. Otóż do odczytania dostajemy dwa słowa. Jedno system już zna, drugiego nie. Jeśli prawidłowo odczytamy to pierwsze, to system zakłada, że to drugie również jest dobre. To samo nieznane słowo jest podawane pewnej liczbie użytkowników, żeby upewnić się, że zostało poprawnie rozpoznane.
Jeśli do tego wszystkiego dodać otwarte API, pluginy do popularnych systemów zarządzania stronami (WordPress, Drupal, Joomla), środowisk programistycznych (PHP, Python, Ruby, Java itp.), dostępność (niewidomym reCAPTCHA przeczyta tekst z obrazka), to widzimy niesamowite, kompletne rozwiązanie za pomocą którego naprawdę dużo można zrobić.

Taką właśnie firmę kupiło Google. Zaciekawiło mnie, że relatywnie niewiele polskich serwisów zajmujących się IT odnotowało to wydarzenie. Zazwyczaj każda transakcja dokonana przez Google odbija się wszędzie szerokim echem. A tu dość cicho… A przecież jeśli wziąć pod uwagę ostatnią aktywność firmy z Mountain View związaną z digitalizacją, wspomniane przeze mnie na początku kontrowersje związane z Book Search i umowami z wydawcami, ten zakup wyraźnie pokazuje, że Google naprawdę poważnie traktuje swoje działania w dziedzinie digitalizacji. Kupno reCAPTCHA daje im kolejne potężne narzędzie pomagające w digitalizacji.
Ciekawe kiedy we wszystkich usługach wielkiego G zamiast zwykłych obrazków będziemy mieli reCAPTCHA.
Podobne wpisy:
- Google Books w badaniach naukowych – wcale nie tak różowo
- Google Editions czyli Google sprzedaje książki
- 10 wyszukiwarek Google dla bibliotekarzy
- Google publikuje OCRopus
- Google Book Search jeszcze ciekawsze
Wpis został opublikowany 19 września 2009 r. i oznaczony następującymi tagami:
captcha, digitalizacja, google, recaptcha, technologie.
Komentarze do wpisu:
-
-
, 20.09.2009, 23.51
Żadnej głupoty nie palnąłem. Próby (udane) złamania zabezpieczeń opartych na CAPTCHA to stricte akademickie/programistyczne testy, większość z nich pochodzi sprzed kilku albo kilkunastu miesięcy i odnosi się do konkretnego rodzaju obrazka, z takim a nie innym tłem albo takim a nie innym rodzajem tekstu.
Poczytaj trochę o tym, a znajdziesz artykuły zatytułowane “Gmail CAPTCHA exploited” albo “Yahoo CAPTCHA broken” — odnoszą się one do pojedynczych implementacji tego typu zabezpieczeń antyspamowych, nie do całej metody. Algorytmy typu EZ-Gimpy łamiące wszystkie CAPTCHA jak leci to pieśń przeszłości.
To, że CAPTCHA dostosowuje się do stanu wiedzy na temat możliwości jego złamania widać na przykładzie reCAPTCHA. Jeśli spojrzysz na grafiki powyżej, to możesz zobaczyć, że nie stosuje się tam już obrazków na mocno “zaszumionym” tle, bo takie szumy automat łatwo odsieje. Zamiast tego przez dodanie krzywych linii w tekście przypominających kształty liter utrudnia się segmentację obrazu, czyli podzielenie go na pola zawierające po jednej literze, co automat czytający obrazek robi po usunięciu tła, żeby rozpoznać tekst na obrazku.
Obrazki serwowane przez reCAPTCHA są jedną z najbezpieczniejszych tego typu metod walki ze spamerami. Dowodem może być to, że na oficjalnej stronie CAPTCHA, zalecana jest… reCAPTCHA.
Wszystko jest do złamania, jeśli nie automatem to przez zatrudnienie tysiąca mieszkańców Bangladeszu albo amatorów pornografii, żeby te obrazki czytali. Ale nie o to chodzi.
Ja uważam, że próby złamania tych dobrych zabezpieczeń to zjawisko marginalne z jednego ważnego powodu. Jego stosowanie zwyczajnie się spamerom nie opłaca. Musieliby projektować boty do konkretnych implementacji zabezpieczeń. Dla nich skórka nie jest warta wyprawki, bo wciąż istnieją miliardy stron nie posiadających zabezpieczeń antyspamowych, na które działają. Łatwiejsza kasa i tyle.
-
, 21.09.2009, 08.19
Mylisz pojęcie CAPTCHA z konkretnym rozwiązaniem, którym jest reCAPTCHA. To wręcz zabawne, hehe. Gdyby CAPTCHe nie były łamane, nie musiałoby powstawać tyle nowych. :)
-
, 21.09.2009, 11.01
Polecam przyjrzeć się projektowi PWNtcha: http://caca.zoy.org/wiki/PWNtcha
-
, 21.09.2009, 11.20
malin: Typowe CAPTCHA’e _są_ łatwe do złamania. To zadania na poziomie studenckim. To o czym Ty mówisz, to Google’owa CAPTCHA — jak sam zauważyłeś, nie ma tam ani szumów w tle ani innych kolorowych literek (kolorowe literki to wręcz by ułatwiły łamanie), ale takie właśnie wodotryski są w olbrzymiej ilości serwisów.
PS: „Oficjalna strona CAPTCHA” brzmi tak samo sensownie jak „oficjalna strona samochodu”. Na oficjalnej stronie samochodu zalecają Toyotę. ;-)
-
, 21.09.2009, 11.42
@zzz: nie mylę, wiem co to jest CAPTCHA i wiem czym jest jego konkretna implementacja w postaci reCAPTCHA.
@kobier: PWNtcha jest też ciekawym projektem, podobnie jak EZ-Gimpy, ale radzi sobie tylko z tymi mniej sprytnymi obrazkami. Ta druga tabelka na stronie podanej przez Ciebie zawiera też obrazki, z którymi PWNtcha sobie nie radzi.
@mcv: nie łap mnie za słówka :-) Chodziło mi o stronę projektu. A to, że niektóre tego typu zabezpieczenia są łatwe do złamania to wiem, wystarczy tylko spojrzeć na wpadki z CAPTCHA, które były stosowane w phpBB2 i phpBB3.
Ale wciąż uważam, że spamerom bardziej się opłaca omijać strony, które mają trudniejsze do złamania CAPTCHA niż stosować różne algorytmy do łamania konkretnych typów obrazków.
-
, 21.09.2009, 14.17
taaa… i niedługo google, by pomoc w digitalizacji do swojego projektu google books bedzie prosić: “if you want to send this email enter captcha” :)
-
, 21.09.2009, 14.42
są też nieco krytyczne komentarze:
http://www.pcworld.com/article/172149/will_googles_buy_of_recaptcha_hurt_internet_security.html -
, 21.09.2009, 17.39
Wg mnie (i nie tylko mnie) CAPTCHA to zwalanie obowiązku walki ze spamem na użytkowników — każdy taki “gadżet bezpieczeństwa” umieszczony na stronie skutecznie zniechęca mnie do niej. O dostępności już nie wspomnę.
-
, 26.09.2009, 23.49
@malin: Nie wiem czy wiesz, ale reCAPTCHA, którą tak się podniecasz, została już złamana: http://webhosting.pl/Hakerzy.4chanu.osmieszyli.magazyn.Time.i.system.reCAPTCHA
I pomyśl, jak zgubny wpływ może to mieć dla zdigitalizowanych książek! -
, 27.09.2009, 14.12
@rugby: to było zwykłe brute force dokonane przez ludzi. CAPTCHA, jak sama nazwa wskazuje, służy do tego, żeby odróżnić automat od człowieka. W takiej sytuacji jest bezradny. Napisałem w komentarzu wyżej, że wszystko się da zrobić mając odpowiednio dużo ludzi, niezależnie od tego, czy to tania siła robocza z Bangladeszu czy użytkownicy 4chana.
-
, 18.01.2010, 01.21
A co myslicie o sblam?
Metod sa tysiace az po pelna moderacje wlacznie :-)
-
, 16.02.2010, 01.06
[…] Źródło: http://www.malin.net.pl […]


“Dzięki temu CAPTCHA świetnie sprawdza się jako system antyspamowy. Wystarczy mały obrazek, żeby zablokować 99% botów spamujących blogi, zakładających fałszywe konta pocztowe itp. Są już sygnały o tym, że istnieją automaty zdolne czytać te obrazki, ale myślę, że mieszczą się one w tym jednym procencie, będącym marginesem zjawiska.” — palnąłeś głupotę. Po pierwsze: 1% to nie marginalne zjawisko, ale katastrofa, bo wystarczy jeden czytający dany typ captchy bot, by zasypać internet spamem. Po drugie większość CAPTCHA jest złamane i boty radzą sobie z nimi bez najmniejszych problemów.