Bojujte proti spamu a pomozte digitalizovat historii

Známe to všichni – psaní komentářů, registrace, odesílání formulářů – při tom všem často musíme číst rozmazaná písmenka a opakovaně je zadávat, dokud se nám nepodaří vygenerované klikyháky správně rozluštit, jen proto, abychom dotyčný skript přesvědčili, že opravdu nejsme žádní protivní spamboti.

Vše začalo u Luise von Ahna, který byl při práci na své disertaci požádán zástupci společnosti Yahoo! o pomoc v boji proti spammerům. Ti v té době dokázali zaregistrovat miliony e-mailových adres a denně jejich prostřednictvím odesílali stovky milionů nevyžádané pošty.

Vznik nástroje CAPTCHA

Výsledkem spolupráce byl známý program CAPTCHA (Completely Automated Turing Test To Tell Computers and Humans Apart) fungující na principu Turingova testu, který nutí uživatele před odesláním příspěvku opsat deformovaný text.

Okamžitě se dostavil kýžený výsledek – sofistikovaný program vyřadil běžné spamboty ze hry a zkomplikoval život jejich autorům. Zprovoznění systému CAPTCHA však nebyl konec – vědci si z dlouhé chvíle dali práci s určením času, který uživatelé stráví při opisování textu, a došli k překvapujícím číslům – při 10 sekundách potřebných na přepsání znaků stráví 200 milionů uživatelů denně přibližně 500 000 hodin zcela neproduktivní a nudnou činností. Ale co s tím?

Jak využít CAPTCHA jiným způsobem?

Von Ahn se pustil do hledání nějakého využití. Věděl, že v mnoha knihovnách probíhá digitalizace knih a novin vydaných v dávných dobách před nástupem digitálního věku.

V průběhu tohoto procesu je text nejprve naskenován a poté zpracován metodou pro rozpoznávání znaků (OCR – Optical Character Recognition), která naskenované obrázky převede na odpovídající text. Problém je v tom, že i sebelepší systém OCR nedokáže stoprocentně rozeznat zdeformovaný, rozostřený či jinak porušený text.

A zde si von Ahn uvědomil zřejmou spojitost mezi systémem OCR a CAPTCHA – nemožnost strojově zpracovat nestandardní text, skutečnost, na které stojí CAPTCHA a padá OCR. To byl první krok k zahájení distribuované digitalizace textu.

Vznik systému reCAPTCHA

Stačilo uživatelům namísto náhodně vygenerovaných a následně rozostřených znaků předložit část textu starých novin, který nedokázal rozpoznat program OCR, a zrodil se systém reCAPTCHA. Moment! Jestliže však počítač nedokáže tento text rozpoznat, jak tedy ověří, zda uživatel opsal text správně?

Řešení není nikterak složité – stačí zobrazit dvě slova, jedno snadno rozpoznatelné, které počítač dříve analyzoval, a druhé, u kterého zatím není stoprocentní shoda. Uživatel pak přepíše obě slova a v případě, že zadal správně již analyzované slovo, počítač předpokládá, že bylo správně opsáno i druhé slovo.

Za účelem ověření je dané slovo předhozeno ještě dalším uživatelům a v případě zadání určitého počtu shodných odpovědí je jeho přepis považován za správný. V současnosti využívá systém reCAPTCHA více než 40 000 webů, jejichž uživatelé pomáhají denně přepsat více než 20 milionů nových slov. Vezmeme-li v úvahu, že jeden knižní román obsahuje přibližně 150 tisíc slov, díky úsilí uživatelů se denně podaří přepsat objem slov rovnající se více než stovce knih, což je opravdu úctyhodné číslo.

reCAPTCHA však prospívá oběma stranám. Vědomí, že při přepisování obrázků uživatelé přispívají dobré věci, činí tento způsob boje proti spamu mnohem snesitelnějším. Pokud vás myšlenka systému reCAPTCHA nadchla stejně jako majitele oněch desetitisíců serverů, můžete využít některý z pluginů nabízených profesorem von Ahnem i na svém webu. Díky komunitě vývojářů je reCAPTCHA k dispozici prakticky pro každý známější systém pro správu obsahu. Z podporovaných platforem můžeme namátkou jmenovat WordPress, Joomlu, Drupal, Wiki nebo třeba diskusní fórum phpBB.