Spoločnosť Google aktuálne oznámila akvizíciu projektu reCaptcha, implementácie systému Captcha používaného k digitalizácii ťažko rozpoznateľných textov a nasadeného na veľkom počte webových stránok.
Google plánuje po akvizícii použiť projekt na digitalizáciu kníh, novín a časopisov v rámci svojich projektov Google Books a Google News Archive Search ale podľa oznámenia tiež na ochranu svojich služieb proti spamerom.
Služba reCaptcha je používaná pri registrácii užívateľov viacerými významnými webovými stránkami vrátane Facebooku a Twitteru. Jej akvizíciou môže Google získať okrem iného aj cenné informácie o užívateľoch registrujúcich sa na týchto stránkach, ak samozrejme tieto stránky nezmenia použitý systém Captcha.
Projekt reCaptcha, ako sme informovali v tomto článku, bol spustený v máji 2007.
Ide o implementáciu systému Captcha, ktorá návštevníkom webových stránok predkladá na prepis dve slová. Prepis jedného slova služba už pozná a druhé neznáme pochádza z textov, ktoré systém reCaptcha aktuálne digitalizuje.
Overovaný návštevník stránok musí prepísať obe slová, pričom samozrejme nevie, ktoré slovo je systému známe a ktoré nie. Kontrola prepisu známeho slova funguje ako klasický systém Captcha, prepis druhého slova je považovaný za prepis doteraz neznámeho digitalizovaného slova.
Prepis jedného slova z digitalizovaných textov služba zisťuje minimálne dvakrát pre vylúčenie chybného prepisu, pričom systém reCaptcha je použitý len pre slová, ktoré klasické OCR algoritmy nedokážu spoľahlivo rozpoznať.
Ukážka boxu reCaptcha používaného na rozličných stránkach
Podľa Google je služba reCaptcha aktuálne používaná stotisíc stránkami. Podľa aktuálnych informácií na stránke projektu sú rozličné systémy Captcha denne používané celkovo 200 miliónov krát, koľko z toho pripadá na reCaptcha nie je známe.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Genialny system
Od: Mentol
|
Pridané:
16.9.2009 21:11
Keby takyto system prepisovania naskenovanych textov pouzil Google ako pristup na pornostranky, bola by uz celosvetova literatura davno uhladne prepisana. A nie jeden krat.
|
|
Re: Genialny system
Od: rayen
|
Pridané:
17.9.2009 0:33
len to overenie ... asi by sa zobralo to co ma vacsina, no isto by z toho boli vseliake perly
|
|
Google
Od reg.: Eagle
|
Pridané:
16.9.2009 21:13
No nemám síce v láske ak jedna spoločnosť má veľký podiel na trhu, ale uvidíme či Google nebude svoje postavenie zneužívať v budúcnosti.
|
|
Re: Google
Od: waveeeee
|
Pridané:
17.9.2009 1:22
lenze oni robia v oblasti, ktora sa da len tazko zmonopolizovat
|
|
Šikovné
Od: Rado2
|
Pridané:
16.9.2009 21:29
dobrý ťah od googlu, ktovie čo za to zaplatil.
Kým si stránky stihnú zmeniť CAPTCHA, má super štatistiky o počte registrovaných userov pre všetky stránky, čo to používajú. Na nezaplatenie.
|
|
kniha
Od: aleluja
|
Pridané:
16.9.2009 21:37
Som si myslel ze chcu vydavat knihy napisane cele v Captcha forme.
|
|
Re: kniha
Od: 20781
|
Pridané:
16.9.2009 23:18
Predstav si to takto: Google naskenuje celu stranu nejakej biblie z 15-eho storocia, preskrtne kazdy riadok a ked sa budes chciet dostat do svojej mailovej schranky tak budes musiet natukat celu stranu. Ty sa dostanes k svojmu mailu a google bude mat jednu stranu z knihy v elektronickej forme. Vynasob si to poctom pristupov na ich server a vyjde ti za den zopar desiatok tisic zdigitalizovanych knih bez minimalneho usilia zo strany google. :)
Ak by to co som napisal niekto bral vazne tak chyba je vo vasom prijimaci :D
|
|
Re: kniha
Od: aleluja
|
Pridané:
17.9.2009 8:32
No este im davaj napady :)
Google nikdy nespi.
|
|
Re: kniha
Od reg.: -nikto-
|
Pridané:
17.9.2009 9:10
ako by vyzeralo captcha cez pop3? :)
|
|
Re: kniha
Od reg.: webnick
|
Pridané:
17.9.2009 20:06
pop-up! :D
|
|
Re: kniha
Od: dlb
|
Pridané:
17.9.2009 12:02
Hlavne by som sa dosť natrápil s tým ozdobným gotickým fontom a textom v schwabachu alebo v latine :-)
|
|
:)))(
Od: Matooo01
|
Pridané:
16.9.2009 21:48
Len tak 4 fun sem dam konspiraciu: upravou javascriptu reCaptcha moze google trackovat navstevnost a udaje formularov az na 200 mil strankach :)
|
|
Re: :)))(
Od: Mentol
|
Pridané:
16.9.2009 22:09
Nebud naivny. Google ma absolutny prehlad o tom, kade surfujes. Nemusi ta niekde spehovat ved vsetko mu to pises do okienka uplne dobrovolne. Keby nebolo googlu (a bookmarkov) tak si vacsina ludi neprecita ani noviny. Ako je to? hhpt, potom nejaky smajlik wewewe a na konci sk a bodka.
|
|
Re: :)))(
Od: Ja.
|
Pridané:
16.9.2009 22:10
Netreba
|
|
:D:D:D
Od: :D:D:D
|
Pridané:
16.9.2009 21:53
stop books.
read spam.
|
|
Re: :D:D:D
Od: gutenberg
|
Pridané:
16.9.2009 23:30
stop read(ing)
spam books
|
|
.....
Od: Ja.
|
Pridané:
16.9.2009 22:03
Už sa teším, keď začnú prepisovať čínsku a japonskú literatúru. To bude žúžo.
|
|
hmmmmm
Od: Myho
|
Pridané:
16.9.2009 23:02
neviem presne ako to funguje....ale ked je tam napisane ze pouzivanim reCaptcha prepisujes knihy do digitalnej podoby, ako to ten soft rozlisuje, ci si napisal spravny text alebo nie? vsak to on musi dopredu vediet co tam je napisane aby to mohol porovnat s tym co si zadal ty....tak potom naco by si to prepisoval, ked on to uz ma prepisane...
fakt neviem jak to funguje, ak dakto viete, podelte sa s vedomostami :)
|
|
Re: hmmmmm
Od: TTTT
|
Pridané:
16.9.2009 23:06
jet o v clanku
jedno slovo vie na 100% a druhe je sucastou vyskumu...
|
|
Re: hmmmmm
Od: blizz.boz
|
Pridané:
16.9.2009 23:58
môže dať jedno slovo prepísať viacerým užívateľom...
|
|
Re: hmmmmm
Od: ...
|
Pridané:
17.9.2009 12:51
Jedno slovo necha prepisat viac uzivatelom. Okrem toho moze mat nejaky odhad, co tam bude. Ak je tam trebars nezname slovo calls, a prvy uzivatel napise asdf, tak ho to nemusi pustit. caiis by mozno pustilo.
|
|
ruske OCR
Od: Koumak
|
Pridané:
16.9.2009 23:21
Uz cakam, kedy google objavi tie ruske OCR softy a skupi od nich patenty, alebo cele firmy :)
Zatial nepoznam lepsie bezne cenovo pristupne softy ako napr. od ABBY ...
|
|
Re: ruske OCR
Od: blizzboz
|
Pridané:
17.9.2009 0:10
ja som dneska napísal robota na vyhľadávanie emailových adries, bohužiaľ som narazil na ochranu proti spambotom veľa adries sa v poslednej dobe ukladá ako obrázok, tak som použil knižnicu AspriseOCR a funguje to perfektne. ak nájde robot namiesto textu obrázok tak ho preloží na text potom testuje či je ten text emailová adresa a ak je tak ju uloží do databázy.
|
|
Re: ruske OCR
Od reg.: Chuck Garabedian
|
Pridané:
17.9.2009 0:38
a mohol by si nam prezradit, naco ti je databaza plna e-mailov?
|
|
Re: ruske OCR
Od: blizzboz
|
Pridané:
17.9.2009 0:41
skús 3x hádať :o)
|
|
Re: ruske OCR
Od: RoboTi
|
Pridané:
17.9.2009 2:38
no šikovný si, šikovný...
|
|
Re: ruske OCR
Od: Ja.
|
Pridané:
18.9.2009 9:28
A ja som spravil robota na sťahovanie porna. Keď som ale zistil, že už mám skoro plný disk, tak som to aj tak všetko vymazal, aj toho robota.
|
|
jebem2345
Od: featherlight
|
Pridané:
17.9.2009 3:38
Inac clanku som nepochopil ako obvykle na dsl.sk a to som od fachu:-D
|
|
Re: jebem2345
Od: Ja.
|
Pridané:
17.9.2009 8:28
Od akého fachu? Ak opravuješ počítače, tak ti to môže byť šumafuk
|
|
Re: jebem2345
Od: mmxx
|
Pridané:
18.9.2009 14:53
Akoze pouziva google :)
|
|
jebem2345
Od: featherlight
|
Pridané:
17.9.2009 3:39
Inac clanku som nepochopil ako obvykle na dsl.sk a to som od fachu:-D
|
|
Re: jebem2345
Od: sikovny si
|
Pridané:
17.9.2009 8:00
no mozno niesi dost "od fachu" ak si myslis ze ked studujes na nejakej skole v Hornej Dolnej, kde maju pocitacovu ucebnu s troma pocitacmi....tak mam pre teba zlu spravu...niesi "z fachu" ;)
|
|
tipovanie noveho slova
Od reg.: MMx
|
Pridané:
17.9.2009 8:21
Skusim este raz co kolega zacal a poriadne. Pouzitie reCaptcha teda znamena, ze ak vzdy prve slovo odpisem a druhe si vymyslim, mam radovo 50% pravdepodobnost ze ma to pusti? A viacnasobna kontrola to neisti, ak to iste slovo dostanu dvaja ludia a kazdy odpovie inac, z toho nejde zistit kto ma pravdu (a ci vobec niekto). Okrem toho ked odoslem formular tak chcem odpoved hned, nie cakat kym niekto iny dostane to iste slovo.
|
|
Re: tipovanie noveho slova
Od: Rival-e
|
Pridané:
17.9.2009 8:31
no mne sa toto cele zda, ze to nevedia na 100%, overia Ta podla prveho slova, resp. podla slova, ktore poznaju a nezname slovo priradia do databazy a skumaju ho az ked maju urcitu vzorku prepisaneho textu a potom ked maju 100%-nu istotu, ze je to to slovo, asi su na to nejake algoritmy, tak to potom zaradia ako zname slovo, a mozno sa to overuje este aj potom, alebo porovnava s nejakymi statistikami.
|
|
Re capca
Od: Žigmund
|
Pridané:
17.9.2009 8:41
Mne sa zdá že re capca je už nejak prelomena. Je to možné?
|
|
Re: Re captcha
Od reg.: Betlista
|
Pridané:
18.9.2009 12:28
Všeobecne to pravda nie je...
Niektoré texty sa dajú počítačom rozoznať (OCR), ale čím viac je text "obordelovaný" - napríklad rôzne farby častí písmen, popreškrtávané, pokrútené písmená atď, tým je to ťažšie...
Mám pocit, že niektorý z projektov dokonca skúmal aká je najlepšia forma skomolenia textu, aby bolo čo najťažšie ho strojom prečítať a na základe toho vydávali odporúčania. Bola to taká hra: "skúsme to prečítať" - ak na to našli algoritmus, tak zťažili modifikáciu textu (skomolenie) a zas hľadali algoritmus ako to prečítať...
|
|
reCaptcha
Od: milan.ko
|
Pridané:
17.9.2009 9:54
Pouzivam reCaptcha na jednom webe, a niekolkokrat to na mna vybehlo aj na facebooku. Co som si vsimol je, ze v poslednej dobe je pomerne lahke urcit, ktore z tych dvoch slov je zname a ktore je nerozpoznatelne - tie nerozpoznatelne su vacsinou dost necitatelne aj pre cloveka. Obavam sa, aby tuto "vlastnost" nezneuzili crackeri, aj ked je tazke urcit nejakym algoritmom, ktore slovo je citatelne a ktore nie.
|