neprihlásený Piatok, 22. novembra 2024, dnes má meniny Cecília
Nový CAPTCHA systém pomáha digitalizovať knihy

DSL.sk, 25.5.2007


Mimoriadne zaujímavý projekt reCAPTCHA predstavila vo štvrtok Carnegie Mellon University z Pittsburghu.

reCAPTCHA je implementáciou známého kontrolného mechanizmu CAPTCHA napríklad proti spamovaniu diskusií webových serverov, pri ktorom musí užívateľ rozpoznať z obrázka a zapísať v textovej podobe zhluk písmen, aby sa zabránilo prispievaniu spambotom.

Na rozdiel od bežných CAPTCHA implementácií reCAPTCHA negeneruje písmená náhodne, ale využíva prácu návštevníkov webových stránok na digitalizáciu skenovaných starších kníh.

V systéme reCAPTCHA totiž musí užívateľ prepísať dve slová, jedno zatiaľ neznáme pochádzajúce zo zoskenovaných kníh. Keďže systém nepozná prepis tohto slova, druhé je slovo s už známym prepisom, aby systém mohol overovať správnosť prepisu. Ktoré slovo je kontrolné nie je možné z obrázku rozlíšiť a tak sa užívateľ nemôže vyhnúť prepisu zatiaľ neznámeho slova, ktoré sa na kontrolu nepoužíva.

Každé neznáme slovo bude použité u viacerých užívateľov, aby sa vylúčil omyl pri prepise.


reCAPTCHA box použitý na stránke



Podľa tlačovej správy univerzity sa denne na celom Internete používa CAPTCHA približne 60 miliónov krát, čo predstavuje pri desiatich sekundách na jeden prepis približne 150 000 hodín práce.

Službu reCAPTCHA pomocou dostupného API môžu používať zdarma web stránky pre ochranu proti spambotom, ich návštevníci budú súčasne prispievať k digitalizácii kníh. V súčasnosti sú v projekte digitalizované anglické knihy z archive.org.

Počet slov priemernej knihy sa pohybuje na úrovni 80 000. Ak je každé slovo pre kontrolu prepisované priemerne dvakrát, za deň by všetkých 60 miliónov prepisov pomocou rozličných CAPTCHA systémov umožnilo zdigitalizovať rádovo 360 kníh.


      Zdieľaj na Twitteri



Najnovšie články:

Protimonopolný úrad začal prešetrovať, prečo v SR nie sú skutoční virtuálni mobilní operátori
Nový trailer filmu Minecraft
Linux v ďalšej verzii vyradí súborový systém Reiser
Odštartovaná výroba flash pamäte s 321 vrstvami
Apple má prvýkrát použiť vlastný 5G modem v iPhone v marci
Linux dostáva podporu veľkokapacitných pamäťových SDUC kariet
USA požadujú, aby Google predal Chrome a potenciálne aj Android
ISS zvýšila orbitu, aby sa vyhla troskám zo satelitu
Vzniknú fyzické zábavné tematické Minecraft parky
Qualcomm chystá Snapdragon CPU pre lacnejšie PC, majú začínať na 600 dolárov


Diskusia:
                               
 

No... myslim ze toto je jednoznacne plus v tejto sfere. Spojene prakticke s uzitocnym.

Iba ze par ludi dostane vypoved :)
Odpovedať Známka: 0.0 Hodnotiť:
 

a urcite to funguje aj v OPERE
Odpovedať Známka: -8.6 Hodnotiť:
 

najzaujimavejsia vec tento tyzden...
len ci nieje to skenovanie a dalsia uprava "fotky" narocnejsia ako samotne naskenovanie a rozpoznavanie celich stranok v specialnych programoch.. napriklad MSword :D
Odpovedať Známka: 5.0 Hodnotiť:
 

nie je. posekanie na riadky a priblizne oblasti slov sa da spravit 20 riadkovym programom automaticky bez problemov

najma stare knihy mozes OCR-kovat ale len rucne, ked automatika ti mozno aj tretinu slov nerozpozna
Odpovedať Hodnotiť:
 

presne, oskenovať je to veľmi jednoduché..myslím, že toto je perfektný nápad a fakt veľmi to pomôže
Odpovedať Známka: 6.0 Hodnotiť:
 

oK... :)

s tou tretinou slov si to celkom trafil :P
Odpovedať Známka: 8.0 Hodnotiť:
 

Tu je vidiet, ze prve slovo je oscanovane ;-).
Odpovedať Hodnotiť:
 

trt
obe slova su oskenovane
ale jedno z ich uz je "zname" v digitalnej podobe (uz je overene).

Odpovedať Známka: 5.0 Hodnotiť:
 

LOL
Odpovedať Známka: 5.0 Hodnotiť:
 

a budu tie knihy potom dostupne zadarmo na webe alebo len niekomu usetria uzivatelia pekny balik penazi ? ...
Odpovedať Známka: 5.0 Hodnotiť:
 

LOL, vcelku dobra pripomienka :) ale tak zas sa nemozme na vsetko pozerat iba z tejto stranky... teba to nezabije, pretoze by si tam tak ci tak nieco zadaval a ked to niekomu pomoze... snad sa to vrati niekomu inemu.

Inak, ako uz bolo spomenute, asi najlepsia sprava tohto tyzdna, velmi uzitocna vec. spojenie "uzitocneho a uzitocneho" :)

btw - mali by o takom niecom pouvazovat aj ludia, ktori zastresuju zlaty fond zo sme.sk - btw - je to ozaj vynikajuci projekt - vcera som cital mamku postkovu :) aj som celkom pochopil preco od nas chceli na ZS ci SS aby sme si to precitali :)


Odpovedať Známka: 6.9 Hodnotiť:
 

na webe je vsetko zadarmo :D
Odpovedať Známka: -3.3 Hodnotiť:
 

Pripoji sa k pouzivaniu tohto systemu aj server dsl.sk ? :)
Odpovedať Známka: 6.9 Hodnotiť:
 

no to by aj mna zaujimalo a bol by som velmi rad...
Odpovedať Známka: 4.3 Hodnotiť:
 

x-krat sme tu uz viaceri ziadali od adminov dsl.sk aby zaviedli nejaku formu ochrany proti spambotom. a stale nic. a teraz citam clanok kde to je spominane. je mi na smiech z celeho dsl.sk . uz sa uvedomte a rieste uz konecne spambotov.dakujem ja a urcite aj ostatni citatelia ktorych uz nebavi citat v diskusiach debilne spambot prispevky.
Odpovedať Známka: 3.3 Hodnotiť:
 

OMG ty ich citas? :D
Odpovedať Známka: -6.9 Hodnotiť:
 

Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera ! Opera !

Odpovedať Známka: -8.3 Hodnotiť:
 

<a href=http://www.exchange-on-line.com> Ěîřĺííčę. Âńĺ âčäű ěîřĺííč÷ĺńňâŕ. Îáěŕí íŕ ýëĺęňđîííűő âŕëţňŕő. </a>
Ęîíňŕęňű: info@exchange-on-line.com director22@yandex.ru Alpk83@yahoo.com

Odpovedať Známka: -4.7 Hodnotiť:
 

<a href=http://www.exchange-on-line.com> Ěîřĺííčę. Âńĺ âčäű ěîřĺííč÷ĺńňâŕ. Îáěŕí íŕ ýëĺęňđîííűő âŕëţňŕő. </a>
Ęîíňŕęňű: info@exchange-on-line.com director22@yandex.ru Alpk83@yahoo.com

Odpovedať Známka: 0.0 Hodnotiť:
 

<a href=http://www.exchange-on-line.com> Ěîřĺííčę. Âńĺ âčäű ěîřĺííč÷ĺńňâŕ. Îáěŕí íŕ ýëĺęňđîííűő âŕëţňŕő. </a>
Ęîíňŕęňű: info@exchange-on-line.com director22@yandex.ru Alpk83@yahoo.com

Odpovedať Známka: 7.5 Hodnotiť:

Pridať komentár