neprihlásený Piatok, 1. mája 2026, dnes je Sviatok práce
Google začína indexovať aj webové formuláre

DSL.sk, 13.4.2008


Spoločnosť Google aktuálne informovala o rozšírení množstva indexovaných informácií o automatické prehľadávanie stránok získaných po odoslaní formulárov na webových stránkach.

Doteraz zostávali stránky s informáciami, ku ktorým sa bolo možné dostať len cez webové formuláre, pre hlavnými vyhľadávačmi skryté.

Indexovanie webových formulárov odštartoval Google postupne pred niekoľkými mesiacmi. Textové políčka dopĺňa výrazmi generovanými z textov stránok, na ktorých sa formulár nachádza, u políčok typu checkbox a radio a výberu z viacerých preddefinovaných možností SELECT tagom volí a skúša jednotlivé možnosti.

Ak výslednú stránku získanú odoslaním formulára vyhodnotí prehľadávací robot Google ako platnú, zaradí ju do indexu.

Google zatiaľ informácie dostupné cez formuláre indexuje len na časti stránok a to iba v prípade GET formulárov. Indexované nie sú ani formuláre obsahujúce políčko s heslom ani políčka, ktoré by podľa vyhodnotenia Google mohli byť napríklad prihlasovacím menom alebo iným jednoznačným ID.

Prehľadávací robot rešpektuje súbor robots.txt a výsledné stránky po odoslaní formulára nezaindexuje ani v prípade, že ich robots.txt nezakazuje indexovať ale zakazuje indexovať samotnú stránku s formulárom.

Podľa Google cez formuláre by malo byť dostupné veľké množstvo nových informácií, ktoré boli doteraz vyhľadávačom nedostupné. O aké množstvo v porovnaní s doterajším množstvom indexovaných informácií by malo ísť ale spoločnosť nespresnila, podľa niektorých odhadov je ale množstvo informácií dostupných cez HTTP a nezaindexovaných vyhľadávačmi výrazne väčšie ako množstvo informácií zaindexovaných vyhľadávačmi.



Najnovšie články:

Tesla začala masovú výrobu elektrokamióna Semi
Notebooky v EÚ sa už musia nabíjať cez USB-C
Od zajtra budú obchody musieť prijímať platby cez QR kódy alebo inak bezhotovostne
V auguste staršia raketa Falcon 9 narazí do Mesiaca
VÚB má technické problémy
Voyo sa stáva internetovou televíznou službou, pridáva množstvo iných staníc
Vydaná Fedora 44, Fedora Asahi Remix 44 pre Macy a Ubuntu 26.04 LTS
OpenAI má pripravovať vlastný AI smartfón
Webhosting dostal veľkú pokutu za neposkytnutie emailov zákazníka protimonopolnému úradu
Colníci zabavili falošné Apple produkty za 660-tisíc


Diskusia:
                               
 

>Prehľadávací robot rešpektuje súbor robots.txt
>a výsledné stránky po odoslaní formulára
>nezaindexuje ani v prípade, že ich robots.txt
>nezakazuje indexovať ale zakazuje indexovať
>samotnú stránku s formulárom.

To mi pride trochu drze, pretoze ak zakazem stranku s formularom, tak si nezelam, aby ho vobec odosielal a nie ze len ho po odolani nezaindexuje ... Moze to skreslit statistiky vyhladavania, ak na stranke pouziva formular vyhladavania GET metodu alebo ak je niekto lama a ma cez GET rieseny formular na knihu navstev alebo nieco podobne, tak tam bude mat kopu spamu od Googlu aj napriek nastaveniu robots.txt, aj ked na druhej strane je velmi malo pravdepodobne, ze by taka lamka mala vobec nastaveny robots.txt :) ...
Odpovedať Známka: -2.0 Hodnotiť:
 

Preco by mal byt niekto lama zato ze pouziva GET? Myslis si, ze pouzivanie GET nema zmysel? Robil si uz WAP stranky? ak ano skusil si poslat nieco POSTom a nasledne to presmerovat HEAD requestom? Este k tomu si na tejto stranke s s telefonom, ktory ma tieto veci dost krkolomne osetrene (niektore nokie). Stane sa to, ze ti telefon zacne vyhadzovat varovnu hlasku a nepohnes sa dalej.
Ja kde sa len da pouzivam POST, ale v niektorych situaciach to nejde, takze by som tieto "lamy" nezatracoval za nieco o com nemas ponatia.
Imho, skus nieco vyhladat priamo cez google a pozri URL, to su lamy co? tiez pouzivaju GET...
S prvym nazorom suhlasim, tiez si nezelam aby google generoval plno jaloveho trafficu odosielanim mojich formularov, ale myslim si, ze to nejako osetria proti odosielaniu na rozne fora, atd. V opacnom pripade by google posobil podobne ako spambooty, ktorych je neurekom a proti ktorym sa vie branit aj hocijaka lama captcha obrazkami.
Odpovedať Známka: 10.0 Hodnotiť:
 

Lama je ten, co pouziva GET tam kde sa to nema ... niektori nevedia rozlisit kedy pouzit GET a kedy POST
Ak niekto pouzije GET pri zasielani prispevku do diskusneho fora pripadne pri web-to-email formulari, tak je to jednoznacne LAMA s velkym L

Odpovedať Známka: 6.0 Hodnotiť:
 

Zaindexovane su priblizne 3 percenta zo stranok "na povrchu" webu a okolo 0,1 percenta "z hlbin" webu. ;-)
Odpovedať Hodnotiť:
 

je ich ovela viac ty tulen, kolkokrat si uz hladal nieco napr. v cinstine?
Odpovedať Hodnotiť:
 

alebo v Svahliščine?
Odpovedať Hodnotiť:
 

Svahilcine si chcel povedat ty konov brat.
Odpovedať Známka: 6.7 Hodnotiť:
 

Kazdi normalni pochopil
Odpovedať Známka: -7.1 Hodnotiť:
 

Ze si konov brat?
Odpovedať Známka: 6.0 Hodnotiť:
 

a to mas odkial take vysoke cisla? podla mna to nie je ani 1%
Odpovedať Známka: 3.3 Hodnotiť:
 

Samozrejme ze to spolu nie je ani 1 percento. Za tzv povrch webu sa povazuje asi tak 0,1 - 0,5 percenta vsetkeho obsahu na webe.

Aj ked treba poznamenat ze data/informacie ktore su na povrchu su casto viac relevantne resp aktualne.
Odpovedať Hodnotiť:
 

Super, dalsi spambot. Len to sme potrebovali.
Odpovedať Známka: 0.0 Hodnotiť:
 

"Indexované nie sú ani formuláre obsahujúce políčko s heslom ani políčka, ktoré by podľa vyhodnotenia Google mohli byť napríklad prihlasovacím menom alebo iným jednoznačným ID."

v komentoch, forach a pod je prezyvka, co sa da povazovat za ID, pri formularoch odosielajucich e-mail (objednavkove formulare a podobne) je takych ID poli viac, cize toto google neodosiela!!!

nevravim, je mozne ze sa moze objavit zo zaciatku nejake promile specifickych pripadov ked to robi neplechu ale promile je prilis male cislo a casom si myslim ze aj toto sa spravi...
Odpovedať Známka: 3.3 Hodnotiť:
 

takato sprava vychadza kazdy rok.. Odkial mate zdroj? Takato informacia by bola urcite na oficialnom google webmaster blogu.
Odpovedať Hodnotiť:
 

Zdroj je v článku nalinkovaný a jasne označený "Spoločnosť Google aktuálne informovala...", linka smeruje práve na Webmaster Central Blog...
Odpovedať Hodnotiť:
 

Naozaj neviem, co sa rozculujete. GoogleBot sa sam identifikuje cez User-agent header a nieje problem jeho "prispevky" vyfiltrovat.
Odpovedať Hodnotiť:

Pridať komentár