Layer 06

Spiders e roBots contro il web Cloacking

/SlurpConfirm404/modem.html sul mio server non esiste ma il signor Slurp l’ha cercata lo stesso. Perchè? Dove ha trovato un link al mio sito con una pagina sbagliata? La risposta sta in queste parole presenti nel portale di yahoo all’indirizzo http://help.yahoo.com/help/us/ysearch/slurp/slurp-10.html

Some web servers send a site navigation page or other response page with a “HTTP 200 OK” response instead of a “HTTP 404 Not Found” result for page-not-found conditions. To check on web server handling of page-not-found conditions, Slurp will occasionally send deliberately odd URLs built from random words to sites from which no 404 results have been seen. These URLs are built intentionally to not match any actual content at the site. We save information on the web server response to requests for non-existent pages so we can correctly recognize and remove obsolete URLs in our search database. A Slurp check for 404 results from a web server consists of requests for up to 10 such URLs. The check for 404 behavior is not a normal part of Slurp site refresh, so such requests will be rare. Ma facciamo un paio di passi indietro… Il cloaking come descritto nell’articolo https://www.etechs.it/articoli/il-cloaking.php è una tecnica che si è evoluta… i webmaster hanno ben pensato di falsare le carte gestendo anche tutti quei link alle proprie pagine che restituiscono errore 404… di qui l’evoluzione, forzare le pagine con errore 404 e gestirle con un redir o con un 200 ok… Implica maggior traffico, più visite, più pagine indicizzate, page rank elevato, ne decade però la qualità. I motori di ricerca attualmente stanno cercando di combattere questa tecnica facendo accessi sporadici a cartelle sicuramente inesistenti. Ma così facendo ho proprio idea che prima o poi venga fuori una regexp che intercetta le url fasulle :).

]]>

Nessun commento “Spiders e roBots contro il web Cloacking”