Spiders e roBots contro il web Cloacking

/SlurpConfirm404/modem.html sul mio server non esiste ma il signor Slurp l’ha cercata lo stesso. Perchè? Dove ha trovato un link al mio sito con una pagina sbagliata? La risposta sta in queste parole presenti nel portale di yahoo all’indirizzo http://help.yahoo.com/help/us/ysearch/slurp/slurp-10.html

Some web servers send a site navigation page or other response page with a “HTTP 200 OK” response instead of a “HTTP 404 Not Found” result for page-not-found conditions. To check on web server handling of page-not-found conditions, Slurp will occasionally send deliberately odd URLs built from random words to sites from which no 404 results have been seen. These URLs are built intentionally to not match any actual content at the site. We save information on the web server response to requests for non-existent pages so we can correctly recognize and remove obsolete URLs in our search database. A Slurp check for 404 results from a web server consists of requests for up to 10 such URLs. The check for 404 behavior is not a normal part of Slurp site refresh, so such requests will be rare. Ma facciamo un paio di passi indietro… Il cloaking come descritto nell’articolo https://www.etechs.it/articoli/il-cloaking.php è una tecnica che si è evoluta… i webmaster hanno ben pensato di falsare le carte gestendo anche tutti quei link alle proprie pagine che restituiscono errore 404… di qui l’evoluzione, forzare le pagine con errore 404 e gestirle con un redir o con un 200 ok… Implica maggior traffico, più visite, più pagine indicizzate, page rank elevato, ne decade però la qualità. I motori di ricerca attualmente stanno cercando di combattere questa tecnica facendo accessi sporadici a cartelle sicuramente inesistenti. Ma così facendo ho proprio idea che prima o poi venga fuori una regexp che intercetta le url fasulle :).

]]>

Nessun commento “Spiders e roBots contro il web Cloacking”

merlinox
4 Agosto 2006, 12:32

Meno qualità…
diciamo che se l’utente distratto arriva nel sito da un link sbagliato oppure hai rinnovato il sito e le precedenti pagine non ci sono più tutti quei collegamenti li sono persi!
Quest’ultima è la ragione per cui ho attuato una cosa simile.
Avevo 50 siti di cui ho fatto il porting che puntavano a directory diverse dal vecchio al nuovo server.
Ho obbligatoriamente dovuto gestire la situazione.
Idem se rinnovi il sito.
enrico L'autore dell'articolo
4 Agosto 2006, 12:51

mmm forse mi sono espresso male… la tecnica è da lodare in quanto utile… come pure per il cloaking originale, togliere o aiutare un motore di ricerca ad indicizzare le cose giuste è una cosa buona, nel tuo caso inaftti è eticamente corretto. Anche io ho delle pagine di redir appositamente posizionate.
Meno qualità è quando si utilizzano tecniche di refererring a pagine inesistenti che redirezionano o si lanciano in giro per la rete pagine che puntano a 404 e che vengono comunque risolte per altri motivi.
Il giocare sporco è disonesto, quello mi fa girare le scatole… alla fine il risultato è che tu che utilizzavi la tecnica per aiutare il motore di ricerca, ed alla fine ti ritrovi con il motore che rifiuta la tua tecnica perchè è stata utilizzata per secondi fini da altri truffaldini.
Ad ogni modo succede sempre così 🙁
merlinox
4 Agosto 2006, 14:48

Odio molto di più quei siti che trovi in ogni ricerca, dove hanno praticamente qualsiasi url, e qualsiasi titolo, per ogni ricerca che fai.
Quello che non capisco è come facciano a farlo… forse proprio evitando il 404 e inviando un codice di pagina corretta… però il nome della pagina come fanno a farlo, affinchè gli spider lo vedano?
enrico L'autore dell'articolo
4 Agosto 2006, 15:27

hanno quelle pagine di gateway
o delle doorway
[url]https://www.etechs.it/articoli/doorway-pages.php[/url]
enrico L'autore dell'articolo
4 Agosto 2006, 15:27

e… li odio pure io!