Spiders e roBots contro il web Cloacking


Mi capita di controllare spesso i log del mio server più per scrupolo che per altro e mi ritrovo sempre più spesso delle richieste a pagine inesistenti da parte di agent che corrispondono a motori di ricerca

Un esempio l’url /SlurpConfirm404/modem.html sul mio server non esiste ma il signor Slurp l’ha cercata lo stesso.

Perchè?

Dove ha trovato un link al mio sito con una pagina sbagliata?

La risposta sta in queste parole presenti nel portale di yahoo all’indirizzo http://help.yahoo.com/help/us/ysearch/slurp/slurp-10.html

Some web servers send a site navigation page or other response page with a “HTTP 200 OK” response instead of a “HTTP 404 Not Found” result for page-not-found conditions. To check on web server handling of page-not-found conditions, Slurp will occasionally send deliberately odd URLs built from random words to sites from which no 404 results have been seen. These URLs are built intentionally to not match any actual content at the site. We save information on the web server response to requests for non-existent pages so we can correctly recognize and remove obsolete URLs in our search database.

A Slurp check for 404 results from a web server consists of requests for up to 10 such URLs. The check for 404 behavior is not a normal part of Slurp site refresh, so such requests will be rare.

Ma facciamo un paio di passi indietro… Il cloaking come descritto nell’articolo http://www.etechs.it/articoli/il-cloaking.php è una tecnica che si è evoluta… i webmaster hanno ben pensato di falsare le carte gestendo anche tutti quei link alle proprie pagine che restituiscono errore 404… di qui l’evoluzione, forzare le pagine con errore 404 e gestirle con un redir o con un 200 ok…

Implica maggior traffico, più visite, più pagine indicizzate, page rank elevato, ne decade però la qualità.

I motori di ricerca attualmente stanno cercando di combattere questa tecnica facendo accessi sporadici a cartelle sicuramente inesistenti.

Ma così facendo ho proprio idea che prima o poi venga fuori una regexp che intercetta le url fasulle :).

Spiders e roBots contro il web Cloacking ultima modifica: 2006-08-04T00:00:00+00:00 da Enrico

4 Comments.

  1. Meno qualit…
    diciamo che se l’utente distratto arriva nel sito da un link sbagliato oppure hai rinnovato il sito e le precedenti pagine non ci sono pi tutti quei collegamenti li sono persi!

    Quest’ultima la ragione per cui ho attuato una cosa simile.
    Avevo 50 siti di cui ho fatto il porting che puntavano a directory diverse dal vecchio al nuovo server.

    Ho obbligatoriamente dovuto gestire la situazione.
    Idem se rinnovi il sito.

  2. mmm forse mi sono espresso male… la tecnica da lodare in quanto utile… come pure per il cloaking originale, togliere o aiutare un motore di ricerca ad indicizzare le cose giuste una cosa buona, nel tuo caso inaftti eticamente corretto. Anche io ho delle pagine di redir appositamente posizionate.

    Meno qualit quando si utilizzano tecniche di refererring a pagine inesistenti che redirezionano o si lanciano in giro per la rete pagine che puntano a 404 e che vengono comunque risolte per altri motivi.

    Il giocare sporco disonesto, quello mi fa girare le scatole… alla fine il risultato che tu che utilizzavi la tecnica per aiutare il motore di ricerca, ed alla fine ti ritrovi con il motore che rifiuta la tua tecnica perch stata utilizzata per secondi fini da altri truffaldini.

    Ad ogni modo succede sempre cos :(

  3. Odio molto di pi quei siti che trovi in ogni ricerca, dove hanno praticamente qualsiasi url, e qualsiasi titolo, per ogni ricerca che fai.

    Quello che non capisco come facciano a farlo… forse proprio evitando il 404 e inviando un codice di pagina corretta… per il nome della pagina come fanno a farlo, affinch gli spider lo vedano?

  4. hanno quelle pagine di gateway
    o delle doorway
    [url]http://www.etechs.it/articoli/doorway-pages.php[/url]

  5. e… li odio pure io!