Spam, Spamdexing e Spam Web Site. Lo Spamming che confonde i Motori di Ricerca.



google-spam-spamdexing

Lo spam non è solamente un comportamento fastidioso e spesso malinio che corre via posta elettronica e definito spam-mail: da tempo ormai lo spam ha invaso anche il Web. Si parla in questo caso di Spamdexing e si tratta dello sfruttamento delle tecnologie che stanno dietro al funzionamento dei motori di ricerca per riuscire ad ottenere alti livelli di ranking del proprio sito.

È un comportamento estremamente scorretto di portare visitatori verso le proprie pagine ed è molto combattuto da tutti i motori di ricerca attuali, primo fra tutti Google, che per primo inserì nel proprio codice controlli e funzioni per l’eliminazione di spam di questo genere.

Sfruttare i tag Meta, molto in voga negli anni passati, è ormai completamente inutile con le nuove tecnologie a disposizione degli engine, ma ancora qualcuno pensa che inondando gli header della propria pagina con parole chiave di qualunque tipo riesca a farla franca e a passare i controlli dei motori di ricerca.

Tecniche Borderline.
Due tecniche invece molto più subdole, in quanto possono trarre in inganno non solo i robot ma anche i visitatori, sono l’uso di pagine gateway, riempite con parole chiave a caso ma dai contenuti quasi inesistenti, con un “clicca qui” per rimandare al sito vero e proprio, e i siti cosiddetti “scraper”, che costruiscono pagine Web rubacchiando il testo descrittivo riportato dai motori di ricerca stessi, formando quindi un’accozzaglia di testi disomogenei e di nessuna utilità per il navigatore, ma che però possono indurre gli spider dei motori di ricerca a includere tali pagine nei propri rank in numerose categorie.

google-spamndexing

Un primo metodo di spam degli indici consiste in varie tecniche che basano il proprio funzionamento sulla costruzione di contenuti ad hoc che, inseriti nelle pagine del sito, confondono il robot dell’engine di ricerca e lo sfruttano per inserire la pagina nei rank.

La più diffusa, ma anche la più facile da contrastare per i provider di ricerca, è il Keyword stuffing: il webmaster inserisce nella pagina di cui vuole incrementare il rank numerose parole chiave, anche non attinenti al contenuto reale della pagina, sfruttando il fatto che il motore di ricerca analizza il testo e lo indicizza in base alla frequenza con cui ogni parola chiave è presente. Questo fa si che la pagina venga suggerita anche a visitatori che stanno cercando altri argomenti. Un sistema simile è costituito dall’Hidden text, testo non mostrato in alcun modo nella pagina sfruttando elementi con dimensione pari a zero o a frame invisibili, oppure usando lo stesso colore dello sfondo, per fare in modo che il robot legga una grande quantità di parole chiave. Questo comportamento non è tollerato dai motori di ricerca, i quali tendono ad escludere completamente dai propri indici siti che lo adottano.

Link Spam.
Questa capacità si basa sulla capacità dei motori di ricerca di migliorare il rank dei siti Web in base a quanto siano effettivamente popolari, calcolando quante volte sono linkati nelle pagine di altri siti. In questo caso non si costruisce quindi del contenuto ad hoc per ingannare i robot, ma si tenta di inserire il link alla propria pagina nel maggior numero possibile di altre pagine, anche con sistemi subdoli, quale la creazione di catene di siti tutti linkati tra loro (link farms, Spam Blogs o il Domaining, l’acquisto di domini non appena giunge la loro scadenza per riempirli con le proprie pagine di spam). Cio che però sembra più usato dagli spammer è l’attacco verso siti in cui il pubblico può inserire del testo: blog, commenti ai blog, guestbook, pagine Wiki, form e così via.

Sfruttando la possibilità di inserire collegamenti ipertestuali, direttamente nel corpo del messaggio oppure in un campo separato. (tipo “related link”), fanno in modo di linkare la propria pagina il più possibile per indurre il motore di ricerca a credere che sia molto popolare. Per questo motivo la maggior parte dei sistemi blog, forum e simili adottano la clausola “no follow” per impostazione predefinita nelle proprie pagine, in modo che nell’evenienza i link pubblicati dagli spammer non vengano indicizzati da Google.
Ancora più sottile è l’uso del Referrer long spamming. Ogni sito quando viene visitato a partire da un link posto in un’altra pagina, riceve l’indirizzo di tale pagina come campo “referrer”, e lo salva in un proprio log. Spesso questi log sono visibili per i motori di ricerca, quindi gli spammer hanno creato robot che periodicamente inviano richieste fasulle ai siti che salvano tali log, indicando come referrer il proprio. Il risultato è che il motore di ricerca troverà numerosi riferimenti al sito dello spammer e, credendo che sia polplare, ne aumenterà il rank nei risultati delle ricerche.

Tecniche permesse.
Ovviamente, esistono delle metodologie di ottimizzazione dei siti per fare in modo che i motori di ricerca li considrino meglio di altri che sono eticamente e tecnicamente permesse. Un uso saggio dei tag Meta e del testo descrittivo che è possibile inserire nell’header delle pagine aiuta molto, ma solamente quando lo spider incontra “per caso” il nostro sito.
Per aiutare il processo possiamo adottare diverse tecniche. Innanzitutto, un’attenta progettazione, con l’implementazione di una pagina con la mappa del sito raggiungibile da tutte le altre, permetterà agli spider dei
motori di ricerca di scorrere tutto il nostro sito e di raccogliere il materiale presente. Lo scambio di link e banner, inoltre, aiuterà ad aumentare la popolarità.
Una tecnica che invece sta sul filo del rasoio è detta Cloaking, e consiste nel fornire ai robort dei
motori di ricerca pagine diverse da quelle visualizzate ai visitatori. Se da una parte può essere utile, perché in questa maniera si possono inviare ai navigatori pagine con contenuti che difficilmente verrebbero interpretati correttamente dagli spider, dall’altra è un invito a nozze per chi, non avendo ottenuto buoni risultati con le altre tecniche di spamdexing, vuole provarci creando pagine ad hoc contenenti vero e proprio spam solo ed esclusivamente per i motori di ricerca, continuando a fornire le normali pagine ai visitatori.

Annunci sponsorizzati:
Condividi su Facebook Condividi su Twitter!

Pinterest