02 giugno 2005

Google TrustRank - 2° Parte

Definizione preliminare dell’algoritmo PageRank:
Il PageRank è un diffuso algoritmo, sul quale si è basata per anni (e si basa tuttora) l’indicizzazione di Google, che assegna un punteggio ad ogni pagina, basandosi sul numero di link che puntano ad essa. Il fondamento del PageRank è che una pagina deve essere ovviamente importante se molte altre pagine puntano con un link ad essa. Il PageRank può essere considerato una versione più raffinata e complessa della "Link Popularity" (LP). Il PageRank di un sito aumenta in relazione alla qualità delle pagine web che linkano il sito (per pagine web di qualità si intendono quelle che a loro volta hanno un alto PageRank). (per una definizione più completa si rimanda a documentazione specifica)Basi del trustRankLa determinazione certa di una pagina può provenire esclusivamente dalla soggettiva valutazione umana, l’esperto in questione viene definito Oracolo.
Da questo è possibile comunque generare un semplice algoritmo che assegna una valore binario pari a 0 se la pagina contiene spam (bad page), oppure pari a 1 se la pagina è da considerarsi di buona qualità o senza spam (good page).L’intervento dell’Oracolo come detto porta via molto tempo ed è anche costoso in altri termini, non è possibile un suo intervento costante. Per diminuire gli interventi dell’Oracolo è possibile adottare una tecnicabasata sull’esperienza che ogni singolo navigatore del web può avere: una pagina buona difficilmente punta a una pagina cattiva. Questo perché l’autore di una pagina con una qualità elevata difficilmente ha interesse che venga collegata con pagine con una qualità minore o nulla. Per questo motivo le tecniche di spam hanno cominciato ad adottare dei sistemi per collegare pagine che a prima vista sembrano buone, a pagine contenenti web-spam, con varie tecniche:
ntroduzione nei siti che offrono la possibilità ai visitatori di inserire commenti, di un numero elevato di link verso le pagine cattive (questo problema viene risolto con la moderazione dei commenti o con la futura introduzione del tag link rel=”nofollow” –NDR). Tecnica valida anche per forum o web chat.
Creazione di pagine che offrono contenuti validi, ma che hanno un elevato numero di link nascosti verso siti equivoci. Questa tecnica GIUGNO 2005 “Combating web spam with TrustRank” disponibile qui: viene definita Honey Pot. Per avvalorare questa tecnica chi crea queste pagine inserisce anche numerosi link verso pagine buone.
Creazione di directory basate sui risultati dei principali motori di ricerca, che utilizzano dei motori chiamati spam-engine, per piazzarsi nei primi posti delle ricerche.In questi casi di esempio, adottando un algoritmo che funzioni da Oracolo, potrebbero crearsi situazioni equivoche. Se abbiamo un sito di 100 pagine, con 70 pagine buone (quindi con valore binario pari a 1) e 30 pagine cattive (con valore binario pari a 0), si avrà un indice di fiducia intermedio. In questo caso solo l’occhio umano riesce a stabilire una verità certa.

Inverse PageRank
Una tecnica valida per stabilire la qualità di un sito potrebbe venire dall’inversione della tecnica del PageRank. Ovvero dare una preferenza positiva a quella pagine dalla quale è possibile raggiungere molte altre pagine, basandosi quindi sul numero dei link uscenti (outbound links). High PageRankPer realizzare questa tecnica è stata effettuata una query su un motore di ricerca che utilizza PageRank come tecnica. Ogni risultato avrà vicino risultati con PageRank simile. Questo perché il PageRank si propaga tra i link. Pagine con un elevato PageRank saranno collegate a pagine con un PageRank simile. Sperimentazione del TrustRankPer valutare l’algoritmo TrustRank, il team ha usato l’indicizzazione del motore di ricerca Altavista. Per ridurre la complessità del sistema i test si sono svolti prendendo in considerazione la totalità di ogni sito web, e nonogni singola pagina che lo compone. Quindi diversi miliardi di pagine sono stati raggruppati in 31.003.946 siti, usando uno degli algoritmi proprietari di Altavista. Osservazione: un terzo dei siti selezionati non avevano alcun tipo di classificazione, questo perché l’algoritmo PageRank che propaga la fiducia si basa sulla presenza di link tra i siti. Ma questi siti comunque avevano un indicizzazione bassa, non è stato difficile quindi separare manualmente siti buoni e siti cattivi.Questo tipo di controllo ha portato via delle settimane, ulteriore conferma dell’impossibilità dell’intervento completamente manuale.Comparazione Inverse Page Rank / High Page RankCome prima azione è stata adottata la tecnica definite Inverse Page Rank per selezionare dei siti, dei quali sono stati esaminati i primi 25.000 risultati. Da questi è stato necessario eliminare una serie di siti per due motivi principali:
alta presenza di siti-cloni della directory DMOZ, a scopo di webspam.
alto numero di siti non indicizzati in nessuna directory principale equindi reputati poco attendibili.

Dopo questo passaggio i siti attendibili si sono ridotti a 7.900. Di questi sono stati esaminati manualmente i primi 1.250 per selezionarne 178 da usare come gruppo (seed) di siti buoni.Il numero relativamente ridotto della sezione ha consentito di adottare dei criteri molto rigidi di determinazione tra web-spam e pagine buone. Nonostante questo è stato adottato un secondo filtro per selezionare i siti con una sicura e certa autorità (come siti istituzionali o di grandi compagnie). Questo secondo filtro si è reso necessario per garantire una buona longevità del gruppo della selezione (seed).

Valutazione dell’operatore del TrustRank
Al fine di valutare la funzionalità del sistema TrustRank bisogna sottolineare nuovamente come il sistema Page Rank non garantisca in alcun modo la qualità dei siti indicizzati. Invece il sistema TrustRank effettua una netta separazione tra siti buoni e siti definiti come web-spam.Questi ultimi difficilmente possono avere un indice TrustRank molto elevato.Dagli esempi è possibile capire l’efficacia dell’algoritmo TrustRank:

TrustRank quindi rimuove gran parte del web-spam dai risultati preminenti per una certa ricerca. Quindi garantisce come i siti più rilevanti siano buoni, ovvero di qualità elevata e senza web-spam. E’ importante specificare come guardando in basso, si evince che i siti meno rilevanti difficilmente siano distinguibili da quelli contenenti spam.ConclusioneCon la crescita smisurata delle fonti e dei siti sul web i motori di ricerca giocano un ruolo fondamentale per la ricerca e soprattutto l’effettivo successo nella ricerca di informazioni.Il web-spam demolisce questa capacità di successo nella ricerca di informazioni utili. I motori di ricerca quindi devono necessariamente evolvere. Il sistema TrustRank, anche in combinazione al PageRank o altri algoritmi potrebbe contribuire a questa evoluzione. (Fonte Studio Cappello)