Google TrustRank - 1° Parte
Google, lo scorso Marzo, ha registrato il marchio 'TrustRank' presso la U.S. Patent and Trademark Office. Qual è il suo significato in relazione alle future iniziative di Google? E quanto questa applicazione e la sue funzionalità potenziali si possono adattare al Google Page Rank?
Il PageRank è il cuore del motore di ricerca di Google ed è un sistema di misurazione che rappresenta un ossessione per tanti web publisher.
Il PageRank valuta e classifica i siti web in relazione attorno ad un valore determinato dal numero dei siti che linkano ad esso.
Sebbeno Google PR determini l'importanza di un sito web, non determina il suo valore in termini di credibilità del contenuto. Gli spammer, inoltre, sono stati in grado di manipolare, attraverso vari strumenti, il Page Rank dei loro siti. Per questo si è pensato ad un meccanismo per valutare il TrustRank, ossia l'indice di credibilità di un sito web e ricercatori del Digital Library Technologies dell'Università di Stanford hanno creato un documento intitolato "Combating Web Spam with Trust Rank".
Il documento è estremamente tecnico ed adatto solo a coloro che hanno una conoscenza approndita di algoritmi e computer. Qui c'è un estratto per coloro che non hanno conoscenze tecniche.
"Le pagine di web spam utilizzano varie tecniche per raggiungere risultati alti nella classifica dei motori di ricerca. Mentre esperti umani possono identificare lo spam, risulta troppo costoso valutare manualmente un gran numero di pagine. Invece noi proponiamo tecniche semi-automatiche per separare le pagine degne di reputazione da quelle di spam.Per prima cosa selezioniamo un piccolo set di pagine per essere valutato da un esperto. Una volta che noi manualmente identifichiamo le pagine degne di reputazione, utilizziamo una struttura di link per scoprire altre pagine che probabilmente sono buone.In questo documento discutiamo le vie possibili per implementare la selezione e la scoperta di queste pagine.Presentiamo i risultati di questi esperimenti sul World Wide Web indicizzato da Altavista e valutiamo le performance delle nostre tecniche.I nostri risultati mostrano che noi possiamo efficacemente filtrare lo spam da una frazione significante del Web, basata su di un set di 200 siti."
Il documento poi presenta la metodologia di ricerca e i risultati nell'ordine seguente:
1) Noi formalizziamo il problema dello spam sul web e gli algoritmi per rilevarlo.
2) Noi definiamo le metriche per valutare gli algoritmi di rilevamento.
3) Noi presentiamo set di strutture per selezionare set di pagine da essere valutate manualmente.
4) Noi introduciamo l'algoritmo di Trust Rank per determinare la probabilità che queste pagine siano degne di reputazione.
5) Noi discutiamo i risultati di una valutazione estesa, basata su 31 milioni di siti scansionati da AltaVista e una valutazione manuale di più di 2000 siti.Noi forniamo delle statistiche interessanti sul tipo e la frequenza dei contenuti incontrati sul web ed utilizziamo i nostri dati per valutare gli algoritmi proposti.
Il Web come noi lo conosciamo sta divenendo sempre più caotico e il TrustRank potrebbe divenire un fattore importante per la sua sopravvivenza a lungo termine come deposito dell'informazione globale.