06 novembre 2005

Dal lessicale al semantico: il futuro (incerto) dei motori di ricerca

semantic webChi usa Internet usa i motori di ricerca; i dati internazionali parlano di circa un 95%, ma ritengo che siano stime per difetto è infatti inimmaginabile navigare il Web senza usare (anche ‘accidentalmente’) un motore di ricerca. Lo stesso non si può dire di tutti gli altri ‘tipi’ di siti; i portali, i market place, gli e-mall, le pagine bianche, gialle e via dicendo.

I motori di ricerca sono il ‘cuore’ del web, perché chi naviga lo fa per cercare (prima di comprare o prima di non comprare, prima di sapere o di non sapere) e il modo più semplice per trovare ciò che ci importa è (attualmente) quello di usare un motore di ricerca. Allo stesso tempo, i motori di ricerca sono anche il ‘cuore economico’ di Internet perché i motori di ricerca sono stati riconosciuti, ormai da molti anni, come lo strumento più efficace ed economico (anche se non l’unico) per trovare nuovi clienti, per fidelizzare i vecchi e per recuperare quelli che si sono persi per strada.

Purtroppo, il successo e l’affermazione dei motori di ricerca nel Web non è stata seguita da un’altrettanto rapida evoluzione dei loro meccanismi e della loro efficacia. Detto in poche parole, i motori di ricerca non hanno seguito lo sviluppo del Web o, per meglio dire, non hanno mantenuto le promesse (implicite) del passato, un ritardo veramente straordinario se pensiamo che la web industry è molto più dinamica (quindi veloce) della industria classica del software e che i motori di ricerca ne rappresentano la punta di diamante; questa dinamicità è inoltre confermata anche dai ‘movimenti’ economici che ci sono stati negli ultimi sette, otto anni nel mondo dei motori di ricerca.. Siti-scoietà precedentemente leader (pensiamo a Lycos, il primo motore di ricerca o Altavista, che sembrava essere destinato a una leadership eterna) esistono soltanto come nome, senza essere più annoverabili fra i big player del mercato internazionale o nazionale. Contestualmente, ci sono stare numerosissime fusioni e acquisizioni, pensiamo a GoTo, poi Overture, acquistato da Yahoo (acquistando così anche il vecchio Altavista che già da anni aveva perso la sua autonomia), pensiamo a Espotting, acquistata da Findwhat e diventata poi Miva, pensiamo a tutte le feature che sono state introdotte nei motori di ricerca sia da un “customer point of view”, sia da uno “user point of view”: il pay per click, il pay per lead (il tentativo ancora fallimentare di Snap.com), la ricerca per immagini, per filmati, per brani musicali, la ricerca di immagini satellitari e quella dei video; a un’occhiata superficiale potrebbe apparire che di ‘cose’ ne sono state fatte moltissime. In parte è vero, ma si tratta di ‘passi avanti’ quantitativi e non qualitativi. In sostanza, l’ultima vera ‘rivoluzione’ nella web search c’è stata sette anni fa con la nascita di Google.com.

Il Web di oggi non è più quello di due anni fa e tanto meno quello di sette anni fa, ma il più famoso motore di ricerca oggi esistente – Google – è rimasto fermo a sette anni fa e chi lo rincorre nella corsa al search engine marketing (e market) non sembra essere abitativamente differente, ma solo quantitativamente meno frequentato.

In questo articolo parlerò principalmente di Google, ma solo perché è il ‘primum inter pares’ di tutti i search engine utilizzati attualmente. Ciò che vale per Google vale anche per Msn search, Yahoo search, Aol search, Ask Jevees (ora solo ‘Ask’) etc.

Il ‘mistero’ delle mazze da baseball

Ma che cosa c’è che non va nei motori di ricerca attuali?
Cominciamo con un esempio:

Se cerco ‘comprare mazze da baseball’ su Google, la prima pagina visualizzata è la seguente:

http://www.webmarketingstrategico.com/pay_per_call_3.html

Si tratta di un articolo (del sottoscritto) che contiene le parole ‘comprare’, ‘mazze’ ‘da’ e ‘baseball’, ma che non è di nessuna utilità a chi desidera comprare una mazza da baseball.

Qualsiasi persona senza deficit intellettivi capisce che l’intenzione di chi cerca in un motore con la keyword ‘comprare mazze da baseball’ è intenzionato a comprare delle mazze da baseball. Perché Google non lo capisce? Semplice, perché Google è – come tutti gli altri – un motore di ricerca ‘lessicale’ e non un motore di ricerca ‘semantico’. Nel linguaggio fra uomini le parole servono per significare concetti e infatti abbiamo una differenza sostanziale fra significante e significato. Il significante è la parola ‘nuda e cruda’, il significato è quello che essa ‘indica’. Per esempio, un significante può voler dire due significati diversi a seconda della lingua che stiamo parlando. “burro” in italiano è un alimento, in portoghese è un animale (l’asino). Allo stesso tempo, un significato può essere ‘indicato’ da diversi significanti, della stessa lingua (sinonimia) o di lingue diverse; quindi “mazze da baseball” e “baseball bats” significano esattamente la medesima cosa.

Ora, se chiamassimo un numero di telefono e richiedessimo il numero di telefono di un negozio che vende mazze da baseball, saremmo molto frustrati (per usare un eufemismo) se la persona dall’altro capo del telefono ci indicasse il numero di un ufficio che si occupa di marketing e che tempo fa ha pubblicizzato delle mazze da baseball in carbonio.

La stessa frustrazione dobbiamo provarla per i motori di ricerca che ancora non sono in grado di ‘capire’ quello che stiamo cercando.

Un altro esempio (sempre egocentrico); cercate su Google la keyphrase (ovverosia successione di keyword): “campioni di golf”; secondo voi che cosa cerca un navigatore che digita “campioni di golf” nel form di un search engine? Io dico che può cercare qualcosa che ha a che fare con il golf e più specificamente qualcosa che ha a che fare con i campioni di golf, senza specificarne la nazionalità. Non si tratta quindi più di una ricerca orientata all’acquisto (come in quella precedente delle ‘mazze da baseball’, sarebbe molto ‘costoso’ comprare un campione da golf), ma più generica, orientata comunque verso uno sport specifico (il golf) e i suoi campioni. Ci aspetteremmo quindi di trovare pagine di siti che parlano di Tiger Woods and company e invece, no; il primo sito visualizzato è ancora una volta un sito di marketing che – per fare un esempio di come non dovrebbero funzionare i motori di ricerca – utilizza proprio l’esempio dei “campioni di golf”.

La pagina infatti è la seguente:

http://www.webmarketingstrategico.com/gsst_meta_2.html

Possiamo essere soddisfatti di questi risultati?

Certamente no.

Gli altri motori di ricerca sono migliori?

No.

Il fatto che le SERP (Search Engine Result Pages) per le keyphrase testè citate (mazze da golf e campioni di baseball) contengano decine di migliaia di pagine tra cui ‘cercare’ i siti ‘giusti’ ci aiuta?

No.

La ‘lessicalità’ dei motori di ricerca attuali va infatti ‘a braccetto’ con la quantità dei risultati di ricerca. Torniamo all’esempio della telefonata; poniamo che stiate cercando un ristorante giapponese; chiamate e dall’altra parte vi sentite dire: “Abbiamo a disposizione 30.000 numeri di telefono che trattano in qualche maniera di ristoranti giapponesi; non sappiamo se siano dei ristoranti giapponesi, ma in qualche maniera vi hanno a che fare; vuole che la metto in contatto con qualcuno di questi?”; saremmo estremamente frustrati da questa risposta e certamente non riterremmo il servizio valido. Invece è proprio ciò che accade nei motori di ricerca. Solo che nei motori di ricerca non abbiamo nessuna ‘signorina o ‘signorino’ con cui lamentarci e a cui chiedere consiglio; quindi che cosa facciamo? Diamo un’occhiata ai titoli e alle descrizioni visualizzati e clicchiamo, ‘sperando in bene’; ovviamente la prima occhiata è dedicata ai primi siti visualizzati, perché riteniamo (sbagliando) che i primi risultati visualizzati siano quelli più attinenti con la nostra ricerca. La teoria è buona; purtroppo non funziona.

Oltre le parole, verso i concetti

Dunque “che fare”? Distruggere è più facile che costruire, ma non per questo dobbiamo accettare la scarsa qualità dei risultati di ricerca attuali; un’alternativa c’è ed è quella di passare da un motore di ricerca lessicale a uno semantico; con questo non dico di ‘cassare’ la lessicalità dei motori, ma di dare la possiblità agli utenti di cercare anche ‘semanticamente’; spesso sentiamo parlare di “AI”, acronimo per “Artificial Intelligence” o di IR (Information Retrieval) o di :LSI e LSA (Latent Semantic Indexing, Latent Semantic Analysis); l’intelligenza artificiale non è altro che la possibilità per un essere umano di ‘dialogare’ con una macchina in una maniera ‘umana’ e la base per questo dialogo è la possibilità di fare corrispondere significati a significati, in una forma ‘semplice’ ) singolo significato) e in una forma ‘complessa’ (tipicamente, una frase, con soggetto, predicato etc.). Attualmente, molti motori di ricerca ‘millantano’ la possibilità di rispondere a domande ‘umane’; per esempio, spesso si vedono degli adsense di Google (pubblicità testuali) in cui si leggono domande come “qual è la montagna più alta del mondo”, oppure “perché il cielo è blu” e cose del genere, dando l’impressione che il motore di ricerca ‘capisca’ che si tratti di una domanda e quale ne sia il contenuto; di fatto non è così, se si clicchiamo queste pubblicità, Google ‘lancia’ delle ricerche che sono tutt’altro che semantiche; in sostanza si tratta di successioni di parole che ‘’lessicalmente’ fanno visualizzare dei siti che le contengono e che non casualmente contengono la risposta alle domande visualizzate. Si tratta di un vero e proprio ‘trucco’; anche il m,miglior motore di ricerca attuale (Google) non è in grado di capire se una domanda è una domanda (non basta di certo il punto interrogativo), se una domanda è retorica, se è mal posta, se utilizza vocaboli stranieri e se è in sé contraddittoria:se cercate su Google con la keyphrase: “Perché il cielo è blu?” avrete una lista di siti che (affannati per riuscire ad attrarre click dai famosi banner di cui sopra)che cercano di spiegare il fenomeno atmosferico; se però cercate “Perché il cielo è rosso” (visto che al tramonto spesos lo è) troverete una lista di siti ben diversa e che mostra come non ci sia affatto da parte del motore di ricerca la comprensione del fatto che l’utente sta cercando una risposta scientifica a una domanda banale. Provate a cercare la frase “quando è morto Kennedy?”, vedrete che non appaiono altro che pagine web che contengono proprio quella frase e non che contengono le informazioni alla domanda. E’ come se, cercando un ristorante cinese al telefono vi comunicassero il nome di un ristorante che si chiama “dov’è un ristorante cinese in zona Magenta?”.Inutile dire che il sistema attuale utilizzato non solo da Google (la matrice inversa per determinare il valore delle pagine web, che nulla a che fare ovviamente con la semplice attinenza) può essere facilmente ‘fooled’ con quello che viene definito ‘bombing’; notissimi sono stati i casi di ‘failure’, che siu Google fa visualizzare in prima posizione il sito della biografia ufficiale di Gorge W. Bush; ogni qualche mese si fa cenno a questi esempi per mostrare come il ‘sistema’ non sia ‘perfetto’, ma il sistema è tutt’altro che perfetto anche in tutte le ricerche dove non c’è stata una precisa volontà di modificare a proprio vantaggio i risultati di ricerca di un search engine; nel caso di “mazze da baseball” e “campioni di golf” non avevo nessuna intenzione di apparire ai primi posti con quelle keyword eppure tutto ciò è ‘naturalmente’ avvenuto.

Il Latent Semantic Indexing. Un passo importante verso la semanticità della ricerca

Ho scritto già qualche articolo in merito al LSI (alias Latent Semantic Analysis), ma dirò subito che non intendo affatto entrare qui nel merito di dettagli tecnici, in quanto non sarebbero affatto utili e comprendere l’importanza di questa ‘via’ e complicherebbero inutilmente le cose; per riassumere il ‘cuore’ del LSI, potremmo dire che si tratta del tentativo di organizzare dei documenti (raccogliendoli appunto) con un’ottica semantica e con il minimo apporto ‘umano’, in sostanza facendo in modo che il ‘sistema’, la ‘macchina’, il ‘software’, una vota avute le ‘istruzioniì’ da un essere umano (o più probabilmente tanti esseri umani) possa autonomamente ‘capire’ di che cosa trattano i documenti raccolti (le pagine web non sono forse come dei documenti da raccogliere in una biblioteca), di ‘capirlo’ con una ‘mentalità’ umana e di fare sì che quando un uomo cerchi determinati ‘concetti/significati’ possa trovare dei documenti che vi siano attinenti, a prescindere dagli specifici termini utilizzati nella domanda. Il LSI funziona in maniera abbastanza semplice: in sostanza, durante la raccolta dei documenti vengono analizzati i termini che vi sono contenuti, non considerando dei termini (significanti) che sono ‘trasversali’ e che quindi non sono utili per determinare il ‘contenuto’ del documento (come ad esempio le preposizioni, gli avverbi o parole utilizzate comunemente in qualsiasi o nella gran parte dei documenti), non considerando spesso i suffissi dei termini, con un’operazione denominata “stemming” (in sostanza il termine “rivoluzionario” “rivoluzionarietà” e “rivoluzione” vengono ‘parificati’ nel termine ‘stemmed’ ‘”rivoluz”) e osservando e registrando quali sono le ‘vicinanze’ fra determinati termini; per tornare all’esempio del golf; poniamo che il LSI sia applicato a un miliardo di documenti raccolti (i motori di ricerca attualmente ne indicizzano più di dieci volte tanti) e che in 1.000 di questi documenti appaia il termine Tiger Woods (il famoso campione di golf statunitense). Il ‘sistema’ riconosce che nel 90% dei casi in cui appare il termine “Tiger Woods” appaia anche il termine ‘golf’ e che nel 70% dei casi appaia il termine “campioni di golf”; questo ‘significa’ che Tiger Woods è ‘strettamente legato’ a “golf” e a “campioni di golf”; il sistema non può di certo sapere che Tiger Woods ‘è’ un campoione di golf, ma può certamente capire che non ha che fare con il marketing, con il web marketing o con il latent semantic indexing e questo perché nella grande ‘matrice’ che emerge dall’analisi semantica di tutti i documenti raccolti con il LSI i gruppi di parole “campioni di golf”, “golf” e “Tiger Woods” sono ‘lontani’ (la matrice può essere visualizzata tridimensionalmente come un ‘cubo’ che contiene dei ‘rami’ e dei fasci di rami più o meno vicini fra loro. Il fatto che siamo lontani non significa certo che non possano essere uniti nel medesimo documento (e l’esempio che abbiamo fatto sopra dimostra proprio che questo può accadere), ma significa anche a seguito di una ricerca per un semplice termine “Tiger Woods” i primi documenti che debbono essere visualizzati non sono di certo quelli che hanno a che fare con il marketing ma quelli che hanno a che fare con lo sport. Ciò dovrebbe impedire che i primi risultati di ricerca di un motore a seguito di una ricerca “campioni di golf”, oppure “comprare mazze da baseball” possa permettere la visualizzazione di articoli/pagine web che qualsiasi essere umano capirebbe trattare dell’argomento “golf” e “mazze da baseball” come ‘mezzo” e non come “fine” per utilizzare un’espressione squisitamente filosofica. E’ ovvio anche che questa è solo una semplificazione ‘brutale’ di come funzioni il latent semantic indexing e di come esso possa essere applicato ai motori di ricerca, ma è altrettanto evidente che la situazione attuale non è assolutamente soddisfacente per un mondo (come quello della web search) che da anni sta utilizzando le medesime tecniche utilizzate agli albori della wideness del web. Purtroppo noi ci troviamo ora in una situazione in cui qualsiasi cambiamento verso una deminsione semantica della ricerca in internet può essere male ‘accolto’ dagli stessi web surfers. Ormai, dopo anni di utilizzo, i ‘web searchers’ sono abituati a cercare le informazioni in internet con una ‘forma mentis’ lessicale piuttosto che semantica; in sostanza, quando si cerca su un motore di ricerca si attiva una ‘modalità interrogativa’ radicalmente diversa da quella che utilizziamo durante la nostra vita normale, o quando chiediamo informazioni al telefono o quando cerchiamo un numero di telefono sulla guida telefonica o sulle pagine gialle. Quando cerchiamo con delle keyphrase abbastanza lunghe, siamo convinti di trovare risultati nelle cui pagine siano contenuti i singoli termini della frase e presupponiamo che i primi documenti siano quelli in cui questi termini siano i più vicini l’uno all’altro e che siano posti nella medesima successione: Quando cerchiamo “vincitore del torneo del maggior numero di tornei di Wimbledon” ci aspettiamo di trovare dei documenti (quindi pagine web) che contengano quella frase o ‘parte’ di quella frase o quella frase ‘leggermente’ modificata. Purtroppo, non tutte le pagine web che trattano di Pete Sampras sottolineano questo fatto o magari non contengono una frase simile; con un motore di ricerca squisitamente lessicale, è ovvio che il searcher non avrà mai la possibilità di trovare immediatamente quei documenti che invece trattano approfonditamente di Pete Sampras; mesi fa notai una cosa che mi lasciò molto stupito. Nella home page del sito ufficiale del più grande campione di golf vivente (Tiger Woods) non appariva una sola volta il termine ‘golf’; una cosa solo apparentemente strana perché in effetti si presuppone che chi legga il sito ufficiale di Tiger Woods sia senza dubbio a conoscenza che lo sport di Tiger Woods è il golf. Oggi le cose stanno diversamente la parola golf appare, ma se cerchiamo su Google con il termine “Golf Champions” il sito ufficiale di Tiger Woods non appare nemmeno nei primi 100 risultati; e perché? Semplicemente perché questo sito non contiene la successione di termini “golf champions”; una cosa assurda da un ‘semantic point of view” mentre assolutamente corretta da un “lexical point of view”.

Google et alii stanno cambiando il nostro modo di scrivere?

Una caratteristica che dovrebbe essere fondamentale per qualsiasi strumento di ricerca e perciò per qualsiasi motore di ricerca è la sua capacità ‘eurisitca’. In parole semplici: un motore di ricerca non deve servire ‘solo’ per trovare qualcosa che si è ‘perso’ (di cui non si trova un sito o più siti di nostro interesse), ma dovrebbe servire anche per sapere e conoscere cose che prima non erano affatto conosciute. Se ricordo di avere visitato un sito che conteneva questa frase “to be or not to be is a stupid phrase” e non ricordo di che sito si tratti, probabilmente utilizzerò uno dei più famosi motori di ricerca inserendo nella relativa form proprio questa frase. Molto probabilmente, se la pagina in oggetto è stata indicizzata dal motore di ricerca, avrò la possibilità di ‘recuperarla’; lo stesso dicasi della dichiarazione di un Presidente o delle ultime parole di un grande scrittore. Ma questa è solo una piccola parte – e sicuramente la meno interessante – di un motore di ricerca; io holavorato tanti anni in una biblioteca; molti arrivavano cercando un libro ben preciso, forniti di titolo e autor e, se bravi, anche della casa editrice e dell’anno di pubblicazione; in quei casi, la ricerca era molto facile; il libro o c’era o non c’era; e se c’era o non era in prestito o lo era. End of the story. Spesso però si presentavano persone che chiedevano dei libri che trattassero di determinati argomenti senza sapere chi fosse l’autore, quale fosse il titolo o addirittura se esistesse un libro del genere. A quel punto era il bibliotecario che, affidandosi alla famosa e internazionalemte utilizzata CDD (Classificazione Decimale Dewey), cercava di trovare qualcosa che rispondesse alle esigenze del ‘cliente’. In seguito mi venne affidato il compito, per una grande società di ricerche di mercato, di organizzare la biblioteca aziendale (composta di decine di migliaia di volumi) attraverso un ‘nuovo’ sistema; non la CDD, ma un sistema di categorizzazione e di archiviazione che sfruttava i principi del “Thesaurus”; dico ‘nuova’ perché in Italia, per lo meno quando rioccupai della cosa una decina di anni fa, non esistevano Thesauri disponibili, mentre negli Stati Uniti e generalmente nei paesi anglofoni questo sistema di catalogazione era molto utilizzata; la catalogazione a thesaurus è molto semplice; il ‘bibliotecario’ analizza i volumi ad uno ad uno a gli attribuisce un numero (di solito sino a 20) di keyword (esattamente quelle che utilizziamo normalmente nei motori di ricerca). Per esempio, se ci trovassimo per le mani un manuale per imparare a suonare la batteria, potremmo inserire keyword come: “Manuali”, “Batteria”, “Strumenti a percussione”, “Musica” etc; colui che volesse poi cercare dei libri – in questa biblioteca’ che trattano di questi argomenti potrebbe trovarli molto facilmente con il semplice utilizzo di queste parole-chiave. Ora, il sistema del Thesaurus potrebbe essere efficacemente applicato ai motori di ricerca; l’unico motivo per cui sarebbe molto stupido farlo è che comporterebbe un lavoro editoriale umano (si tratta infatti di pagine web e non solo di siti web) di decine di anni e di decine di migliaia di persone, difficilmente organizzabile, pagabile e comunque impossibilitate a ‘stare’ ai tempi dell’evoluzione del web e quindi della crescita del numero dei documenti che sarebbero indicizzati dai motori di ricerca (a prescindere da tutti i documenti che sfuggono per un motivo o per l’altro a questa indicizzazione). Il LSI non è altro che una’automatizzazione’ di questo sistema umano che si dimostra molto efficace per gruppi di pochi documenti (centinaia o migliaia) ma che rischia di franare sotto la mole di decine di miliardi di documenti.
Spero di avere ampiamente dimostrato che i motori di ricerca semantici sarebbero ben superiori (per certe funzionalità, soprattutto quelle squisitamente eurisitiche) a quelli lessicali (che dovrebbero comunque essere mantenuti in vita per svolgere sempre al meglio al loro funzione ‘semplificatrice’), ma vorrei sottolineare un fatto che a mio parere è molto grave, in merito alla situazione attuale. Infatti che cosa accade oggi a chi ‘scrive’ delle pagine web. Chiunque è consapevole che quello che scrive ha un valore se viene letto e che potrà essere letto da più persone quanto più sarà visibile nei motori di ricerca; quindi, di fatto, se chi scrive per il web è consapevole di tutto ciò che abbiamo detto sopra (e i cosiddetti ‘professionisti’ ne sono assolutamente consapevoli) è evidente che essi non potranno esimersi dal pensare a quali saranno le frasi o le parole con cui essi vorranno essere ‘trovati’ in fase di web searching. Che cosa significa? Che la lessicalità degli attuali search engine influenza tutti i testi che vengono scritti ‘per il web’; non solo i nomi a domini odi un sito sono celti in ragione dell’indiczzazione dei motori di ricerca; non solo i titoli delle pagine sono scelti in ragione degli algoritmi dei motori di ricerca; gli stessi testi, i contenuti delle pagine sono pensati per contenere delle frasi-chiave che si suppone siano e saranno utilizzate sai searcher e per le quali si desidera apparire nella migliore posizione possibile (in breve: primi della lista). Ciò significa che gli editori della pagina biografica ufficiale di Tiger Woods sarebbero costretti a inserire (e a farlo più volte) la keyphrase “Campioni di golf” per riuscire a essere visualizzati nei primi posti a seguito di queste ricerche e non essere ‘superati’ da siti sicuramente meno a tema come quello dell’associazioni delle golfiste del Maryland (che invece contengono questo termine); una delle dimensioni aberranti della situazione attuale (che i motori di ricerca sono ancora esclusivamente lessicali) è che vengono addirittura distribuiti e pubblicizzati dei ‘tool’ (spesso disponibili gratuitamente online) che permettono di capire quale debba essere la “keyword density” di una keyword per fare si che essa sia considerata rilevante per il motore di ricerca; in sostanza, i motori di ricerca non solo non ‘capiscono’ di che cosa tratta il documento indicizzato, essi non sono nemmeno in grado di capire se il termine presente è importante all’interno del documento e quindi viene tutto ridotto a una mera questione quantitativa; pensate a un giornalista che scriva un pezzo sull’Iraq e che dovesse pensare a quante volte scrivere il nome Saddam Hussein per fare sì che il suo articolo venga letto…E’ evidente che si tratta di una situazione che non può assolutamente giovare alla qualità dei contenuti dei motori di ricerca; i motori di ricerca attuali (Google in primis) non solo stanno modificando il modo di ‘pensare’ dell’uomo in fase di ricerca (facendo così della intelligenza ‘naturale’ dell’uomo qualcosa di ‘artificiale’ e – in questo caso – ‘superficiale’), essi stanno anche riuscendo a modificare il modo stesso di scrivere, di produrre documenti e informazioni. Entrambe le cose, nate solo da una situazione di deficienza e di inadeguatezza dei motori di ricerca attuali – nono solo è negativa in sé ma è anche un ostacolo al passaggio stesso da una situazione lessicale a una semantica

Voglio terminare questa analisi della situazione attuale con un piccolo riferimento al Pagerank, termine utilizzato da Google ma di fatto sistema utilizzato (con altri nomi o senza alcun nome) da tutti i principali motori di ricerca attuali. Il pagerank è il ‘peso’ che una determinata pagina ha. In Google viene addirittura denominato (basta un mouseover sulla barretta verde) ‘indici di attinenza’; posto che non ha senso parlare di ‘attinenza’ di un documento se non si ha idea della cosa (concetto, situazione tc) cui questa pagina debba attenere, è evidente che ultimamente il ‘peso’ (determinato come ben si sa dalla quantità e qualità delle pagine web che linkano una specifica pagina web) conta molto più dell’attinenza,m ovverosia che la quantità conta più della qualità. Mi spiego meglio: posto che ha un senso considerare una pagina web ‘migliore’ di un’altra dal momento che è ‘citata’ (i.e. linkata) da più siti e ricordando comunque che questa ‘tattica’ ha dei grandi difetti, attualmente sia Google sia gli altri big player mischiano l’attinenza con l’importanza della pagina, producendo come risultato la visualizzazione nelle prime posizione (quelle maggiormente visualizzate dagli utenti del motore di ricerca stesso) di documenti che pur essendo meno attinenti per gli stessi algoritmi utilizzati dal motore (per criteri per quanto errati come quello della’keyword density’) di fatto sono ‘preferiti’ ad altri documenti solo perché più ‘potenti’, ovverosia pù linkati, linkati da più tempo, esistenti da più tempo (ecco perché Google è fondamentalmente conservatore e quindi radicalmente non innovatore). Il Google Bombing (fare apparire il sito di Bush in prima posizione con il termine ‘fallimento’) rappresenta non tanto il presunto fallimento di Bush quanto piuttosto il fallimento dei motori di ricerca e del più grande motore di ricerca che, avendo cercato e in parte modificato il modo ‘naturale’ di cercare e il modo ‘umano e culturale’ di scrivere e di organizzare un sito) si appella a una presunta ‘democraticità’ del Web per dire: ok, e allora quale dovrebbe essere il primo sito ad apparire?. Domanda legittima solo se pensiamo che tutti gli algoritmi e sistemi utilizzati sino ad ora saranno visti fra qualche lustro all’interno di una fase decisamente ‘primitiva’ che negli ultimi anni sta perdendo tutto il suo fascino pionieristico per lasciare spazio solo a una grande frustrazione nel quotidiano utilizzo dei motori di ricerca. [fonte Webmarketingstrategico.com]