03 luglio 2006

Accoona - motore di ricerca semantico

Accoona

Accoona è un nuovo motore di ricerca. Per chi sentisse la mancanza di un nuovo tentativo di soppiantare il potere dei tre Big, ho speso un po’ del mio preziosissimo tempo ad analizzare questo nuovo SE, non tanto perchè segue al suo ‘lancio’ europeo, quanto piuttosto perchè– secondo il suo COO – Accoona è il primo motore di ricerca ‘semantico’. Visto che sono il mssimo esperto italiano di motori di ricerca semantici (essendo l’unico che ne ha mai parlato…) sono andate a curiosare e, come mi immaginavo, questo motore di ricerca di semantico non ha nulla, se non le dichiarazioni di Alessandra Coderoni, Chief Operating Officer di Accoona.

Prima di dimostrare che Accoona non è più semantico di Google (anzi lo è addirittura meno), vediamo che cosa si intende per semantico: Un motore di ricerca può definirsi semantico quando “capisce”, al di là dei termini (kew-words, key-phrase e combinazione di queste due), che cosa l’utente stia cercando; ovverosia, capisce il significato di una query, proprio come se fosse una persona che dialoga con un’altra persona e – a prescindere dai termini utilizzati o dalla lingua utilizzata – comprende quale sia la ‘richiesta’ dell’interlocutore; anche per questo, un motore di ricerca semantico viene anche definito “motore di ricerca intelligente”, o “powered” da una tecnologia di AI (Artificial Intelligence).

I motori di ricerca attuali invece (tranne qualche ‘beta serp che gira sui forum da mesi e che non influisice minimamente sul corpus del motore di ricerca di DelaView) sono tutti ‘lessicali’ e quindi ‘cercano’ in siti indicizzati la presenza di tutti i termini che sono inseriti nella query, con regole più o meno simili (stop words list, eliminazione delle ripetizioni, interpretazione dello spazio come separazione di parola etc). Google è un motore di ricerca tipicamente lessicale e infatti mentre è molto forte sulle query lunghe e complesse (tipicamente frasi di cui non si ricorda l’autore, oppure modelli di macchine rare etc.) è scadente (come anche Yahoo e Msn) sulle query semplici (scarpe, casa, italia etc.) e – anche se un lieve miglioramento c’è effettivamente stato negli ultimi anni (soprattutto se pesato con la fiorente crescita degli spamgine), di fatto i motori di ricerca sono oggi ancora inferiori alle directory per quel che riguarda le keyword semplici o dette anche ‘generiche’ (distinguendole così dalle ‘specifiche’).

Che Google sia lessicale e non semantico si vede a qualsiasi query sospinta, ma per vederlo immediatamente, basta cliccare uno dei banner-adsense che (gratuitamente e a spese degli utenti unici dei webmaster affiliati) portano click al motore di ricerca più usato al mondo: per esempio, se trovate un banner che dice:


google trivia


Vedrete che la query lanciata dalla Brin&Page Foundation è questa e che tutti i primi siti segnalati sono siti che contengono l’esatta sequenza dei caratteri della query stessa. A parte il fatto che da quando girano questi educational AdSense (di Goolge Trivia), molti webmasterimprenditori si sono dati da fare per costruire pagine ad hoc che venissero indicizzate nelle prime posizioni, sfruttando così il traffico ‘raccolto’ a zero euro, da centinaia di migliaia di altri webmaster, è evidente che in questi casi non ci troviamo di fronte ad alcun tipo di semanticità della SERP; ovverosia, quasiasi sito che, pur contenendo tutte le informazioni necessarie, e pur avendo un SergeyRank e una BrinPopularity altissima, non apparirebbe affatto nella pagina dei risultati anche se solo utilizzasse delle parole sinonime.

Per esempio: un motore di ricerca semantico dovrebbe capire che la frase: Motivi per cui l’atmosfera terrestre è di colore celeste (tranne in kalifornia, il cielo tende a essere celeste e non blu) ha lo stesso significato (da qui l’aggettivo ‘semantico’) di quella propagata dal Google Trivia. Se provate a cercare su Google, vedrete che i siti che appaiono sono totalmente differenti da quelli che visualizza con la query dell’AdSense e, BTW, non si trova nulla che spieghi perchè il cielo è sempre più blu.

Veniamo ora ad Accoona. In un recente articolo del Dailynet, si legge che Accoona:

“Sfrutta una tecnologia di intelligenza artificiale in grado di comprendere il senso delle parole ricercate dall’utente. Tutti gli altri motori di ricerca forniscono le pagine web che contengono le parole inserite nella ricerca. Accoona è inoltre capace di riconoscere automaticamente la lingua utilizzata tra le sette ‘parlate’ finora:italiano, inglese, francese, tedesco, spagnolo, olandese e portoghese”

E sulle stesse pagine di Accoona, apprendiamo che: “Accoona.com è un motore di ricerca con strumenti interattivi che offrono agli utenti migliori risultati su web, aziende e notizie; funziona grazie ad una tecnologia di intelligenza artificiale brevettata […].

Fondata nel Febbraio 2004, Accoona Corporation, un pioniere nell’intelligenza artificiale (Artificial Intelligence, AI), applicata alla tecnologia della ricerca, ha presentato il motore di ricerca Accoona negli Stati Uniti e in Cina nel dicembre 2004. La società sta portando il settore competitivo del motore di ricerca al livello successivo, potenziando le sue tecnologie avanzate di ricerca, l’esperienza dei propri dirigenti e rafforzando le relazioni con la Cina, la seconda popolazione on line del mondo per dimensioni, che presto diventerà la più grande”.

Dunque, andando per ordine: prima di dimostrare che Accoona non sembra (e importante è invece che appaia..) avere alle spalle nessun tipo di sistema di intelligenza artificiale, vorrei fare notare al management di Accoona che quando si cita un brevetto, bisogna anche citare il numero dello stesso e - nel caso il ‘patent’ (the english for ‘brevetto’) sia ‘pending’ (ovverosia richiesto ma non ancora confermato, e quindi vale quasi zero), bisogna comunque mettere il numero di registrazione. Ora, dal momento che dubitavo che Stuart Kauder, CEO di Accoona, dicesse delle balle, sarebbe il caso di inserire il numero del brevetto o della richiesta dello stesso (dell’eventuale Patent Pending). Dal momento che io ho una certa esperienza di brevetti, essendo l’inventore di una tecnologia di ricerca per il web, ho cercato sui siti preposti e ho trovato che in effetti Accoona dispone di una ‘domanda di brevetto’ (quindi non si tratta ancora di brevetto vero e proprio). Per chi volesse approfondire la cosa, clicchi qui.

Mi preme invece di incollare qui un piccolo stralcio di tutta la domanda di brevetto. Il testo dice:

“An apparatus, method, and system for a Artificial Intelligence for Data Searching Applications (AIDSA) that improves upon search systems. The AIDSA enables searchers to better target their searches and yield better search results by intelligently identifying, interrelating, and executing searches including synonyms of keywords. In one embodiment, the AIDSA expands upon a user's query by finding related words and generating all permutations of the user's query and identified related words. Then the AIDSA searches a database based on this expanded query and ranks the results. In one embodiment, the AIDSA super-targets the search results by ranking the results. For example, references having a greater incidence of expanded search terms will be ranked higher than those references having fewer matching search terms. Further, the AIDSA allows users to emphasize certain search terms and this emphasis further targets and affects the search results. In one embodiment, a slider user interface pop-up widget will appear in response to a user highlight a keyword or word phrase and allow a user to set a level of emphasis for the keyword or word phrase. Also, an information bar user interface is taught. The information bar displays AIDSA search results based on the information being viewed by a user.”

A prescindere dal fatto che non pare proprio che ci troviamo di fronte alla enucleazione del nocciolo teoretico di un motore di ricerca semantico (ma l’analisi sarebbe qui fuori luogo) devo dire che anche la semplice ‘sinonimizzazione’ non mi pare sia mai utilizzata dal buon Accoona. Entriamo quindi nel merito delle SERP e facciamo qualche prova per vedere come funziona la semanticità di questo nuovo motore

Dal momento che non voglio infierire, mi occuperò adesso della parte in lingua inglese, che è sicuramente quella più efficiente, dal momento che il motore di ricerca Accoona è online in lingua inglese:

Se cerchiamo documenti relativi alla moda di Rodolfo Valentino (il famoso latin lover actor del cinema muto) troviamo risultati di ricerca che riguardano sia il nostro stilista sia il leggendario adone. Di fatto, qualunque essere umano avrebbe capito che la query riguardava solo ed esclusivamente l’attore e non lo stilista cotonato.

Se poi estendiamo questa ricerca ai soli siti di lingua italiana, andando su Accoona.it, notiamo che la situazione non migliora e anzi, selezionando i siti in lingua italiana della SERP di cui sopra si ottengono i primi tre risultati in tre lingue differenti (tra cui il tedesco, in seconda posizione) . In sostanza pare che Accoona (si possono trovare innumerevoli esempi al proposito) non sia in grado di riconoscere nemmeno la lingua in cui una pagina web è redatta e questo lo rende non solo lontano da qualsiasi ipotesi di semantcità (dove infatti il significato di una query rimane invariato al cambiare dalla lingua che la enuncia), ma anche dagli standard ‘lessicali’ non solo di Google, Yahoo e MSN, ma anche di motori di ricerca di livello inferiore come Teoma et alii (per citare un ex novello Google..).

Proviamo ora a cercare con una query più facile da comprendere per qualsiasi motore di ricerca lessicale: se scrivo nel form: “rodolfo valentino” moda, trovo solo risultati di ricerca che parlano di Rodolfo Valentino e non c’è la confusione con lo stilista.

Selezionando le opzioni di ‘raffinamento della ricerca’ (il Supertarget Your Search di Accoona, un trademark) ottengo dei risultati stravaganti, dal momento che pare che le selezioni di targeting non abbiano molto a che fare con la query effettuata, a dimostrazione che il motore di ricerca non ha ‘capito’ qual era il ‘target’ della ricerca stessa. Infine, selezionando ‘rimuovi tutto’, scopriamo che Accoona ha indicizzato 1,346,955,825 pagine, circa un ottavo di quelle ‘dichiarate’ da Google fino a quando era in essere l’agone contro Yahoo.

Accoona sembra migliorare però in una query in cui si dimostra superiore ‘o comunque più semantico’ di Google. Se cerco “Tigers live in woods’, mentre su Google trovo la maggior parte dei risultati relativi al campione nero di golf, su Accoona questo non accade. Accade però che i primi tre risultati di ricerca non organici (non ho letto dichiarazione in merito o comunicati, ma chiunque può verificarlo da sè) sono gli stessi di Yahoo, con cui evidentemente Accoona ha stretto una partnership, forse in attesa di un’autonomia commerciale.

Se invece cerchiamo ‘cavalli’, sia nella versione inglese, sia nella versione italiana, prevale lo stilisto sul mammifero, come è giusto che accada per la versione inglese, mentre non è giusto che accada nella versione in lingua italiana. Totalmente deludente il fatto che non ci sia nessun tipo di correzione automatica del mistyping, che sta alla base sia dei motori di ricerca lessicali, sia (e direi, soprattutto) di quelli semantici, dal momento che il significato prevale sul significante. Cercando quindi Cavallli (con tre elle) su Accoona, troviamo una manciata di siti che hanno scritto erroneamente il termine, cosa che invece viene individuata come errore da Google.

Cercando la query “roberto baggio ama i cavalli”, il primo sito indicizzato su Accoona è dedicato agli orologi di Roberto Cavalli, segno che il sistema di Latent Semantic Indexing utilizzato da Accoona, non è stato in grado di comprendere che la vicinanza dei termini nella query (roberto e cavalli) deve riallacciarsi alla frequenza di prossimità fra i due termini in tutte le pagine indicizzate (più di un miliardo, appunto) e quindi non ‘capisce’ che non si sta parlando affatto dello stilista eccentrico, ma del numero 10 più famoso degli ultimi anni.

Non pare esistere alcun tipo di filtro per le ricerche pornografiche (che pare non vengano interpretati come tali). Se cerco ‘Bukkake’, appare anche il link di Accoona Answers che riporta in modalità cobranded, il contenuto offerto da Wikipedia.
E’ bene notare che quando si seleziona il ‘rimuovi tutto’ (per rimuovere le funzione di raffinamento della ricerca di cui sopra) è quasi impossibile reinserirlo.

Lascia comunque perplessa l’affermazione contenuta nell’autopresentazione di Accoona dove, parlando dell’intelligenza artificiale che starebbe alla base del motore, si dice che:

"First of all, Accoona’s Artificial Intelligence uses the meaning of words to get you better searches. For example, when you type five keywords in a traditional search engine, you’re going to get every page that has all five keywords, no more, no less. With Accoona’s Artificial Intelligence Software, which understands the meaning of the query, the user will get many additional results."

Ma non viene fatto nemmeno un esempio e, dalle prove che ho effettuato, sembra che non ci sia alcuna differenza rispetto a Google, tranne che per il numero inferiore di risultati offerti.

Cercando per Federico Riva (nella versione .com senza specificazione geografica) si visualizzano 10 risultati dello stesso sito che ha a che vedere con guide enogastronomiche di Vancouver e francamente non se ne capisce il motivo, mentre cercando su Accoona.it si visualizzano risultati che mi riguardano. E’ bene notare anche che – positivamente -, ma non differentemente da Google, i risultati relativi a Riva Federico non sono sostanzialmente differenti da quelli relativi a Federico Riva (a voler dire che Accoona ha capito che si tratta della stessa ‘cosa’).

La prova del 9 non viene però superata da Accoona con una ricerca che ho utilizzato varie volte per mostrare le inefficienze di Google. Se cerco ‘comprare mazze da baseball’ appare (anche se non in prima posizione) uno dei miei articoli che parla proprio del LSI (Latent Semantic Indexing) e sec selezioneo Aziende (che dovrebbe selezionare solo i siti di ecommerce) non appare nulla, così come se cerco ‘compro mazze da baseball’ o ‘acquistare mazze da baseball’, dimostrazione che non c’è nessun tipo di effettiva sinonimia applicata (una delle basi della semantica).

La mancanza della ricerca per immagini è sicuramente una grave carenza e pare più che altro che la semanticità del motore sia affidata a una ‘seconda query di raffinamento’ in cui però i termini proposti non sono quasi mai attinenti con la query effettuate (provate da voi).

Altra prova della non semanticità del motore è questa query: Se cerco ‘motori di ricerca’ e ‘ricerca di motori’ (due query che a qualsiasi human being appaiono essere ben diverse nel loro significato) le SERP sono tutti attinenti SE e, BTW, non viene visualizzata la root di nessun motore di ricerca, ma solo articoli e pagine che contengono la dicitura ‘motori di ricerca’ al loro interno, un ‘comportamento’ tipico dei motori di ricerca lessicali (lo stesso ‘fenomeno’ accade con la traduzione in lingua inglese della query).

Sono un po’ stanco e sicuramente voi di più. Concludo rilevando la grave assenza di funzioni di ricerca avazate (dal site: al link:) che potrebbe avere un senso (un significato…) se ci trovassimo di fronte veramente a un motore di ricerca semantico, ma che in questo caso rappresenta solo un brutto downside.

Ultima nota, positiva: al contrario di tutte le altre barre di SE, Accoona mette a disposizione dei suoi utenti la funzione di ‘lettura’ delle pagine. Scaricando la toolbar e un software di una società partner (56 mega per concessione in 60 gg di trial version) permette a chi non ha voglia di leggere o – soprattutto – a chi non può, di ascoltare una graziosa voce femminile che legge con un accento molto americano il testo selezionato di qualsiasi pagina. Inutile dire che questa signorina…parla solo inglese.

Siamo stati sicuramente molto critici e ingenerosi e dobbiamo dire che siamo ben lontani dalla realizzazione di un motore di ricerca semantico (e anche di un buon motore di ricerca lessicale). Senza dubbio però, il peso dato da questo motore (che pare avrà un ruolo importante in Cina) al tema della semanticità della serch in internet è sicuramente di buon auspicio per chi, magari con più risorse, potrà finalmente dare vita a un motore di ricerca che ‘sospetti’ quello di cui stiamo …scrivendo.

P.S.: A proposito di Cina, Accoona incredibilmente permette di accedere ad Accoona.cn e addirittura di visualizzare moltissimi risultati riguardanti la strage di piazza Tienanmen, cosa che non è permessa da Yahoo.cn e probabilmente nemmeno da Google.cn. Dico probabilmente perchè qui dalla Thailandia (come anche dall’Italia), Google.cn ha un redirect permanente su Google.com (per chi non si collega dalla supergrandefratellizzata Cina). Come ha detto Alessandra Coderoni, Chief Operating Officer di Accoona in Italia, bisogna adeguarsi anche alla cultura di società in cui la libertà di stampa non fa parte della tradizione e forse a breve Accoona si adeguerà alla cultura di Google, dove la libertà di Search, non parlerà ancora cinese per tanto tanto tempo. [fonte Marketing Routes]

di Federico Riva