ZEROSECONDE.COM: (CSI:Web) Autopsis d'une requete (par Martin Lessard)

ZEROSECONDE.COM

Impacts du numérique sur la communication, notre société, nos vies.

(CSI:Web) Autopsis d'une requete

Autopsies d'une requête? Étrangement, apparaissait dans mes statistiques de fréquentation de ce week-end une visite suspecte provenant d'une page de résultat de Google. À 11:01:22, un internaute venait atterrir sur mon carnet avec comme mots recherchés: "fido cellulaire promotion abonnement quebec".

Dans les moments qui précédaient, sur les 8 milliards de pages que Google possède, mon carnet était présenté en 4 ième position (?!) dans cette page résultat. Que s'est-il passé pour qu'une requête aussi "précise" puisse venir mourir sur mon site? Quel crime avait commis l'internaute pour se retrouver dans pareil cul-de-sac? Et quel était le mobile derrière le choix de ces mots?

Enquêtons...

Tel un légiste de "CSI" -clin d'oeil à l'émission américaine- je vais essayé de retracer le processus qui explique cette requête qui est venue terminer sa vie dans mes logs de stats. Tâche minutieuse d'inférence cognitive sous le mode d'une autopsie, nous verrons quels apprentissages en retirer, quelles leçons apprendre sur les gens -vos jeunes, vos étudiants, vos employés- qui recherchent sur le web.

Premièrement, on s'entend tous pour dire que nous, les humains (et j'inclus aussi les mutants qui postent trois fois par jour), comprenons parfaitement ce que le pauvre internaute cherchait à faire: par paresse il espérait faire l'économie d'une laborieuse recherche du dernier forfait de cellulaire dans le site de la compagnie Fido. Car la séquence de mots ("fido cellulaire promotion abonnement quebec") ne laisse aucun doute dans l'esprit de personne. En compagnie d'autres humains, au téléphone du service des ventes par exemple, cette demande, même brut (sans lien syntaxique et grammatical) est on ne peut plus clair.

Mais cet internaute a interrogé un moteur de recherche. Par pensée magique, il espérait que Google allait peut-être faire le travail à sa place. Manque de bol, voici ce qu'il a reçu:

13 résultats

Le premier résultat en tête pour les mots clefs déjà cités est le blog de Bruno Guglielminetti. (?!)

Le deuxième est la page des "conditions générales de vente" (?!) d'un site pour étudiant canadien recherchant des forfaits de cellulaires.

Le troisième est un PDF (?!) d'un plan d'affaire (??!) d'un regroupement d'anciens étudiants d'un collège (???!).

Le quatrième, c'est mon billet du mois dernier sur "Rechercher n'est pas un acte technique sans conséquence". J'y parle justement du "sens" d'une page de résultats. Mais aucun rapport avec un forfait d'abonnement Fido.

Le cinquième est un site amateur sur l'informatique en général.

Et 8 autres sites sont plus impertinents les uns les autres.

Il est clair qu'à la lecture de ce résultat, notre pauvre chercheur s'est fait répondre du "bruit". Un technicien dirait "garbage in, garbage out". Pourtant... La requête possédait un (faux) degré de précision qui "aurait dû" résulter en plus de qualité dans la réponse.

Alors, que s'est-il passé?

Reprenons chaque terme inscrit:

A) "Fido" retourne au-delà de 1 250 000 pages. Et Fido.ca arrive numéro 1.

B) "Fido cellulaire" retourne 23 800 pages. Et en "lien sponsorisé" # 1 ce jour-là se trouve "cadeaux des fêtes de Fido". Par contre, le premier lien vers une page (obscure) de Fido.ca se trouve au troisième écran.

Premier constat, à l'encontre de la croyance des power users, "raffiner" une requête avec davantage de mots ne donne pas nécessairement de meilleurs résultats. Déjà ici on voit que l'imprécision des termes vastes comme "Fido" et "cellulaire" aurait donné un bien meilleur résultat et permis de tomber dans une zone d'Internet plus propice pour trouver quelque chose de pertinent.

Que se passait-il dans la tête de l'internaute?

La logique de l'internaute est la suivante: il commence par chercher le nom de la marque "Fido". Mais il sait que ce nom est ambigu. Pour le distinguer du meilleur ami de l'homme, il fait un geste qui lui semble naturel: il lui adjoint le "métatag" "Cellulaire". Il aurait presque pu mettre à la place "téléphone", métatag interchangeable (et même que le résultat avec ce dernier mot place fido.ca dans le premier écran).

Deuxième constat, certains mots sont utilisés comme clef et d'autres comme méta-clef. Contrairement à une pensée naïve en programmation, les mots ne sont pas équivalents. (Ici Fido est le mot principal et cellulaire son attribut sémantique).
J'ai écrit récemment sur cette idée qu'une requête n'est pas un acte technique, mais un acte de communication en insistant sur le fait de ne pas laisser les programmeurs vous leurrer à ce sujet.

Pour "désambiguïser" leurs marques de commerce, certaines compagnies ont intérêt à connaître quels sont les mots clefs associés à leurs produits par les divers publics. Les étudiants aussi, dans leur recherche préliminaire, doivent connaître les mots clefs utilisés par un domaine de la connaissance pour préciser les résultats.

Continuons. Qu'avons-nous trouvé d'autre?

C) "Fido cellulaire promotion" retourne 16 500 pages. À ce moment précis le résultat s'embrouille (!). L'algorithme de Google perd la piste: Autonet.ca (?!) et cinezoo.qc.ca (??!) apparaissent dans les 6 premiers résultats. Fido.ca disparaît (???!). Seuls les liens sponsorisés proposent des liens pertinents : Bell, le concurrent de Fido.

D) "Fido cellulaire promotion abonnement" retourne 22 pages. Catastrophe appréhendée, le dérapage continue. Mon site apparaît alors en 6ieme position (!). MicroCell, la compagnie qui était derrière Fido (Fido a été racheté par Rogers) apparaît deux liens après moi (!!). Ici encore, Bell dominait les liens sponsorisés (bravo Cesart pour le positionnement).

Troisième constat, les liens sponsorisés ne sont pas des artefacts de notre culture capitaliste qui obstruent notre recherche, mais un atout non négligeable pour retrouver une information (commerciale). En attendant le web sémantique, l'argent permet de donner un coup de pouce pour faire circuler l'information.

Le pattern de recherche de l'internaute commence à se préciser: au moment où il rajoute "quebec" comme cinquième et dernier terme, nous sommes alors en mesure d' ébaucher une hypothèse pour expliquer le mobile de ce massacre.

En tapant "fido cellulaire", l'internaute effectuait, en fait, un choix de "banque de données" ( de "catalogue" comme l'on disait avant) : "Je circonscris ma requête au site de Fido")

En tapant "promotion" et "abonnement" , l'internaute effectuait la requête proprement dite. Mais un peu à la manière d'une navigation dans un répertoire et un sous-répertoire : desktop/promotion/abonnement.

Quatrième constat: certains internautes utilisent le moteur de recherche comme un outil de navigation, c'est-à-dire de façon hiérarchique ou de façon "sérendipitiesque". La relation entre l'usager et l'information se fait alors sous un mode de cache-cache : il faut croire que l'usager ne sait pas ce qu'il cherche...même s'il connaît les termes de la recherche.

En tapant "quebec" (notez l'absence d'accent - l'internaute perçoit le moteur comme anglophone; ou il sait que les accents ne sont pas pris en compte par Google), l'internaute, en fait, ajoute un critère de limite ("limitez la recherche aux promotions d'abonnement disponibles au Québec").

Cinquième constat: les internautes, s'il ne comprennent rien à la classification Dewey, possèdent une certaine forme d'intuition sur l'architecture de l'information. Mais la notion du "général au particulier" n'est pas la même du point de vue cybernétique que du point de vue humain.

Là où le programmateur aurait dit : quelle province? (Québec) / quelle service? (abonnement) / quel type? (promotion), l'humain pense l'inverse : mon intérêt (promotion) / ce que je veux (abonnement) / où (Québec). Ce dernier point n'est explicite que par ce que la machine le lui demande : l'humain se perçoit toujours ici et maintenant.

Récapitulons la requête : "Dans la base de donnée de la compagnie Fido, affichez les promotions pour les abonnements, limitées au Québec seulement".

Si ce n'est pas une requête typique pour un web sémantique, je me demande alors qu'est ce que c'est!

Ce que Google doit faire pour répondre aujourd'hui à cet internaute "en avance sur son temps", c'est de sortir de leur lab une sorte de "Google Drill Down beta", un moteur qui réordonne les requêtes pour permettre de chercher par palier :

Did you mean to explore fido.ca web site?

Ensuite Google réinterprète la requête ainsi "site:fido.ca promotion abonnement quebec" (notez le mot-clef "site:", c'est une fonction avancée de Google pour limiter la recherche aux pages d'un site seulement).

Ou encore comme ceci : Did you mean to explore fido.ca/promotion ?

Google interprète ainsi "site:fido.ca inurl:promotion abonnement quebec" (notez le mot-clef "inurl:", c'est une fonction avancée de Google pour limiter la recherche à un répertoire précis).

Mais malheureusement, Fido a construit son site de telle façon que l'information est prisonnière de l'expérience de l'interface usager. Ces requêtes retournent zéro résultat : là, la science des moteurs de recherche ne peut plus grand chose...

Les internautes surestiment la technologie et il y amplement de littérature pour expliquer pourquoi. Ce qui ressort clairement ici, c'est que l'internaute ne sait pas comment Google cherche par défaut: Google cherche des mots qui sont en cooccurrences. (L'outil de recherche avancé se trouve sur la page de Google, à un clic, pourtant).

L'avènement d'Internet offre une quantité phénoménale de documents. Mais avons-nous mis en place un système pour préparer nos concitoyens (et surtout nos élèves) pour comprendre comment maîtriser la bête?

Il est urgent d'enseigner dès le plus jeune âge:
  • la méthodologie de recherche

  • la logique de recherche avancée

  • l'usage de *plusieurs* moteurs de recherche (c-à-d, ne pas laisser Google gagner par défaut) ainsi que leur force et faiblesse en fonction de nos besoins

  • la construction de requête et l'utilisation de thésaurus
Évidemment, cela n'est que la première étape. Encore faut-il savoir comment interpréter les résultats, leur validité et leur pertinence. Ce type de questionnement fait partie du doctorat que je souhaiterais entreprendre en 2005 et dont les billets des prochains mois vous raconteront le cheminement...

Ajout au rapport d'autopsie:
25 Dec. 2004, 19:31:06 précisément. Mes stats reçoivent de Yahoo Search Canada un autre pauvre internaute qui cherchait : "Search TELEPHONE CELLULAIRE ROGERS SANS FILS". Le présent billet était #2 sur la liste. Le premier de la liste était la page d'accueil de mon carnet. Le cinquième de la liste était mon fil web de feedburner (?!).

Que constatons-nous ici? "Search"?! On dirait un ordre de mission pour un agent. Pourquoi pas "fetch"? Ou "find"? Un peu à la manière de la sorcière de l'Est dans le Magicien d'OZ qui demande à ses chimpanzés volants de ramener (fetch) Dorothée : l'internaute a peut-être pensé qu'il envoyait un "agent intelligent" à la recherche de l'information...

Il faut conclure aussi que l'observateur modifie l'observation, car ce présent billet risque, avec cet ajout, d'attirer d'autres "hits" de requêtes perdues et si je persiste à indiquer les mots clefs de ces requêtes perdues, ce url deviendra lentement un SEBH, un Search Engine Black Hole, attirant davantage de requêtes perdues jusqu'à parasiter les moteurs de recherches...
---
Pour poursuivre la réflexion (dernière mise à jour 13 oct. '05):
Assumptions About User Search Behavior
Cognitive strategy in web searching
The effect of query complexity on Web searching results
Moteurs de recherche : apprenez la recherche orientée ‘résultat’
Astuces de recherche dans Google (par les étudiants des HEC-Montréal)

5 commentaires:

jeudi, décembre 16, 2004 8:14:00 PM JT a dit...

Voilà un constat et une analyse fort intéressants!
(1) Je n'ai jamais osé faire une recherche avec autant de mots à la fois. (2) Pour obtenir un résultat quasi satisfaisant à tout coup, je procède par requêtes successives en utilisant la fonction en bas de page qui permet de faire la recherche suivante parmi les résultats précédents. (3) Dans ce cas-ci, j'aurais d'abord fait une première requête avec 'fido' en la limitant au Canada. Puis, avec 'abonnement' parmi les résultats précédents. Enfin, avec 'promotion' dans les résultats précédents...
C'est une méthode un peu simpliste, mais qui donne de bons résultats en quelques secondes si on s'est donné la peine de réfléchir préalablement sur le champ de recherche visé et les termes à utiliser pour le restreindre graduellement afin d'aboutir à l'information voulue.

jeudi, décembre 16, 2004 8:38:00 PM Anonyme a dit...

salut , et qu'est ce que le professeur Zeroseconde pense de Google Suggest (http://www.google.com/webhp?complete=1&hl=en)? Y a t-il un debut de reponse de Google pour la recheche 'sans douleur' pour le surfeur moyen?
Zod

lundi, décembre 20, 2004 1:43:00 PM Martin Lessard a dit...

Il est clair que Google Suggest va grandement aider les gens ordinaires à mieux cibler leur requête.

Dans le cas qui nous intéresse, le pauvre internaute n'aurait pas dépassé les 2 mots (fido cellulaire), ce qui lui aurait donné un meilleur résultat.

Ce dont personne ne parle c'est que l'ordre des mots est important pour la somme des résultats escomptées (du moins dna la version beta):

si on tape "fido" puis "cellulaire", ce n'est pas la même chose que "cellulaire" puis "fido". De plus le couple "fido cellulaires" (avec un s) existe alors que le couple "cellulaires fido" (toujours avec un s à cellulaire) n'existe pas. Je crois que cela influencera les internautes...

samedi, janvier 29, 2005 12:11:00 AM Martin Lessard a dit...

Hum. 28 janvier 2005 : J'étais en 4ieme postion avec "mettre mon cv dans des societes domaine de traitement d eau" sur Yahoo search. J'attire les requêtes perdues comme Saint-eJude!

mercredi, mars 09, 2005 6:17:00 PM Fyque a dit...

En tout cas, cette page arrive en première position de la recherche "alternatives à google" ;-)

Publier un commentaire

Les commentaires sont fermés.