Confiance aveugle et approximations des moteurs de recherche

Ce post fait suite à celui que j’ai publié sur la progression de Live Search où je donnais les résultats obtenus pour “savoirs en réseau” par différents moteurs de recherche. Sur le moment, rien de choquant, quoiqu’un peu surprenant : Google renvoie énormément de résultats pour l’expression ! Jean-Michel (merci à lui) m’a justement fait remarquer que c’était un peu étrange. Et on y regardant de plus prêt, on réalise qu’il ne faut pas trop se fier au nombre de résultats annoncés. D’ailleurs, Google n’utilise t’il pas “environ” ? J’ai mené ma petite enquête et me suis rendue compte que je n’étais pas la première à faire ce genre de constatation (voir les liens mis plus bas), au contraire. Ce n’est pas grave d’ailleurs. Mieux vaut tard que jamais !

La conclusion c’est que le nombre de documents indiqués par les moteurs de recherche et répondant à une demande n’est qu’une approximation et qu’aujourd’hui, bon nombre de moteurs de recherche procèdent ainsi, certains étant plus fiables que d’autres. Les moteurs de recherche n’affichent en fait que le nombre maximal de résultats, et tant pis si le nombre global atteint plusieurs millions. En outre, on peut remarquer que le nombre de réponses varie d’une journée à l’autre. Aujourd’hui, sur Google, la requête “savoirs en réseau” donne 13 400 résultats (contre 14 200 hier). Le comportement de Google est également incompréhensible sur d’autres aspects. Il suffit de taper “carburants” puis carburants et vous obtiendrez un nombre de résultats différents : 2 900 000 contre 2 860 000. Même chose si votre mot commence ou non par une majuscule : pour “Carburants” on obtient 2 850 000 réponses alors qu’on en obtient 2 900 000 pour “carburants”.

Quelles raisons à cette variabilité et à ces approximations ? En voici quelques unes trouvées ici et là :
- raisons techniques : garder de la charge machine ou interrogation de différents centres de données, prise en compte des informations au moment de l’indexation (lecture ou non des méta-données), etc.
- raisons concurrentielles : il faut montrer qu’on peut faire mieux que les concurrents.

Du coup, on peut se demander : pourquoi afficher une donnée qui, au final, n’est pas exacte ? Pour terminer, j’emettrais la même crainte que Béatrice Foenix-Riou (NetSources) : une confiance aveugle dans les moteurs de recherche nous empêche d’en voir leurs limites et leur faillabilité. La preuve avec mon post d’hier.

Pour en savoir plus :

- Peut-on se fier à Google ? Enquête sur des résultats étranges (NetSources)
- Web: Comptes bidons chez Google ? (Technologies du langage, Jean Véronis)
- Abondance de pages nuit parfois… (Abondance)

Additious

La conversation {3 commentaires}

  1. MyAvatars 0.2 Pilou {Vendredi 26 octobre 2007 @ 3:42 }

    La recherche suivante :

    “confiance aveugle” site:savoirsenreseau.com

    affiche 3 liens ; si l’on demande la totalité des liens bruts, il y en a 15 !

    La cause principale de multiplication est la diversité des URL permettant d’atteindre un document : par date, par catégorie, par auteur, etc …

    Et la méthode que je viens de vous montrer est la seule permettant de mesurer l’erreur ; à condition de la conceptualiser en : la mesure n’est pertinente que dans un univers parfaitement connu.

  2. MyAvatars 0.2 Herve Kabla {Lundi 29 octobre 2007 @ 9:32 }

    La variabilité sur le nombre de réponses correspond à une variabilité sur le serveur qui procède à la réponse. Google ne maintient pas une seule “vue” de son index, mais plusieurs, et selon le serveur auquel on s’adresse, le nombre de réponses et le contenu de celles-ci peuvet varier. C’est un fait connu de tous les webmasters…

  3. MyAvatars 0.2 Herve Kabla {Lundi 29 octobre 2007 @ 10:00 }

    Bon, plus d’explications sont necessaires:
    - la variabilité sur le nombre de resultats affichés en haut de page correspond a la variabilité du serveur (cf commentaire precedent)
    - la variabilite entre le nombre de resultats pertinents et le nombre de resultats en incluant les pages ignorées correspond à ce que Google cherche a renseigner l’internaute sur les resultats discriminants. Si le meme article apparait trois fois sous une forme differente, il ne sert a rien de le renvoyer comme trois resultats distincts, Google “optimise” sa reponse…

Ecrivez un commentaire

  • Recommandation : Veuillez rester courtois