Les moteurs de recherches

11 minutes

Les moteurs de recherches sont un des éléments les plus important du web, au point ou Google est devenu une institution du web. Avec ces sites, il est possible de trouver les informations et les sites qu’on veut.

Cependant, il existe aussi des soucis autour des moteurs de recherches, notamment des plus importants. Le plus célèbre historiquement était la question de la vie privée, avec Google qui aspirait toute nos données pour les revendre aux annonceurs. Ce site web est d’ailleurs un remake d’un vieil article que j’ai écrit en 2014, qui cherchait des alternatives à Google. Cependant, depuis, d’autres soucis se sont rajouté :

  • L’enshittification globale d’internet, en grande partie du au spam à SEO, créant pleins de sites visant à spammer les résultats de moteurs de recherche pour récupérer le plus de click et afficher le plus de pub possible.
  • L’utilisation de système IA pour mélanger toute les informations et les régurgiter, avec Copilot/Bing et Google Gemini. Cela à deux effets néfastes qui se combinent de manière problématique :
    • Les IA ne savent pas quand elles ont vrai ou faux, et du coup disent beaucoup de conneries
    • Utiliser une IA qui donne la réponse fait baisser la recherche de l’information sur les sites, et rend plus difficile de vérifier l’information.

Du coup, quelles alternatives ont a ? Peu de parfaite, malheureusement.

Tenter de dés-enshittifier Google

La première possibilité que pas mal de gens font sont tenté de baisser les soucis de Google via des extensions et des outils.

  • Le premier possible est le site udm14.com, qui permet de retourner vers la recherche Google traditionnelle, avec 10 liens, sans résumés et trucs du genre (désormais séparé sur Google via un onglet “web”).
  • L’extension uBlackList permet d’utiliser des blocklist filtrant les résultats afin de retirer les résultats de site spam
  • D’autres extensions comme Indie Wiki buddy peuvent rediriger les résultats vers des frontend alternatif.

Cependant, cela ne résoud pas le soucis profond qui est le pouvoir que Google à sur le web. Du coup, on peut se poser la question, quelle sont les alternatives possibles, outre les géants Bing et Yahoo.

Bing, bing partout

L’un des soucis, c’est que la plupars des sites se positionnants en “alternatives” utilisent Bing comme base : DuckDuckGo, Ecosia, Startpage, etc. sont plus proches d’être des interface vers Bing que des véritables moteurs de recherche indépendant, ce qui provoque qu’une partie des soucis de Bing se retrouve sur ces moteurs.

De plus, certains tombent facilement dans les travers des gros moteurs de recherches :

  • DuckDuckGo a rajouté aussi une IA générative basée sur ChatGPT. Même s’il est considéré comme la meilleur alternative pour la vie privée à Google, il reste un frontend pour Bing, qui vire de plus en plus vers l’IA pour faire tout et n’importe quoi.
  • Qwant à eut… tout un tas de soucis.

Bref, si j’utilise plutôt DuckDuckGo, il y a pas mal de soucis autour, et sa dépendance à Bing font qu’une vrai alternative serait bien.

Je trouve que les méta-moteur à la SearXNG ont l’aventage de pouvoir appeler plusieurs moteurs.

Les alternatives indies

Il existe cependant des tentatives de faire des alternatives à Google/Bing/Yandex. Cependant, peu sont vraiment pour l’instant complètement au niveau, et ont pas mal de soucis.

Déjà, le soucis c’est que certaines des alternatives tombent dans le “free speech” façon altright (genre mojeek tombe beaucoup dans ces biais), ce qui risque d’être encore pire quand de la désinformation sera générée par IA sur des sites fait pour avoir l’ère “normaux” (un soucis existant déjà “manuellement” et qui va s’amplifier avec les IA). Face à la possibilité de spam massif, il est important d’avoir une certaine forme de curation (en étant honnête sur quelle est cette curation). Plus dans le cas mojeek le moteur joue un double jeu étant à la fois critique des LLM, tout en ayant un “résumé de recherche” généré par IA qui tombe dans tout les pièges habituels (dont j’ai vu des erreurs dès la première utilisation, puisqu’il s’est trompé sur un des sites ou je suis admin, disant celui “rival” mdr). Je déconseille aussi très fortement Brave Search, pour les mêmes raison que le navigateur.

D’autres existent ayant des rôles plus réduit, mais qui du coup gagnent en intérêt en devenant plus des outils de découvertes, comme par exemple Marginalia, qui est un mini-moteur de recherche open-source pour le web indépendant et personnel. Old’aVista est aussi un autre amusant, cherchant dans le “old web”.

Bref, on manque pour moi d’une vrai alternative aux gros index de qualité, qui n’aurait pas des gros soucis derrière.

Comment pourrait-on en créer un mieux

Comment créer un moteur de recherche meilleur généraliste (donc je compte pas dedans Marginalia qui a pour objectif d’indexer différemment) ? Déjà je pense qu’une approche open-source à la Marginalia est intéressante, puisqu’elle permet de faire de la collaboration, et du crowdsourcing.

De plus, je pense qu’un moteur de recherche vraiment meilleurs devrait :

  • Ne pas hésiter à prendre des parti-pris et à l’assumer. Genre, dire clairement “pas de désinformation chez nous”, ou “on lutte activement contre les scams” (et combiner ça avec le crowdsourcing)
  • Ne pas hésiter à collaborer avec uBlock et des listes uBlacklist pour directement virer de l’index tout les sites qui produisent du spam SEO. Cela permettrait de rendre plus sains les résultats de recherche.
  • Uprank les sites selon des critères d’a11y, etc comme Google, mais aussi beaucoup uprank selon la légéreté, la facilité d’accès du site.
  • Downrank certains des comportement SEO produisant des contenus de moins bonne qualité, si on peut les détecter.
  • Downrank tout les sites abusant de la publicités ou contenant trop de tracker (je crois que y’avait un site qui faisait ça a coup de uBlock/adblock ou un truc du genre).

Je pense que sur certains points, les technologies de processing du langage naturels peuvent être utile pour mieux parser les questions, l’utilisation de langage naturel par l’utilisateur dans le champs de recherche, mais par contre il faut ne pas utiliser d’IA générative, qui même optionnelle peut être néfaste pour l’action de chercher.

Cependant, un tel projet serait un travail énorme, et demanderait une fondation derrière. Malheureusement, je doute qu’un projet comme ça arrive dans les prochains temps.

Conclusion, qu’est-ce que je conseille

En moteur de recherche, je conseille plutôt d’utiliser DuckDuckGo (malgré ses soucis), une instance de Searx pour faire des recherches, ou d’utiliser udm14 et tout pour tenter de désenshittifier au possible ses résultats de recherche Google. Et de ne pas utiliser

De plus, je pense qu’à côté de cela, il est utile de si possible baisser un peu notre dépendance aux moteurs de recherche :

  • Faire plus de curation et de partage de site. Créer des projets de partage de site qui nous intéresse, pour rendre plus facile de trouver des sites sur les domaines, puis de pouvoir chercher dans le site. C’est à cela de notre côté que sert notre site tramweb :)
  • Utiliser l’historique et les marques-pages/favoris autant que possible afin de ne pas avoir à rechercher constamment un site qu’on a déjà vu (et je parle pour moi : j’oublie constamment de faire ça, et ça m’aiderais bien. Peut-être qu’il y a des améliorations à faire dans les navigateurs web sur ce sujet). Plutôt que d'utiliser Google pour retrouver les même site, les garder en mémoire dans notre naivgateur web.
  • Utiliser autant que possibles des moteurs de recherches spécialisés dans le domaine qui nous intéresse, ou des sites dans ce domaine : des encyclopédies en lignes, des sites de cuisine, etc.

Dans son article « Vous n'avez pas besoin de la recherche Google », le maître de conférence et chercheur Arthur Perret va plus loin, et a mené l'expérience d'utiliser le moins possible Google, et d'utiliser à la place les sites spécialisées, et estime que cela marche bien. Aller directement sur les sites ou il pense qu'il trouvera la réponse, utiliser sa « carte mentale » du web.

De mon côté, je pense que ça ne remplacera pas 100% de l'utilisation moteurs, notamment pour tout ce qui est “réponse à une question”, notamment pour les personnes plus néophytes. Cependant déjà, cela peut nous permettre d’aider un peu dans quelques usages, et de plus facile trouver et retrouver des sites, pour faire face au risque que causent le spam, et de profiter plus de sites spécialisés.

Source de la miniature : Magnifying glass with focus on paper par Niabot