Comment fonctionnent les moteurs de recherche ?

Il y a deux milliards de sites internet dans le monde (2 milliards !).

Pourtant, quand vous posez une question dans un moteur de recherche (Google, Bing, Ecosia ou autre), vous obtenez en moins d’une seconde une sélection des meilleurs sites qui répondent à votre questions.

Dans 90% des cas, Google aura réussi à placer dans les 3 premiers résultats celui qui vous apportera satisfaction.

Fascinant, non ?

Mais comment ça marche ? Avant d’y référencer votre site, savez-vous ce que le moteur de recherche que vous utilisez au quotidien a «dans le ventre» ? La réponse à cette question n’est pas si évidente.

En effet, bien que les moteurs tels que Google, Yahoo! ou encore Bing semblent très simples d’utilisation, leur fonctionnement «sous le capot» est en réalité très complexe et élaboré. Nous vous proposons ici de décortiquer le fonctionnement des moteurs de recherche. Je vais vous expliquer simplement comment les moteurs

inspectent les sites,
choisissent de les indexer,
les classent.

Bienvenue dans les coulisses des moteurs de recherche, une découverte essentiel pour devenir un as du référencement naturel. 👇🏻

Vous souhaitez progresser en marketing sur d’autres sujets ?
👉🏻 Retrouvez notre formation marketing complète

Vous souhaitez améliorer la visibilité de votre site sur internet ?
👉🏻 Retrouvez toute nos services SEO : pour optimiser le référencement naturel de votre site.

Quelques mots pour commencer

Pour réussir à positionner son site dans les premières places des moteurs de recherche, il faut comprendre leur fonctionnement, leur logique, bref ouvrir le capot ! Aujourd’hui, je vais vous montrer comment fonctionne un moteur de recherche, tel que Google. Préparez-vous pour une expérience captivante !

Les moteurs de recherche : les détectives du web

Un moteur de recherche (search engine, en anglais) est comme un détective du web. Il utilise un robot, que l’on appelle un « spider » pour explorer et parcourir le web, en visitant plusieurs pages pour en apprendre davantage sur leur contenu. Ce robot suit les liens, tout comme un enquêteur suivrait les indices, afin d’évaluer la popularité de chaque page.

Chaque lien reçu par un site est comme un vote en sa faveur

On peut considérer chaque lien vers une page comme un vote en faveur de celle-ci, indiquant son importance. Plus une page reçoit de liens, plus elle est perçue comme populaire et donc crédible aux yeux des moteurs de recherche. Et cela vaut pour

les liens internes (venant d’autres pages d’un même site)
les liens externes (venant des pages d’autres sites)

Pendant ce processus, le moteur de recherche collecte également le contenu de chaque page pour comprendre de quoi elle parle.

Les moteurs vous observent ! 🔎

Maintenant, imaginez que vous utilisez le moteur de recherche pour trouver des informations.

Le moteur de recherche analyse votre requête et affiche une liste de pages correspondant à vos besoins.
Il utilise des critères de popularité et de pertinence pour classer les résultats.

C’est là que vous, en tant qu’individu, intervenez. Selon votre interaction avec les résultats, vous apportez des informations sur la qualité des résultats au moteur de recherche.

Selon votre interaction avec les résultats, vous apportez des informations sur la qualité des résultats au moteur de recherche.

Imaginions que vous posiez à Google une question A.

Google vous propose une dizaine de sites.
Vous allez sur le premier site de la liste, mais n’y trouvez pas votre réponse.
Vous quittez donc ce site 1 pour aller sur le site 2.
Google considérera que vous n’avez pas apprécié le résultat (site 1). Si un grand nombre d’internautes font de même, Google considérera qu’il ne doit plus montrer ce site 1 pour répondre à cette question A mais plutôt le site 2.

L’optimisation SEO, une course de fond 🏃🏻‍♀️

Le référencement web (SEO) est un jeu de perfectionnement constant où le moteur de recherche s’améliore en apprenant de son utilisation. Une fois les analyses de base effectuées, le moteur classe essentiellement les pages web en les comparant sur de multiples critères.

Optimiser un site en SEO, c’est un marathon, pas un sprint. Il faut d’abord juste en faire assez pour être pris en compte par le moteur de recherche. Puis, il s’agit d’exceller sur les facteurs clés pour votre audience cible. C’est-à-dire, identifier les éléments importants pour votre public et faire mieux que la concurrence.

Les 3 piliers du SEO 3️⃣

Il existe 3 piliers incontournables pour optimiser le référencement et apparaître dans les premiers résultats de la SERP (Search Engine Result Page) :

le contenu ou sémantique (étude des pages et requêtes),
la technique (accessibilité et exploration du site)
et la notoriété (visibilité du site).

les 3 piliers du SEO : technique, sémantique et popularité

C’est un domaine complexe en perpétuelle évolution, mais avec une stratégie solide basée sur ces piliers, vous pouvez faire ressortir votre site et toucher votre cible.

👉🏻 Retrouvez notre guide complet sur les 3 piliers du SEO

C’est parti. 👇🏻

Comment fonctionne un moteur de recherche ? [en résumé]

Un moteur de recherche est un logiciel qui parcourt internet, indexe les pages visitées, les analyses pour pouvoir à la fin les présenter aux internautes lorsqu’ils tapent des requêtes.

Plusieurs étapes sont nécessaires pour le bon fonctionnement d’un moteur de recherche.

Dans un premier temps, des robots explorent le web de lien en lien et récupèrent des informations (phase de crawl).
Ces dernières sont ensuite indexées par des moteurs d’indexation, les termes répertoriés venant nourrir un index, qui consiste en une base de données des mots contenus dans les pages régulièrement mises à jour.
Enfin, une interface de recherche permet de restituer des résultats aux utilisateurs en les classant par ordre de pertinence (phase de ranking).

Quatre étapes sont indispensables à son fonctionnement.

Les 4 étapes pour un moteur 👇🏻

1️⃣ La collecte d’informations (crawl) grâce à des robots (aussi appelés spiders ou crawlers).

2️⃣ L’indexation des données collectées et la constitution d’une base de données de documents nommée «index ».

3️⃣ Le traitement des requêtes, avec tout particulièrement un système d’interrogation de l’index et de classement des résultats en fonction de critères de pertinence suite à la saisie de mots-clés par l’utilisateur.

4️⃣ La restitution des résultats identifiés, dans ce qu’on appelle des SERP ou pages de résultats, le plus souvent présentées sous la forme d’une liste de dix liens affichés les uns en dessous des autres.

les étapes d'un crawl de moteur de recherche

Les pages de résultats des moteurs de recherche affichent deux principaux types de contenu :

les liens organiques ou naturels, obtenus grâce au crawl sur le Web,
les liens sponsorisés ou commerciaux, issus d’un système d’enchères.

Nous allons nous concentrer ici sur les techniques utilisées par les moteurs pour indexer et retrouver des liens naturels. Nous n’aborderons pas le traitement spécifique des liens sponsorisés que vous pourrez découvrir sur notre article dédié au SEA (liens payants).

Les technologies utilisées par les principaux moteurs de recherche 🖥️

La plupart des autres moteurs n’utilisent pas leur propre technologie de recherche, mais sous-traitent cette partie auprès des leaders : Google et Bing.

Par exemple, Yahoo! utilise Bing, la technologie de Microsoft, pour son moteur de recherche. En France, les acteurs majeurs sont Qwant (qui utilise en grande partie Bing) et Orange/Voila, qui côtoient d’autres noms moins connus, et bien sûr les deux leaders Google et Bing. Voici un récapitulatif des technologies utilisées par les différents moteurs de recherche.

Les moteurs utilisant la technologie de Google

Google
Free
SFR
Bouygues

Les moteurs utilisant Bing

Bing
Yahoo!
Ecosia

Les robots, crawlers et spiders 🤖🕷️

Qu’est-ce qu’un crawler ?

Les spiders (également appelés agents, crawlers, robots ou encore bots) sont des programmes de navigation visitant en permanence les pages web et leurs liens en vue d’indexer leurs contenus. Ils parcourent les liens hypertextes entre les pages et reviennent périodiquement visiter les pages retenues pour prendre en compte les éventuelles modifications.

Parmi les spiders les plus connus, figurent notamment

Googlebot de Google
BingBot de Bing

Le passage des spiders sur les sites peut être vérifié par les webmasters en analysant les fichiers logs sur les serveurs. Les fichiers logs indiquent l’historique des connexions qui ont eu lieu sur le site, y compris celles des spiders. Les outils statistiques comprennent généralement dans leurs graphiques ou données une rubrique « visites des robots». Attention cependant, ces outils doivent le plus souvent être spécifiquement configurés pour prendre en compte tous les robots émanant de moteurs français. Les outils statistiques, notamment d’origine américaine, ne prennent pas toujours en compte ces spiders «régionaux».

Pour tracer les robots…

Plusieurs applications en ligne permettent également d’analyser les visites des robots sur des pages données. Voici quelques solutions:

Des « marqueurs » doivent parfois être intégrés par les webmasters dans les pages et ces services surveillent si l’un des visiteurs est le robot d’un moteur de recherche.

Que font les crawlers (de leurs journées)

Le processus est toujours le même :

le spider trouve une page,
l’enregistre,
détecte les liens qu’elle contient (liens internes et externes),
les suit,
les sauvegarde,
y détecte de nouveau les liens, etc.

Et cela 24h/24. L’outil parcourt donc sans cesse le web pour y détecter des pages web en suivant des liens.

Cette technique de suivi des liens hypertextes par les spiders peut poser plusieurs problèmes pour :

l’indexation des pages orphelines (qui ne sont liées à aucune autre sur un site)
les pages pointées par des documents proposant des liens

On rentre dans le détail. 👇🏻

Indexation des pages orphelines

L’indexation des pages dites «orphelines », qui ne sont liées à aucune autre et qui ne peuvent donc pas être repérées par les crawlers via des liens. Il en est ainsi des sites qui viennent d’être créés et qui n’ont pas encore de backlinks (liens entrants) pointant vers eux.

Indexation des pages pointées par des documents

Les pages pointées par des documents proposant des liens ne sont pas pris en compte par les moteurs de recherche, comme certains liens écrits en langage JavaScript (même si Google évolue sur ce sujet).

Les limites du crawler

Un spider est donc un logiciel théoriquement très simple mais redoutablement efficace. Il ne sait faire que 2 choses :

1️⃣ lire des pages web et stocker leur contenu (leur code HTML) sur les disques durs du moteur.
2️⃣ détecter les liens dans ces pages et les suivre pour identifier de nouvelles pages web.

Le fichier robots.txt un outil pour dompter les crawlers 🦁

Qu’est-ce qu’un fichier robots.txt ?

Le fichier robots.txt est un fichier texte que les webmasters placent à la racine de leur site web. Il permet de donner des instructions aux robots des moteurs de recherche sur les pages qu’ils peuvent ou ne peuvent pas indexer.

Il contient généralement deux types d’informations :

Les règles d’accès pour les robots : on peut leur interdire ou autoriser l’accès à certaines parties du site en utilisant la syntaxe suivante : User-agent: * Disallow: /privé/. Cela interdira l’accès du robot à tout le répertoire /privé/.

Des informations sur le site : nom, auteur, URL du sitemap, etc.

Quel est l’intérêt d’un fichier Robots.txt ?

L’intérêt est double :

1️⃣ Empêcher l’indexation de pages qu’on ne souhaite pas voir apparaître dans les résultats de recherche (pages de tests, anciennes versions, etc.)
2️⃣ Guider les robots vers les pages qu’on veut voir correctement indexées et éviter qu’ils ne perdent du temps à indexer des pages sans intérêt.

Bien que la plupart des robots respectent ces règles, ce n’est pas obligatoire. Le fichier robots.txt est donc simplement indicatif. Le webmaster propose, Google dispose. 😉

Le webmaster propose, Google dispose.

Comment les moteurs prennent ils en compte une modification sur une page ?

Lorsqu’un spider arrive sur une page, il commence par vérifier s’il ne la connaît pas déjà. S’il l’a déjà parcourue dans le passé, il contrôle si la version qu’il découvre est plus récente que celle qu’il possède déjà. Quand c’est le cas, il supprime l’ancienne version et la remplace par la nouvelle. La SERP se met alors automatiquement à jour.

Quels critères de décision ?

Pour savoir si une page est plus récente qu’une version déjà sauvegardée, le moteur de recherche va analyser plusieurs facteurs :

la date de dernière modification du document fourni par le serveur
la taille de la page en kilo-octets
le taux de modification du code HTML du document (son contenu)
les zones modifiées : charte graphique ou contenu réel. Ainsi, certains moteurs pourront estimer que l’ajout d’un lien dans un menu de navigation ne constitue pas une modification suffisante pour être prise en compte. Ils sauront différencier « charte graphique et de navigation » avec « contenu réel » et ne prendre en compte que le second type de modification.

Il est nécessaire que le spider détecte une « vraie » modification en son sein pour mettre à jour son index.

À quelle fréquence Google scanne-t-il les sites internet ?

Cela dépend de la nature du site internet.

Historiquement : une mise à jour mensuelle

Il y a de nombreuses années de cela, les mises à jour des index des moteurs étaient mensuelles. Chaque mois, le moteur mettait à jour ses données en supprimant un ancien index pour le remplacer par un nouveau. Ce nouvel index (ou cette nouvelle SERP) était maintenu pendant les 30 derniers jours par ses robots.

Une accélération depuis 10 ans

Ce système de mise à jour s’est bien sûr accéléré depuis le temps. Pour la plupart, les moteurs gèrent le crawl de manière continue, en adaptant leurs visites à la vitesse de publication/modification de contenus :

Ils visitent plus fréquemment les pages à fort taux de renouvellement des contenus. Par exemple un site d’actualité (presse, média) sera visité plusieurs fois par jour par le robot.
Ils se rendent moins souvent sur les pages « statiques ».

Depuis une dizaine d’années, Google a accéléré son processus de prise en compte de documents, certaines pages se retrouvant dans l’index du moteur quelques minutes seulement après leur création/modification. Ce phénomène est appelé Minty Fresh Indexing.

Le crawl prédictif : un changement de fonctionnement des crawlers

Qu’est-ce que que le crawl prédictif ?

Le crawl prédictif est une fonctionnalité récente du moteur de recherche Google qui lui permet d’indexer le contenu web de manière plus intelligente et efficace.

Comment fonctionne ce crawl prédictif ?

Habituellement, les moteurs de recherche comme Google parcourent (crawlent) le web de façon systématique, en suivant les liens d’une page à l’autre. Avec le crawl prédictif, Google analyse le contenu et le comportement des utilisateurs pour déterminer les pages qu’il est le plus pertinent d’indexer en priorité.

Concrètement, Google va identifier les pages susceptibles d’être très populaires auprès des internautes dans un futur proche. Il va donc les référencer en priorité dans son index, avant même que les liens vers ces pages se répandent sur le web.

Cela lui permet d’indexer le contenu en temps réel, en anticipant les tendances et les sujets émergents. Le crawl prédictif facilite donc l’accès à l’information la plus récente et la plus pertinente pour les recherches des utilisateurs.

En résumé, le crawl prédictif utilise l’intelligence artificielle pour crawler le web de façon plus stratégique et efficace, en se concentrant en priorité sur les pages les plus susceptibles d’intéresser les internautes.

Le moteur d’indexation

Une fois les pages web crawlées, le spider envoie les informations collectées au moteur d’indexation. L’indexation s’effectue en texte intégral, ce qui signifie que tous les mots d’une page, ainsi que tout son code HTML, sont pris en compte.

Les systèmes d’indexation identifient en « plein texte » tous les mots contenus dans les textes des pages, ainsi que leur position.

Enfin, notez qu’une liste de mots « vides » (tels que « le », « la », « les », « et », etc.), appelés stop words en anglais, est généralement automatiquement exclue (pour économiser de l’espace de stockage) ou ces mots sont systématiquement éliminés lors d’une requête (pour améliorer la rapidité des recherches).

Le système de ranking : comment les moteurs classent-ils les résultats ? 🎖️

Le fonctionnement du ranking

Le ranking consiste à classer automatiquement les données de l’index de façon à ce que, suite à une interrogation, les pages apparaissent en premier dans la liste de résultats.

Le but du classement est que les 10 premières réponses répondent le mieux à la recherche de l’internaute.

Pour cela, les moteurs élaborent en permanence de nouveaux algorithmes (des formules mathématiques utilisées pour classer les documents). Les mises à jour des moteurs de recherche sont régulières.

Bien sûr ces algorithmes sont jalousement gardés par leur propriétaire, parfois même protégé par des brevets. 🤫

Les méthodes de ranking

Il existe plusieurs grandes méthodes de ranking des résultats et les moteurs utilisent pour la plupart un mélange de ces différentes techniques.

le tri par pertinence
la localisation d’un mot dans le document (Par exemple: le poids est maximal si le mot apparaît dans la balise <title>, la balise <h1> ou son adresse URL
la mise en exergue d’un mot (en gras ou via les balises <Hn>)
la fréquence d’un mot dans un index donné (moins le mot est fréquent, plus il sera favorisé)
la correspondance
la relation de proximité entre les termes de la question et les termes utilisés dans le document (les termes proches l’un de l’autre sont favorisés).

Tous ces critères sont basés sur la présence des mots-clés de la requête dans une ou plusieurs zone(s) chaude(s) de la page web.

Plus globalement, 2 critères sont pris en compte pour le tri

1️⃣ la popularité
2️⃣ la mesure du comportement utilisateur

On entre dans le détail. 👇🏻

1️⃣ Le tri par popularité (indice de popularité)

Rendu célèbre par Google avec son PageRank (pour contrer, entre autres, les abus possibles des méthodes de tri par pertinence), le tri par popularité s’appuie sur une méthode basé sur la «citation ». L’analyse de l’interconnexion des pages web par l’intermédiaire des liens hypertextes.

Le tri par popularité s’appuie sur une méthode basé sur la «citation » : l’analyse de l’interconnexion des pages web par l’intermédiaire des liens hypertextes.

Ce type de tri est a priori indépendant du contenu. Il s’agit en fait de l’analyse des liens entrants (backlinks) pointant sur une page donnée. Google classe donc les documents principalement en fonction de leur PageRank (nombre et qualité des liens pointant vers ces documents).

Le moteur analyse alors les pages contenant les liens. Plus une page est pointée par des liens émanant de pages elles-mêmes populaires, plus sa popularité (son PageRank) est grande et meilleur sera son classement.

Cela dans une seule limite, les liens doivent avoir un sens : un blog de cuisine qui envoie un lien vers le site internet d’un carrossier n’aura aucun poids. Cette méthode de tri des résultats est aujourd’hui utilisée par la majorité des moteurs.

2️⃣ Le tri par mesure du comportement utilisateur (taux de clic, SERP Bounce ou Pogosticking).

Cette méthode permet de trier les pages en fonction du nombre et de la «qualité » des visites qu’elles reçoivent. Le moteur analyse en fait le comportement des internautes à chaque clic, chaque visite d’un lien depuis la page de résultats (et notamment le fait qu’il revienne ou non sur le moteur et au bout de combien de temps) pour tenter de trouver les pages les plus cliquées et améliorer en conséquence leur classement dans les résultats.

Plus une page sera cliquée
moins les internautes reviendront sur le moteur après l’avoir consultée (signifiant ainsi qu’ils ont trouvé la réponse qu’ils cherchaient),
plus cette page sera considérée comme pertinente et sera donc mieux classée à la prochaine requête similaire. Cette méthode semble être utilisée aujourd’hui par certains moteurs, dont Google.

Bien entendu, plusieurs de ces méthodes peuvent être utilisées simultanément par un moteur. C’est le cas aujourd’hui de Google, Bing et des principaux outils de recherche qui associent tris par pertinence, par popularité, etc., pour obtenir les meilleurs résultats possibles.

La notion de «budget crawl» : comment ne pas fatiguer/lasser les moteurs

Qu’est-ce qu’un budget crawl ?

Pour scanner votre site, le crawler d’un moteur de recherche utilise des ressources (mémoire vive, stockage, etc.).

Comme il ne peut pas accorder des ressources illimitées, les moteurs de recherche accordent un “budget crawl” à votre site, c’est-à-dire un nombre de pages qu’il va analyser à une fréquence X (par exemple tous les jours), et d’autres à une fréquence Y (par exemple toutes les semaines).

Pour quels types de sites faut-il prendre en compte ce budget crawl ?

Attention, cette notion de budget crawl n’a de sens que pour les gros sites (du point de vue de Google 🙂) soit 100 000 pages indexées. Les “petits” sites n’ont pas à s’en préoccuper.

Dans ce cas (site de plus de 100 000 pages), les crawlers choisiront de ne pas indexer toutes les pages, la plupart du temps parce que cela n’en vaut pas la peine (contenus de faible qualité, contenu dupliqué, etc.). Pour effectuer ce tri, le robot va se baser sur plusieurs critères :

les performances du serveur : si le serveur « rame », le robot aura du mal à explorer le site
la profondeur de l’arborescence : plus une page sera loin dans l’arborescence (donc, plus il faudra de clics pour l’atteindre depuis la page d’accueil) et plus son crawl deviendra aléatoire, voire improbable. Au-delà de 3 à 4 clics depuis la homepage, cela envoie des signaux négatifs.
la fréquence de mise à jour : plus une page est mise à jour souvent, plus le robot aura tendance à venir la visiter pour obtenir la dernière version de son contenu;
la qualité du contenu : un contenu dont la qualité sera estimée trop faible sera moins indexé, voire par du tout indexé (c’est d’autant plus vrai depuis le Helpful Content Update de 2022.
le PageRank (popularité) de la page : plus une page sera populaire, meilleure sera son indexation. Ce PageRank dépend du nombre de liens reçus et de la puissance de ces liens.

Le moteur va donc prendre en compte ces différents critères et ne retenir que les meilleures URL pour son indexation dans le cadre de ce «budget crawl».

À vous donc de jouer sur tous les critères ci-dessus pour faire en sorte que cet échantillon soit le plus important et le plus représentatif possible de votre source d’informations. 💪🏻

Comment s’appelle le processus qu’utilisent les moteurs de recherche ?

Le processus utilisé par les moteurs de recherche pour explorer, indexer et classer le contenu des sites web s’appelle le crawl, l’indexation, et le ranking.

Voici en détail les étapes principales :

Crawling (exploration) : Les moteurs de recherche utilisent des bots ou crawlers (robots d’exploration, souvent appelés « spiders ») pour explorer internet. Ces bots parcourent les pages web en suivant les liens d’une page à une autre. C’est une étape cruciale pour découvrir le nouveau contenu ou mettre à jour les anciennes pages.

Indexation : Une fois qu’un bot explore une page, les informations pertinentes (texte, images, vidéos, liens, etc.) sont analysées et stockées dans une base de données appelée l’index. L’index contient toutes les informations que le moteur de recherche peut rapidement retrouver lorsqu’un utilisateur effectue une recherche.

Ranking (classement) : Lorsqu’un utilisateur effectue une recherche, le moteur de recherche parcourt son index pour trouver les pages les plus pertinentes et les classe en fonction de nombreux critères (comme la pertinence du contenu, la qualité, l’autorité, les mots-clés, etc.). C’est ce qui détermine l’ordre d’apparition des résultats dans les SERP (Search Engine Results Pages).