Un moteur de recherche ?
02/08/2013 18:36
S'interroger sur le nombre de pages web dont est constitué Internet équivaudrait à se demander combien de planètes sont présentes dans l'univers. En 2012, l'entreprise Netcraft a estimé le nombre de sites présents sur la Toile à plus de 640 millions, et ce nombre est en constante expansion. Face à un chiffre pareil, centraliser la gestion de ces pages est un vrai challenge, et il est difficile pour un utilisateur de chercher et de trouver un site qui correspond exactement à ses attentes. C'est de ce besoin de recenser automatiquement l'ensemble des sites internet que sont nés les moteurs de recherche. Le premier d'entre eux est apparu au Québec en 1990, au début du Web 1.0, et se nommait Archie. A l'époque, son but était simplement de rechercher certains documents sur la Toile. Le temps passant et la technologie évoluant, le concept s'est affiné et d'autres sociétés ont produit leur propre moteur : Yahoo, en 1994, invente un annuaire numérique qui va faire fureur ; en 1998, deux génies de l'université de Stanford vont créer Google, qui va devenir le roi des moteurs de recherche en classant ses résultats par popularité. La liste est longue, mais ces deux noms en particulier ont marqué durablement l'histoire du Net et existent encore aujourd'hui. En bref, un moteur de recherche a pour but de rassembler les adresses de chaque page web du monde et de les proposer aux utilisateurs selon les termes de leurs recherches. Il ne faut pas être un génie pour saisir la raison pour laquelle les publicitaires ont vu dans ce concept une véritable mine d'or. Apparaître en tête des résultats d'un moteur de recherche, c'est devenir célèbre. Mais pour cela, il faut d'abord comprendre comment ils fonctionnent.
Essayons d'entrer une requête dans Google, par exemple. Notre recherche s'effectuera en moins d'une fraction de seconde et devrait nous proposer plusieurs millions de résultats. Assurément c'est impressionnant, mais ça serait une erreur de penser qu'au moment où nous avons pressé le bouton « Recherche », Google s'est prestement lancé à travers la Toile pour trouver, analyser et nous rapporter dix millions de sites pertinents en deux dixièmes de secondes. En réalité, cette rapidité s'explique par le fait que la recherche ne s'effectue que dans l'énorme index de pages web que compile le moteur de recherche lui-même. Chaque moteur possède ainsi une base de données interne, qui recense plusieurs milliards de pages web, triées et classées selon un algorithme propre à chaque moteur. A savoir que ces milliards de pages n'englobent pas tout le web, mais au moins une bonne partie.
Reste une question : comment le moteur de recherche va-t-il déterminer quelles pages il va intégrer à sa base de données et stocker sur son serveur ? C'est le rôle des robots d'indexation. Aussi connus sous les noms de robots d'exploration, crawlers ou encore spiders, ces logiciels spéciaux parcourent continuellement le web à la recherche de pages Internet récemment ajoutées ou mises à jour. Non contents de découvrir de nouvelles pages en les suivant de lien en lien, les robots retournent plus ou moins régulièrement sur celles déjà indexées pour vérifier d'éventuelles modifications. Chaque moteur de recherche dispose de son propre robot, équipé de sa propre programmation. Ainsi, le robot d'indexation de Google, nommé Googlebot, est connu pour vérifier plus souvent les pages fréquemment mises à jour (par exemple, les pages d'un site d'actualité est vérifié toutes les heures, alors que les pages plus statiques sont visitées une à deux fois par mois). Le robot va lire chaque page rencontrée puis la copier à l'identique dans l'index de son moteur de recherche. Puisqu'il connaît le texte de toutes les pages, le moteur peut ainsi générer les résumés de deux lignes qui accompagnent les résultats d'une requête, et c'est en fonction de ces textes enregistrés que le moteur va savoir quels sites sélectionner et comment les organiser quand on les lui demandera. Ainsi, lorsque l'on soumet des mots clés sur Google, on ne parcourt pas Internet mais l'index des pages enregistrés par le robot d'indexation Googlebot. Le robot va ensuite les classer selon la pertinence et la répétition de ces mots clés dans les plusieurs milliards de pages que le moteur de recherche a mémorisé, et les afficher sur une page de résultats en moins d'une seconde.
Si le principe est simple en théorie, il est plus complexe dans la pratique, en raison du fait que chaque moteur de recherche indexe plusieurs milliards de pages web. C'est là qu'entrent en jeux les algorithmes de classement, et c'est ça qui va nous intéresser en matière de publicité. En effet, si l'on désire utiliser les moteurs de recherche pour assurer la promotion d'un site web particulier, il sera surtout question de lui assurer une bonne place dans les résultats. Cette méthode promotionnelle a un nom : le référencement naturel, et il a pour but d'exploiter le fonctionnement des algorithmes de classement des moteurs de recherche.
Puisque c'est lui qui nous intéresse, penchons-nous sur l'algorithme de Google, le PageRank. En effet, le but de Google, lorsqu'il propose ses résultats aux internautes, est de les aider en sélectionnant en priorité les pages qui lui semblent les plus pertinentes. Mais selon quels critères établit-il un ordre de pertinence ? La composition de l'algorithme de Google est un secret farouchement gardé, et sans entrer dans les détails techniques, il est composé de trois ingrédients essentiels : premièrement , l'analyse du texte de la page, selon le nombre et la pertinence des mots clés utilisés, raison pour laquelle une page essentiellement constituée d'images ou de vidéos sera pratiquement invisible aux robots d'indexation, et donc peu pertinente pour Google. Deuxièmement, l'indice de PageRank, qui mesure la popularité et l'importance d'une page en étudiant le nombre de liens qui y pointent. Le moteur de recherche attribue donc à chaque page son propre indice de PageRank, qui influencera sa position dans la page de résultats de Google (plus il existera de liens entrant vers une page précise, plus son indice sera élevé et plus elle aura de chances d'apparaître en tête des résultats Google). Enfin, le texte des liens sera également étudié afin de vérifier qu'ils renvoient vers des pages en rapport avec la requête. Dans le même ordre d'idée, le texte et l'indice PageRank des liens entrants vers la page concernée est également prix en compte. Ainsi, pour un site de vente de fournitures gastronomiques, un lien provenant du site d'un restaurant aura plus de valeur qu'un lien entrant depuis un site de fitness.
Le phénomène Google
Sur les centaines de millions de sites existant sur le web, lequel peut être le plus visité au monde ? Sans surprise, il s'agit de Google. Et ça n'a rien d'étonnant, quand on sait qu'un moteur de recherche est une porte vers l'ensemble de la Toile (une personne sur deux se rendrait sur un site via un moteur de recherche), et que de par son algorithme et son efficacité, Google est le n°1 des moteurs de recherche. Selon Médiamétrie, la firme américaine serait détentrice de plus de 90% de parts de marché en France (la deuxième place revenant à Bing, avec seulement 3% de parts de marché). Ce n'est pas rien, et c'est pour toutes ces raisons qu'il est primordial pour un site d’apparaître en bonne position dans les résultats de Google.
Mais Google, c'est quoi ? Attardons-nous sur un peu d'histoire. C'est à l'université de Stanford, en 1996, que Larry Page et Sergey Brin se mettent à travailler sur BackRub, le moteur de recherche de l'université. Il ne faudra pas un mois pour que le site se mette à consommer une part trop importante de bande passante, et c'est en 1997 que le nom de domaine « google.com » est enregistré. Un an plus tard, l'équipe se trouve des financeurs et Google est officiellement lancé. Il ne faudra pas un an pour qu'il devienne le meilleur des moteurs de recherche. Dès lors, c'est l'escalade : l'entreprise reçoit plusieurs millions de dollars de financement en 1999, et développe son programme publicitaire payant AdWords en 2000. En 2004, elle recense déjà six milliards de pages, est introduite en Bourse et lance son système de messagerie Gmail. Les fonctionnalités Google Maps, Google Earth, Google Talk et Google Analytics suivront en 2005. En 2008, alors que la firme fête ses dix ans, elle recense un trillion de pages et propose son propre navigateur web : Chrome, le navigateur le plus utilisé en France en 2012, devant Internet Exporer et Mozilla Firefox, d'après StatCounter. Cela fait beaucoup de chiffres et de dates, mais nul besoin de pousser l'analyse plus loin pour saisir l'omnipotence que Google a acquis en à peu près quinze ans d'existence.
Google est donc indéniablement un géant de la Toile, mais ça serait mentir que de prétendre qu'il est le seul moteur de recherche efficace sur le web. Si l'on se penche quelques secondes sur sa concurrence, on s'aperçoit toutefois qu'elle est peu nombreuse et relativement peu dangereuse. Nous pouvons en tout cas citer deux autres moteurs de recherche qui pourraient retenir l'attention des annonceurs :
- Bing. C'est le deuxième plus grand moteur de recherche en France (troisième aux États-Unis), avec une part de marché de 3% en 2012 (voir graphique plus haut). Anciennement connu sous les noms de MSN Search, Windows Live Search puis tout simplement Live Search, Bing est la dernière version du moteur de recherche mis au point par Microsoft. Lancé seulement en 2009, il n'aura mis qu'un an pour dépasser Yahoo! en termes de popularité, ce qui fait de ce projet un succès, surtout au regard des autres tentatives de moteur de recherche de l'entreprise. Selon les dires de Microsoft, il ne s'agit pas là d'un simple moteur de recherche mais d'un « moteur de décision », un outil intelligent qui met davantage l'accent sur la qualité que sur la quantité dans ses résultats. Dans les faits, il reste pourtant beaucoup plus facile de profiter des failles de l'algorithme de classement de Bing pour remonter facilement dans les résultats. Le moteur n'analysant ni l'originalité de la page ni la pertinence des mots clés, il suffira à un annonceur d'ajouter une abondance de liens entrants et de mots clés descriptifs pour améliorer son classement.
- Yahoo! est plus vieux que Google, mais cela fait longtemps qu'il a perdu sa première place. En 2012, sa part de marché était de l'ordre de 1,2% en France et est toujours en chute libre. L'algorithme de Yahoo! accorde davantage d'importance au contenu rédactionnel de la page. Ainsi, pour bien se faire voir aux yeux du moteur de recherche (également créé par deux étudiants de Stanford), il suffira de privilégier en priorité les titres descriptifs et une rédaction soignée, où apparaîtront explicitement les mots et expressions clés. Un des inconvénients de Yahoo! est sa page d'accueil, beaucoup plus chargée que celle de Google ou de Bing. En réalité, il s'agit moins d'une page d'accueil que d'un portail, où se côtoient de multiples informations de tout poil (actualités, vidéos, sites favoris,...). Ses utilisateurs ne s'en servent pas uniquement que pour son moteur de recherche, ce qui confère à Yahoo! des usagers beaucoup grand public. Information supplémentaire : il y a quelques années, Bing et Yahoo! ont tous deux signé un accord de partenariat afin que les résultats de Yahoo! soit alimentés par l'index de Bing. Ainsi, les interfaces et les algorithmes de classements diffèrent toujours, mais la base de données de pages web est commune aux deux moteurs de recherche.
Google est intéressant à plusieurs niveaux. Premièrement, en raison de sa suprématie évidente sur le marché des moteurs de recherche : si un site désire améliorer sa position sur un moteur de recherche, c'est sur Google qu'il devra travailler. Deuxièmement, de par son nombre impressionnant d'utilisateurs, le site touche un public à la fois très large et très varié, ce qui le rend idéal pour la plupart des types de communication. Certains moteurs de recherche (comme Yahoo!) ont surtout fidélisé le grand public ; Google, lui, a réussi à attirer les technophiles autant que les technophobes. Ce n'est pas la peine de chercher très loin : puisque la majorité des internautes utilise Google, celui-ci est très probablement le moteur par défaut de la plupart des navigateurs web. Hélas, il est ici beaucoup plus difficile de tricher pour monter en tête des résultats. Pour optimiser un site aux yeux de l'algorithme de Google, il s'agira surtout d'en améliorer le contenu via des textes originaux et informatifs. Essayer d'exploiter le système en répétant des mots clés ou en insérant des suites incohérentes de phrases ne fera que baisser la valeur de la page. En définitive : plus un site est naturellement meilleur que ses concurrents, mieux il sera placé dans les résultats sans avoir à tricher outre mesure.
Bien entendu, Google a rapidement réalisé les opportunités publicitaires qu'offrait son moteur de recherche, et c'est tout naturellement qu'il a proposé plusieurs manières d'améliorer la visibilité des sites qui le désireraient. Il en existe deux :
- La Search Engine Optimization (SEO) : l'« optimisation pour les moteurs de recherche », également appelée référencement naturel, est cet ensemble d'astuces visant a améliorer le contenu et l'écriture d'une page web afin de booster son positionnement dans les résultats de Google. Cette méthode a l'avantage d'être (presque) gratuite et de fonctionner à long terme, mais elle n'est ni facile à mettre en œuvre, ni particulièrement efficace en ce qui concerne le ciblage géographique.
- Le Search Engine Advertising (SEA) : la « publicité pour les moteurs de recherche » est la version payante et optimisée du programme publicitaire de Google : AdWords. Il s'agit de ces encarts dorés présents dans les parties droite et supérieure des pages de résultats Google (voir graphique ci-dessous), mis davantage en évidence que les résultats dits naturels (ou « organiques »).
Ces deux méthodes promotionnelles sollicitent des résultats différents, qui sont tous les deux présents sur chaque page de requête Google. Pour donner un exemple, le schéma ci-dessous les illustre très bien :
Nous le voyons. Ces résultats s'affichent sur la même page et répondent à la même requête, toutefois ils relèvent de logique et de fonctionnement tout à fait différents en termes de promotion. Mais quelle est leur efficacité publicitaire ? En quoi, pour reprendre le tableau d'analyse que nous avons appliqué aux médias du point 3, ces deux méthodes promotionnelles fonctionnent au niveau local ? Pour cela, il faut nous pencher plus en détail à la fois sur la SEO en cliquant ici, ou sur le SEA en cliquant juste là.
———
Précédent