A chaque moteur de recherche ses qualités !

Collecter, sur un mot clé très précis ou sur une thématique plus large.
Collecter des actualités, les plus récentes qui soient ou les plus anciennes selon les besoins.
Collecter des images, qu’elles soient accompagnées d’un texte ou non.
Collecter des messages, issus de conversations sur les médias sociaux.
Collecter en absorbant des flux entiers d’informations.
Collecter pour analyser.
Chez Data-Observer, on y passe ses journées.

Pour répondre aux demandes de nos clients, nous combinons diverses approches et solutions de collecte en nous appuyant sur nos propres outils au besoin. Néanmoins, nous restons attentifs aux évolutions de l’ensemble des moteurs de recherche et à leurs spécificités. Tour d’horizon de cet univers où le monopole peut rimer avec la pluralité.

74% des requêtes mondiales, c’est ce que représentait Google en février 2016 [1]. On estime que l’index Google couvre trois fois plus de pages que son cadet Bing (anciennement Live Search, Windows Live Search et MSN Search) [5] (sur lequel s’appuie également  Yahoo), mais cela n’est pas forcément synonyme de qualité étant donné que la vaste majorité des sources existantes sont du “spamternet “. Quelle que soit la taille de l’index et le nombre de résultats revendiqués (le fameux chiffre marqué en gris clair en haut à gauche, surtout ne pas y croire), le nombre de résultats accessibles lors d’une requête ne dépasse pas 1000.

En confiant aux moteurs des requêtes plus exigeantes, la démarche d’analyse devient plus intéressante. Par exemple, dans le cadre d’une collecte extensive de résultats, l’enjeu fondamental est que l’échantillon limité auquel nous avons accès contienne les sources le plus pertinentes. Tous les moteurs offrent des fonctionnalités de recherche avancée, mais décider de s’appuyer sur les unes ou sur les autres peut ne plus simplement être une question d’habitude, mais de nécessité.

creneau_tempImposer un créneau temporel

Ou comment virer cet article de 1999 qui sort toujours en haut. La date associée à un contenu web ne correspond pas forcement à ce que l’on attend. Si la date de création ou la date de dernière modification du contenu peuvent sembler des critères raisonnables, ils ne sont pas toujours évidents à imposer, puisque différentes mises à jour techniques peuvent les écraser.

On risque toujours de se retrouver avec un article datant de quatre ans quand on ne recherchait que l’actualité de la semaine.  Malgré cet aspect, pouvoir restreindre les résultats selon une notion temporelle reste une option très attractive à laquelle on s’accroche rapidement.

C’est peut-être la raison de l’épique facepalm que l’offre Bing ­- aujourd’hui, cette semaine, ce mois, un point c’est tout – déclenche dans le visiteur occasionnel en dehors des États Unis [6].

Chez Google c’est une autre histoire : la sélection de la période souhaitée est une fonctionnalité disponible depuis 2009.

mot_exactMot exact

Parfois l’utilisateur ne se trompe pas. Très bien, qu’il mette les guillemets alors. La discussion s’arrête là chez Google.

Dans l’univers Bing, la vie n’est pas si simple. La guide officielle propose, comme chez Google, d’entourer le mot avec des guillemets pour forcer une recherche exacte, mais souvent ça n’a aucune conséquence. Utiliser deux apostrophes (‘’) au lieu des guillemets (“) semble être la solution, sur certaines requêtes, mais ce n’est pas, quoi qu’il en soit, une syntaxe documentée. En cliquant sur Voulez-vous voir les résultats uniquement pour [mot exact]? une nouvelle recherche est démarrée, ou l’on voit apparaître le signe + devant le mot recherché. Cette option n’existe pas non plus dans la documentation, mais, comme les deux apostrophes, semble être plus efficace que les guillemets officiels. Il reste des cas où quel que soit le symbole utilisé, les résultats ne correspondent pas à une recherche exacte, ce qui rend certains utilisateurs furieux [7]. Ce qui est intéressant est que la précision des réponses augmente considérablement pour des requêtes booléennes. Si les recherches +A “A” ‘’A’’ +B “B” ‘’B’’ n’ont généré que de la frustration, essayer A OR B peut apporter une agréable surprise.

wildcardWildcard searches

À l’autre extrémité des recherches exactes on trouverait – idéalement – des recherches approximatives où, par exemple, on spécifierait simplement la racine d’un mot pour trouver toutes ses possibles “déclinaisons”.

Logiquement, sa syntaxe devrait être : [racine du mot]*. Mais elle n’existe pas. Cela dit, le nombre de résultats étant limité à 1000, cette option resterait anecdotique dans le cadre d’une collecte massive, mais, en tout cas, c’est une fonctionnalité dont l’inexistence surprend souvent l’utilisateur.

En réalité, vu que tous les moteurs de recherche appliquent automatiquement une quelque forme de troncature (stemming) des mots recherchés, on pourrait dire que la fonctionnalité [racine]* est présente par défaut ; l’intérêt de la rendre explicite et gérable par l’utilisateur demeure néanmoins pour des expressions qui n’ont pas une troncature définie à priori. Curieusement ou logiquement, il y a une quinzaine d’année, cette option était prévue par Yahoo! et MSN, entre autres [8]. Les moteurs de recherche déployaient alors un maximum de fonctionnalités. Depuis, ils ont révisé leurs positions, en retirant certaines d’entre elles, notamment celles qui pouvaient sollicitaient le plus ressources.

multimediaMultimédia

Une image du jour comme page d’accueil laisse entrevoir l’atout majeur de Bing : la recherche de contenus visuels. Google s’appuie sur l’alternative textuelle alt text (autrement dit la description concise montrée au lieu l’image lors de problèmes d’affichage), associée à un contenu multimédia pour le classer en termes de pertinence de ses résultats image – plus de froncements de sourcils que de réponses – cette stratégie a clairement une portée limitée.

Chez Bing l’expérience multimédia est d’un autre niveau, avec des résultats précis et filtrables via une liste exhaustive de propriétés. La raison revient à plusieurs aspect de l’approche Bing, dont : entity understanding, la technologie brevetée par Microsoft [9] qui permet d’identifier le type d’entité recherché par l’utilisateur ; le big data, dans ce cas l’intégration de données sur les images cliquées en fonction des requêtes ; la computer vision technology, qui a comme objective celui d’interpréter le contenu d’une image et qui donc, avec la correcte interprétation de la requête, représente le vrai enjeu d’un moteur visuel.

medias_sociauxMédias Sociaux

L’intégration des médias sociaux dans les résultats de recherche est une affaire délicate, sensible même. Qui plus est avec les participations financières des différents groupes propriétaires des moteurs de recherche dans certains réseaux sociaux.

Bing bénéficiant de son actionnariat chez Facebook a eu accès à celui-ci, ainsi qu’à Twitter depuis 2009. De plus, les “signaux sociaux” comme les likes, les plus, le nombre de followers et les partages constituent un des critères les plus importants pour le classement d’une page web chez Bing.

Officiellement, ce n’est pas le cas pour Google, qui déclare [10] ne pas en tenir compte dans son algorithme de ranking (le classement des résultats). Il donne en tout cas aux pages « profils », par opposition aux pages « entreprises », la priorité lors de l’affichage des résultats, avec la malice de mettre en avant G+ [11].

En termes d’accès aux données “sociales”, Google a progressivement rattrapé son retard sur Bing et dorénavant, certains moteurs spécialisés sur les médias sociaux s’appuient même sur son index [12].

API - CopieAPIs (pour Application Programming Interface ou Interface de programmation)

Pour une collecte automatisée et des résultats accessibles sous forme de fichier xml/json, des base de données en somme, la recherche doit passer à travers les respectives APIs et, désormais, au dessus d’un certains nombre de requêtes par mois le service est payant.

Google Web Search API, déclarée obsolète en 2010 et retirée trois ans plus tard, a été remplacée par le Custom Search Engine et Site Search. Le premier permet l’accès à la totalité de l’index, mais impose des limites sur le nombre de requêtes par jours et il devient très cher au delà de 100 premières (gratuites). Site Search se prête à une utilisation plus professionnelle, avec de prix mieux adaptés au volume de requêtes, l’élimination de la publicité et l’assistance technique, mais n’offre pas l’accès full web [13]. Pour beaucoup, ce manque peut-être la raison d’explorer d’autres univers que Google.

En effet, la Bing Search API permet de collecter tous les résultats web et/ou news, images, vidéos de ce moteur, pour un coût pratiquement divisé par deux.

Pour un usage professionnel, autrement dit massif, le choix du moteur peut donc dépendre des caractéristiques de la collecte. Les nécessités d’établir un créneau temporel, de rechercher du texte ou du multimédia, de forcer des mots exactes et – finalement – de pouvoir accéder à la totalité de l’index, ou non, entrent en jeu.

Pour une utilisation personnelle qui ne nécessite pas un accès via APIs, le spectre des choix s’élargit et d’autres considérations peuvent intervenir et finalement définir les pratiques ; par exemple, l’absence de stockage d’informations personnelles et la conséquente neutralité de résultats de recherche est un point distinctif et mis en avant par de moteurs comme DuckDuckGo et le français Qwant.

instantanswerDuckDuckGo se distingue aussi pour la fonctionnalité instant answer, qui a comme objectif de fournir la réponse recherchée sans que l’utilisateur ne soit obligé d’aller la chercher en cliquant sur un page, et les bangs, qui catapultent la recherche directement à l’intérieur d’un site établi.

Chez Qwant, l’affichage des résultats fournis une remarquable expérience utilisateur et le fait que la liste s’arrête avant de montrer des résultats estimés non-pertinents est également une finesse bienvenue.

Difficile de dire, impossible de prédire, si ces tentatives aboutiront à un partage plus équilibré du marché des moteurs de recherche, mais néanmoins, ces initiatives démontrent que de l’inventivité et de la pluralité restent possibles à l’intérieur d’un domaine presque monopolisé est ce, dans l’intérêt de tous.

Francesca,
Responsable R&D chez Data-Observer

Sources / références :

[1] http://marketshare.hitslink.com/search-engine-market-share.aspx?qprid=5

[2] http://www.icrossing.com/uk/ideas/search-engine-infographic-2015-countries-stand-between-google-and-total-world-domination

[3]  https://youtu.be/PuNIwYsz7PI?t=810

[4] http://www.makeuseof.com/tag/whats-bing-rewards-works-whats-new/

[5] http://www.worldwidewebsize.com/

[6] https://binglistens.uservoice.com/forums/283355-ideas/suggestions/7173901-enable-filtering-of-search-results-by-custom-date

[7] https://social.msdn.microsoft.com/Forums/en-US/7bb1887e-6415-4273-8d92-ca6a390cef93/bing-search-api-exact-phrase-match-not-working?forum=DataMarket

[8] http://answers.google.com/answers/threadview/id/38353.html

[9] http://www.seobythesea.com/2015/04/how-bing-may-expand-queries-based-upon-finding-entities-within-them/

[10] https://www.youtube.com/watch?v=udqtSM-6QbQ

[11] https://blog.kissmetrics.com/social-media-and-seo/

[12] https://www.newswire.com/news/new-social-media-search-engine-will-help-users-but-may-worry-yahoo-and-7474213

[13] https://support.google.com/customsearch/answer/4541888?hl=en&ref_topic=4513870