IExpo 2008: Quoi de neuf sur les moteurs de recherche?


Constat

Aujourd’hui : situation monopolistique de Google dans le monde de la recherche sur le Web.
En 2008, le baromètre Xiti annonce 90% de pénétration sur le marché français, 60% pour les USA et 19 milliards de requêtes.

Google s’était démarqué en 1998 par sa simplicité d’affichage face aux portails exhaustifs et lourds qu’étaient devenus les Yahoo, Msn et Altavista.

Pourtant, il semble que désormais Google ait choisi une politique de diversification de ses activités : plus de services permettant ainsi une captivité plus importante de l’utilisateur. On assiste parallèlement à la multiplication des services commerciaux comme Adwords et Adsense.

Voici quelques services de Google:

  • Google CSE

Création de son propre moteur de recherche à partir d’un sous ensemble de Google. C’est un moteur de recherche vertical.
Exemple : opendoar.org

  • Google Docs: suite bureautique en ligne
  • Google Apps: applications professionnelles
  • Google StreetView: Photographies des rues des grandes villes du monde
  • Igoogle: portail personnel
  • ….

Parallèlement la recherche évolue peu et manque de rigueur.

Problèmes :

  • Substitution de mots s‘il croit le changement plus pertinent,
  • Google et les accents : bug du serveur. Il vaut mieux proposer la requête « accent » OR « sans accent »,
  • Problème de comptage des résultats.

Autres moteurs / autres recherches

Les autres moteurs

  • Exalead : recherche professionnelle offrant une recherche avancée très poussée,
  • Yahoo : Système « Glue » et présentation différente des résultats (en test sur Yahoo Inde)
  • Powerset : recherche en langage naturel (seulement sur Wikipedia anglais)
  • Kartoo (cf notre article)

Là où Google aide à trouver l’information, Exalead aide à chercher l’information.

Les réseaux sociaux en terme de recherche

« Le Graal, c’est l’interrogation en langage naturel »

La « social search » s’oppose à l’ « individual search » et passe par plusieurs leviers:

  1. L’appel à la communauté
    • Les listes de discussion
    • Les forums
    • Les services de Q&R
  2. Le problème est alors de trouver la bonne communauté et de savoir mobiliser son réseau. Sinon il faut soit s’adresser à un service généraliste, soit mobiliser un nouveau réseau en le rejoignant, en recherchant dans les archives ou par mots clés.

  3. Les individus pivots
  4. Ces individus sont des agents de confiance: soit je le connais, soit c’est un individu qui me ressemble (mêmes sources, mêmes goûts,…)
    On peut trouver quelqu’un à qui je peux me fier sur des sites comme similicio.us ou who’s website like.

  5. La surveillance des tendances (Buzz tracking)
  6. Les moteurs collaboratifs
  7. Ici, le but est de remettre l’individu au centre du tri. Pour outre-passer les boites noires des moteurs de type Google, on souhaite mettre en avant la transparence, la communauté et la protection de la vie privée.
    Deux méthodes existent : l’hybridation (Swicki, Yoople, Webzie) et le tout collaboratif (Wikia Search, Delver).

Le Web sémantique ou le web des données

Ici, il est question de rendre le web accessible et réutilisable en utilisant de métadonnées mises en place suivant les normes OWL et RDF.

Le Web 3.0 doit étendre la capacité du web:

  • Transformer le web en ontologie, classification
  • Intégrer de la 3D et de l’intelligence artificielle ainsi que du langage naturel

Le flux XML est au centre de cette avancée proposée par le W3C pour transmettre ces informations. Un contrôle de cohérence est toutefois nécessaire.
Il existe aujourd’hui quelques ontologies de sciences naturelles :

  • AGROVOC
  • ITIS
  • Mesh
  • NCI thesaurus
  • Wikipedia
  • Wordnet

L’ontologie permettra le web sémantique dans la mesure où il faut prévoir de:

  • construire un dictionnaire spécialisé pour établir la correspondance des mots et des concepts,
  • construire une logique pour résoudre les problèmes linguistiques,
  • transformer les transcriptions vagues en transcriptions concrètes.

Les moteurs de recherche verticaux

Les moteurs de recherche verticaux ont pour caractéristiques de ne s’intéresser qu’à un corps de connaissance (en l’occurrence, ici, un corps de métier). Cela permet de cibler avant même de commencer une recherche le domaine de connaissance pour éviter les homonymies par exemple et d’accéder directement à des sujets précis.

Dans le domaine de la pharmacie, santé :

  • Medstory
  • Kosmix
  • Searchmedica
  • Medworm
  • Spothealthcare
  • Omnimedicalsearch

Les caractéristiques du marché:

  • Acteurs nombreux (start up)
  • Outils multisupports
  • Interface et ergonomie avancées (Ajax, Classification, simplicité, couleurs…)