Mercredi 24 octobre

  • 10h30 : accueil
  • 11h00-12h15 : Session 1. Introduction au domaine (Mohand Boughanem, IRIT, Université Paul Sabatier de Toulouse)
  • Déjeuner
  • 14h00-15h30 : Session 2. Modèles de RI (Éric Gaussier, LIG, Université de Grenoble)
  • Pause
  • 16h00-17h30 : Session 3. Logiciels pour la RI (Michel Beigbeder, École des Mines de Saint-Étienne)
  • 18h00-19h00 : Doctoriales 1.
  • Dîner

Jeudi 25 octobre

  • 8h45-10h15 : Session 4. Evaluation et collection-tests en recherche d'information et catégorisation de textes (Jacques Savoy, Université de Neuchâtel)
  • 10h45-12h15 : Session 5.  RI et Apprentissage Automatique (Massih-Reza Amini, LIG, Université Joseph Fourier, Grenoble)
  • Déjeuner
  • 14h00-15h30 : Session 6. Approches génériques du Traitement Automatique des Langues pour la Recherche d'Information  (Patrice Bellot, LSIS, Université d'Aix-Marseille)
  • 16h00-17h30 : Session 7. Détection de sentiments (Vincent Guigue, LIP6, Université Pierre & Marie Curie, Paris)
  • 18h00-19h00 : Doctoriales 2.
  • Dîner
  • 20h30-22h00 : Table ronde

Vendredi 26 octobre

  • 8h45-10h15 : Session 8. RI contextuelle, mobile (Lynda Tamine-Lechani, IRIT, Université Paul Sabatier de Toulouse)
  • 10h45-12h15 : Session 9. RI sociale (Maarten de Rijke, ILPS - ISLA, University of Amsterdam)
  • Déjeuner

Résumés des cours et accès aux présentations

1. Introduction au domaine (Mohand Boughanem, IRIT, Université P. Sabatier)

Télécharger la présentation "Introduction RI" (PDF)

2. Modèles de RI (Éric Gaussier, LIG, Université de Grenoble)

Nous abordons dans ce tutoriel les principaux modèles de recherche d'information (RI), en mettant l'accent sur leurs caractéristiques et en explicitant les algorithmes associés. Nous passerons rapidement en revue les modèle booléen et vectoriel avant de nous concentrer sur les modèles probabilistes, qui sont les plus performants à l'heure actuelle. Nous verrons en particulier le modèle d'indépendance binaire ainsi que les modèles de langue, puis nous intéresserons pour terminer à une approche probabiliste développée au début des années 2000 et fondée sur la théorie de l'information (modèles de déviation par rapport à l'aléatoire et modèles d'information). Nous étudierons aussi une approche axiomatique de la RI qui vise à définir les conditions que doivent satisfaire un bon modèle de RI, et relierons ces conditions aux modèles étudiés.

Télécharger la présentation "Modèles de RI" (PDF)

3. Logiciels pour la RI (Michel Beigbeder, École des Mines de Saint-Étienne)

De nombreux outils logiciels sont disponibles en code source, sous différentes licenses, pour mettre en place des systèmes de recherche d'information. Dans cette présentation, nous évoquerons des critères qualitatifs et quantitatifs permettant d'évaluer ce type de logiciel, depuis le niveau lexical jusqu'aux performances d'efficience et d'effectivité, en passant par le langage de requête et le modèle de calcul du score des documents. Nous ferons un panorama descriptif d'une quinzaine de bibliothèques ou d'outils de recherche d'information. Pour quelques uns de ces systèmes nous montrerons leur mise en œuvre pour des expériences dans le cadre d'une évaluation selon le paradigme de Cranfield.

Télécharger la présentation "Logiciels pour la RI" (PDF)

4. Evaluation et collection-tests en recherche d'information et catégorisation de textes (Jacques Savoy, Université de Neuchâtel)

Dans cette présentation, nous discuterons de l'évaluation en recherche d'information par le biais de collections-tests. Cette forme découle du paradigme de Cranfield et se retrouve dans les principaux forums d'évaluation (TREC, CLEF, NTCIR, FIRE). La description d'un tel forum, des exemples de collections-tests et de tâches complétera cette première partie. Ensuite, nous présenterons les mesures de performance les plus usitées tant en recherche d’information (RI) qu'en catégorisation de textes (TC). Les limites de ces mesures seront également évoquées. Enfin, l'application de tests statistiques, et l'analyse requête-par-requête compléteront cette présentation. Dans notre conclusion, nous nous questionnerons sur la sélection d'une performance de référence (baseline) et portons un regard différent sur les progrès faits en RI et TC.

Télécharger la présentation "Evaluation en RI et Catégorisation de textes" (PDF)

5. RI et Apprentissage Automatique (Massih-Reza Amini, LIG, Université Joseph Fourier, Grenoble)

Télécharger la présentation "RI et Apprentissage automatique" (PDF)

6. Approches génériques du Traitement Automatique des Langues pour la Recherche d'Information (Patrice Bellot, LSIS, Université d'Aix-Marseille)

Ce tutoriel présentera des approches et des applications du Traitement Automatique des Langues (TAL) qui peuvent s'inscrire dans un processus de Recherche d'Information (recherche ad-hoc, systèmes de questions-réponses, extraction d'information). Une première partie présentera différents niveaux de l'analyse linguistique (morphologie, syntaxe, sémantique). Dans une seconde partie, ce sont des méthodes qui sont au centre des systèmes d'extraction d'information qui seront présentées et qui sont destinées, par exemple, à la détection automatique d'entités nommées ou à l'annotation sémantique de textes. Dans une troisième partie, nous réfléchirons à la façon d'articuler les modules logiciels qui leur correspondent dans un système de RI : post et pré-traitements ou bien intégration d'informations linguistiques de haut niveau au sein même des modèles. La question de l'impact de ces méthodes sur les performances de la RI sera bien sûr au centre du tutoriel où nous mettrons en balance robustesse et complexité. Nous montrerons, notamment au travers de l'étude des campagnes d'évaluation internationales (TREC, CLEF...), que de la plupart des tâches de RI correspondent à des problématiques complexes du TAL, qu'il s'agisse de la mise en relation automatique d'entités, du peuplement de bases de connaissances ou de la génération automatique de résumés à partir de requêtes.

Télécharger la présentation "TAL et RI" (PDF)

7. Détection de sentiments (Vincent Guigue, LIP6, Université Pierre & Marie Curie, Paris)

La classification de sentiments consiste à déterminer la polarité d'un texte, savoir si les auteurs sont positifs ou négatifs vis à vis du sujet abordé. Après une brève introduction sur les enjeux économiques liés à cette tâche, nous nous intéresserons à l'historique du domaine. Les principales difficultés de la classification de sentiments (structuration des expressions, prise en compte de la négation, dépendance au domaine…) sont abordées différemment dans les communauté TALN (traitement de la langue naturelle) et ML (machine learning). Ces approches sont intéressantes et complémentaires: après avoir vu le positionnement de chaque solution, nous approfondirons la partie ML. Du point de vue de l'apprentissage supervisé, la classification de sentiments est un problème original: les données étiquetées sont disponibles en quantité quasi-infinie. Nous verrons les différentes représentations et classes d'algorithmes utilisées pour traiter les textes. Nous étudierons les mécanismes de prise de décision et les méthodes de transfert pour traiter le cas multi-domaines. Nous terminerons cet exposé en analysant le comportement des algorithmes en fonction de la taille des bases d'apprentissage et en pointant les enjeux scientifiques encore ouvert.

Télécharger la présentation "Détection de sentiments" (PDF)

8. RI contextuelle, mobile (Lynda Tamine-Lechani, IRIT, Université Paul Sabatier de Toulouse)

La recherche d'information contextuelle est un domaine de recherche qui a émergé vers les années 90, apportant en partie, des solutions aux limites de la recherche d'information orientée système, basée sur l'hypothèse simplificatrice du monde fermé. La finalité d'un processus de recherche d'information contextuel est de délivrer, en réponse à la requête utilisateur, des informations adaptées aux dimensions de sa situation de recherche : centres d'intérêt, géolocalisation, environnement social, etc. Ceci induit deux phases qui sont la modélisation du contexte de l'utilisateur et son exploitation dans le processus de sélection de l'information pertinente.
Ce cours présentera les concepts et les modèles clés de la recherche d'information contextuelle ainsi qu'un panorama des travaux pertinents du domaine en mettant l'accent sur les spécificités de la recherche d'information personnalisée, guidée par les centres d'intérêt de l'utilisateur, et la recherche d'information mobile.

Télécharger la présentation "RI contextuelle, mobile" (PDF)