29.03.2011

Plateforme CorTexT : contexte, enjeux et objectifs

1. Contexte

Les problématiques de recherche de l’IFRIS s’articulent autour de six programmes qui associent des opérations de recherche, de formation et d’animation sur la thématique Recherche–Innovation-Société. Ces programmes conduisent à la nécessité d’opérer des traitements et des analyses sur des corpus textuels de nature et de taille variables. Les SHS, à l’IFRIS - et très certainement de façon plus générale- font alors face à trois enjeux majeurs :

(1) la mise à disposition, sur internet, d’un nombre toujours croissant de ressources constitue un terrain d’étude privilégié pour l’analyse de données textuelles ;

(2) le traçage intensifié des activités scientifiques et de l’innovation dans les bases de données scientifiques, les bases de brevet et les bases de projets livre une information détaillée pour analyser la production de connaissances scientifiques ;

(3) les chercheurs en sciences sociales sont eux aussi producteurs de texte à travers leur propre travail d’enquête et de production de données et se pose des questions de traitement de corpus de textes

Devant cette masse de données, les travaux scientifiques en sciences humaines et sociales sur la recherche et l’innovation en société doivent désormais se confronter à l’analyse de corpus hétérogènes pour à la fois : fouiller dans des masses importantes d’information ; caractériser des phénomènes liés à la production-circulation-mobilisation de différents types de connaissances ; et prendre la mesure des phénomènes étudiés à la fois sur le plan sociétal et dans leurs conséquences sur les mondes vécus.

Ces exigences de la fouille, de la caractérisation et de la mesure nécessitent l’utilisation de recherches et outils développés dans différents domaines scientifiques et techniques pour comprendre les mécanismes impliqués, comme : le traitement automatique de la langue, la recherche d’information, l’ingénierie des connaissances, la sociologie mathématique des réseaux sociaux, la scientométrie, l’analyse de controverses et la sémiotique. De plus, il s’agit également de pouvoir appareiller sur le plan informatique aussi bien l’extraction, le stockage, et les flux, que la mise en réseau des données, des outils et des utilisateurs, sans compter qu’il faut supporter l’animation et la coordination des activités.

2. Identité : un laboratoire numérique pour les SHS

La plateforme CORTEXT de l’IFRIS est une réponse à ces enjeux et à ces exigences. Elle peut-être qualifiée de technologique dans la mesure où elle agence des machines et des outils logiciels, des compétences et des savoirs pour conduire ces agencements dans des activités de traitement de corpus textuels principalement à des fins de recherche, mais sans négliger le fait que des contexte d’expertise et de formation sont à prendre en compte.

La plateforme technologique de l’IFRIS se positionne comme un genre particulier de laboratoire numérique centré sur l’exploitation et l’analyse de données textuelles hétérogènes engendrées par les nouvelles technologies de l’information et de la communication. La plateforme est à la fois un lieu physique d’accueil et un espace numérique collectif regroupant des outils informatiques, des méthodologies et des compétences pour traiter les grands corpus textuels.

Il s’agit d’un dispositif localisé de veille, d’appui à la recherche et d’expérimentation méthodologique pour les Sciences Humaines et les Sciences Sociales qui peuvent exister et être conduite en projets ou en réseaux délocalisés. L’ambition de la plateforme est donc d’équiper les SHS en outils et méthodes innovants pour traiter ces nouveaux objets en fondant la construction d’une expérience pilote en la matière. CorTexT, situé dans des locaux de l’université Paris-Est à Marne-la-Vallée mis à disposition pour l’IFRIS, est un centre visible et équipé sur lequel commence à être inter-opérés des projets de recherche en collaborations, des ateliers de formation-recherche ou des démarches exploratoires individuelles ou collectives ainsi que les activités du « pôle Indicateurs ». Un noyau de personnes a commencé à développer cette plateforme, mais elle invite ceux qui veulent contribuer à son développement à les rejoindre. Cela n’obère pas de la constitution d’un cercle de chercheur-partenaires intéressés par un suivi rapproché de cette expérience pilote et une contribution à la réflexion. Enfin tous les chercheurs de l’IFRIS, voire d’autres à partir du moment où des projets IFRIS engageraient des collègues chercheurs hors du GIS, sont invités à composer le collectif humain de la plateforme.

3. Objectifs

Par les projets dans lesquels la Plateforme est engagée, l’objectif est de créer et mettre en place des approches et des instruments reproductibles au niveau du collectif de recherche de l’IFRIS. La valeur ajoutée attendue est donc essentiellement :

- dans la constitution et le partage de chaines de traitement et

- dans le maintien et le développement ciblé de compétences et d’outils basé sur des algorithmes originaux pour y parvenir.

Cela se traduit par un objectif de déploiement et de développement d’outils, de méthodes et de procédures de travail.

- des outils et des chaînes de traitement semi-automatisées ou automatisées,

- des compétences sur site ou en réseau de pratiques,

- des procédures de travail pour des individus ou des petits collectifs

- une capacité à produire des méthodes sur des problèmes spécifiques

Réaliser des projets de recherche

La plateforme veut rendre possible deux types d’approches et les inter-opérer dans des projets de recherche ou de production d’indicateurs :

- L’analyse numérique de données. Les outils mis à disposition prendront la forme d’indicateurs de positionnement de l’individu dans sa communauté scientifique et de caractérisation du collectif, dans le cadre des réflexions actuelles sur l’évaluation scientifique qui vont au-delà des approches bibliométriques classiques. Dans ce cadre, les principales sources de données sont les bases structurées de production scientifique (articles, citations, brevets...) qui fournissent des jeux de données calibrées.

- Les analyses distributionnelles et relationnelles. A partir des données textuelles souvent hétérogènes, disponibles sur internet de façon plus ou moins aisée, qualifiées de données non calibrées, il s’agit de montrer l’ensemble des relations qui existent entre différentes notions ou acteurs en vue de décrire un espace particulier (un thème, une région, un débat, une controverse, une discipline, un domaine en constitution...). Un exemple classique serait, par exemple, d’analyser des comptes rendus de débats publics (blogs, journaux, ...) pour rendre explicite les relations entre acteurs et arguments au sein de controverses.

Former des jeunes chercheurs

La plateforme doit, pour s’insérer dans les pratiques des chercheurs en SHS, sensibiliser et former les jeunes chercheurs (doctorants et post-doctorants) de l’IFRIS aux techniques et outils d’analyse de données textuelles et de visualisation. Des ateliers de formation seront montés dès 2009 dans cette optique. Ils seront animés par l’équipe de la plateforme et son réseau de collaborateurs.

La formation à la recherche par l’apprentissage et la maîtrise de techniques de traitement avancées est, comme pour les disciplines des sciences dites de la « Nature », une exigence de la recherche de pointe, finalisée ou fondamentale. Il s’agit donc de pouvoir et savoir très vite mettre à disposition la plateforme CorTexT au service de projets d’étudiant en master M2 ou en doctorat. C’est aussi dans ces contextes que peuvent émerger des relations entre la conception et l’usage d’outils ou de routines sur des expériences pilotes.

Assurer une veille technologique et la formation de l’équipe de la plateforme La plateforme technologique est également un cadre de formation et d’acquisition de nouvelles compétences pour l’équipe en charge du projet. Une activité de veille soutenue sera menée et donnera lieu à la rédaction de fiches technologiques. Ces fiches seront mises à disposition de la communauté sur le portail Web de la plateforme.

Avec la création d’une telle plateforme se joue la montée en puissance des compétences méthodologiques de l’équipe pour ainsi donner accès à des traitements de plus en plus avancés. On pense ici notamment au verrou que représente la visualisation de données.

Exploration et création technologique, recherche et développement en Knowledge Dynamics La plateforme assure également des activités de recherche et développement directement en créant des outils et des méthodes, mais aussi en inscrivant le travail conduit dans des communauté de développement informatiques ou dans des communautés scientifique concerné par les sciences de la complexité, l’intelligence artificielle et le traitement automatique de la langue.

La plateforme CorTexT entend ainsi faire connaître son travail dans ces communautés et donner des perspectives d’insertion scientifique et technologique pour permettre aux ingénieurs de valorisation correctement leurs résultats. Ainsi la création technologique et la fonction de laboratoire de solution numérique doit être associé à une activité de spécifications des solutions et de certifications des connaissances. C’est une condition importante pour pérenniser une ingénierie se renouvelant.

CorText

IFRIS, Université Paris-Est

5 boulevard Descartes

77420 Champs Sur Marne

equipe@cortext.fr