23.03.2009

Présentation de la plateforme CorTexT de l’IFRIS

Contexte et enjeux

La mise à disposition, sur internet, d’un nombre toujours croissant de ressources constitue un terrain d’étude privilégié pour l’analyse de données textuelles. Le traçage des activités scientifiques et de l’innovation dans les bases de données scientifiques, les bases de brevet et les bases de projet livre une information détaillée pour analyser la production scientifique.

Devant cette masse de données plus ou moins structurée, les travaux scientifiques en sciences humaines et sociales sur la recherche et l’innovation doivent désormais se confronter à l’analyse de grands corpus hétérogènes de données pour à la fois caractériser et prendre la mesure des phénomènes qu’ils étudient.

Réponses apportées par la plateforme

Ces deux exigences nécessitent l’utilisation de recherches et outils développés dans différents domaines scientifiques et techniques pour comprendre les mécanismes impliqués : le traitement automatique de la langue, l’extraction d’information, l’ingénierie des connaissances, la sociologie des réseaux, la scientométrie, l’analyse de controverses et la sémiotique.

Pour appuyer le travail d’analyse et d’interprétation des problématiques rencontrées au sein de l’Institut francilien « Recherche, Innovation et Société », l’IFRIS développe une plateforme technologique appelée « CorTexT » visant le traitement de grands corpus textuels à des fins de recherche, d’expertise et de formation. CorTexT est un projet soutenu par l’Unité de recherche UR SenS 1326 de l’IFRIS.

Objectif

L’objectif est de mettre à disposition des équipes partenaires de l’IFRIS des outils, des chaînes de traitement, des procédures et des méthodes pour aider les chercheurs à traiter, caractériser, analyser et quantifier des données textuelles organisées

Pour cela, l’équipe CorTexT met à disposition des compétences et des outils de façon à servir deux types d’approches complémentaires :

L’analyse numérique de données. Les outils mis à disposition prendront la forme d’indicateurs de positionnement de l’individu et de caractérisation du collectif, dans la mouvance des réflexions actuelles sur la bibliométrie. Dans ce cadre, les principales sources de données sont les bases structurées de production scientifique (articles, citations, brevets…).

Les analyses distributionnelles et relationnelles. A partir des données textuelles souvent hétérogènes, disponibles sur internet, il s’agit de montrer l’ensemble des relations qui existent entre différentes notions ou acteurs en vue de décrire un espace particulier (un thème, une région, un débat, une controverse, une discipline…). Un exemple classique serait, par exemple, d’analyser des comptes rendus de débats publics (blogs, journaux, …) pour rendre explicite les relations entre acteurs et arguments au sein de controverses.

CorText

IFRIS, Université Paris-Est

5 boulevard Descartes

77420 Champs Sur Marne

equipe@cortext.fr