INRA SenS

Axe « Plateforme CorTexT »

Participants à l’Axe  : Cointet J­‐P (IR), Turenne T (CR), Breucker P (IE), Barbier M (DR), Mazieres A (CJS), Duong T-­‐K (CDD), Mogoutov A (CDD)

Lien : http://www.cortext.net

La Plateforme Numérique CorTexT du LabEx SITES propose de répondre aux besoins de chercheurs menant des études empiriques dans les domaines des études sociales de la science et des techniques en société. Le travail de développement de l’interface en ligne, appelée CorText Manager (http://manager.cortext.net), a duré 3 ans (2011-­‐2013) avec une équipe réduite. Il a reposé sur le soutien financier déterminant de l’IFRIS puis du LabEx, dont cette plateforme était un projet stratégique.

Pour concevoir cette plateforme, il s’est agi de déployer une réflexion scientifique et technique sur le traitement et l’analyse de corpus textuels afin de rendre possible aux usagers (des chercheurs en SHS) l’étude et l’analyse de dynamiques sociales, politiques et sémantiques qui sont des verrous dans leurs travaux. Les besoins des chercheurs reposent en effet sur des sources très diverses (plateformes de publications scientifiques, bases de données de presse, données de forum, tableaux de donnés classiques, etc.) dont le traitement initial produit des corpus textuels de toutes tailles. La plateforme vise donc à leur permettre de déployer leurs analyses à partir de différents modules ou « scripts » : traitement du langage naturel (extraction terminologique), caractérisation fréquentielle, visualisation de graphes relationnels, reconstruction des réseaux hétérogènes, et cartographie de leur structure et de leur dynamique temporelle. La mise en place du CorText Manager a nécessité de réunir ces compétences variées allant de la modélisation des réseaux socio-­‐sémantiques à l’ingénierie web en passant par la visualisation de données. Les développements informatiques mis en place ont consisté à proposer une application web, donc ouverte à des usagers distants identifiés et inscrits par une validation humaine. Les développements internes ont visé : la structuration des jeux de données sous forme de bases de données, l’implémentation informatique d’algorithmes, le développement de capacités d’affichage et de visualisation de connaissances. L’ensemble a reposé sur le développement d’une architecture et d’un design de l’interface, réfléchi chemin-­‐faisant (2 versions à ce stade).

Le mode de développement et le choix d’une application web contient le projet d’une implémentation directe de nouvelles capacités d’analyse et de visualisation qui voit donc ses capacités d’analyse croître continûment. Ce travail de développement s’est fait en co-­‐conception, soit du fait des compétences transdisciplinaires de l’équipe de conception, soit du fait de la proximité avec des primo-­‐usagers susceptibles de spécifier des objectifs d’analyses. La réflexion foncière sur les algorithmes a beaucoup reposé sur la thèse de Jean-­‐Philippe Cointet (Cointet, 2009), sur les conseils scientifiques d’Andrei Mogoutov, et grandement profité d’un partenariat avec l’ISC-­‐PIF. Le développement de l’interface doit beaucoup aux ingénieurs associés au développement et au design (Philippe Breucker et Tam-­‐Kien Duong).

La plateforme propose une application en ligne et une capacité d’appui méthodologique pour la construction de jeux de données et d’analyse en lien très direct avec des projets de recherche. Bien que l’application en ligne soit d’accessibilité facile, le paramétrage des analyses et des fonctionnalités de visualisation requièrent des compétences minimales en traitement du langage naturel et en analyse de réseaux sociaux. De façon à former des usagers moins avertis, l’équipe de la plateforme propose des ateliers de formation à la communauté de recherche, ou bien inclus un ou des membres de l’équipe dans des projets de recherche pertinents. Ce n’est donc pas un projet d’informatisation mu par un objectif de création d’unité de service, mais plutôt un genre de plateforme d’humanité digitale qui cible un certain type d’analyse fondé sur la notion de corpus textuel. Le "CorTexT Manager", ouvert il y a un an et demi, compte déjà près de 500 utilisateurs, l’outil étant régulièrement utilisé dans un cadre plus large, notamment pour des études de domaines de recherche et à l’étranger (notamment Pays Bas, Allemagne, Russie, Canada, Etats-­‐Unis). Des actions de présentations et formations publiques sont d’ailleurs régulièrement organisées pour susciter de nouveaux usages. La nouvelle version (V.2) de la plateforme sera en ligne en novembre 2013 et affirmera encore plus la dimension « instrument pour l’analyse » en permettant un travail d’analyse sous forme collaborative. Sont également renforcées la visualisation des cartes de réseau et la possibilité de les annoter. De nouveaux projets de développement sont en cours, sur deux fronts : l’un sur l’augmentation des traitements de corpus textuels issue directement du Web, l’autre sur l’augmentation du traitement du langage naturel à partir de solutions d’extraction d’informations associées à une analyse sémantique de l’argumentation.

Les activités ingéniériques sont liées à une activité scientifique foncière et nécessaire pour la qualité des développements comme pour assurer que le travail de co-­‐conception repose sur un travail interdisciplinaire approfondi entre chercheurs des Sciences Humaines et Sociales et les chercheurs et ingénieurs des sciences de l’Information et de l’informatique. Jean-­‐Philippe Cointet a été très actifs pour mobiliser des réseaux nationaux (notamment via l’ISCPIF dont l’Unité INRA SenS est membre) et internationale (notamment au MIT). Ce travail a permis de renforcer les choix scientifiques et méthodologiques à différents niveaux selon que les avancées touchent à des questions très théoriques (comme la théorie des graphes par exemple), mais aussi à des questions abordées dans la sociologie des usages numériques ou la sociologie des sciences. La thèse CSJ en cours de A. Mazières porte sur le rétro-­‐ingénierie en recherche, et des avancées importantes devraient découler de l’investigation de ce nouveau domaine. L’informatique est une composante essentielle pour la mise en place de tout traitement de données. Un partenariat a vu le jour avec l’UMR Informatique de l’UPEM et son groupe Informatique Linguistique (InfoLingu), équipe de l’axe ‘modèles et algorithmes’ du LIGM (Laboratoire Informatique Gaspard Monge), reconnu dans la communauté du traitement automatique du langage naturel (LabEx BEZOUT -­‐ Modèles et algorithmes : du discret au continu). Cette équipe est particulièrement active dans le développement de nouvelles méthodes d’analyse de graphes et d’automates (plateforme UNITEX) et d’analyse de grammaires locales basé sur la création d’automates à états finis. En 2012-­‐ 2013, une coopération rapprochée a vue le jour sur le traitement des données de l’ERA-­‐Net Biodiversa. Il est prévu d’intégrer les scripts au frontal web de l’interface homme-­‐machine de la plateforme technologique Cortext.

Enfin, au sein du groupe de travail CorText, un séminaire occasionnel piloté par Nicolas Turenne a permis de conduire des discussions scientifiques et techniques (11 séances entre mars 2011 et Juin 2013). A l’issue de ces échanges, on peut citer Elise Tancoigne qui sera engagé pendant 2 ans à partir de décembre 2013 comme chercheuse sur contrat, Cristian Martinez recruté en thèse depuis octobre 2013 avec une bourse du ministère et Philippe Gambette (MCF à l’UPEM) travaille depuis septembre 2012 sur le projet Biodiversa en TextMining.

INRA © INRA SenS (INRA Unité de Recherche 1326) - IFRIS | | Plan du site | Suivre la vie du site RSS 2.0