INRA SenS

Séminaire de l’axe "traces digitales" (groupe Cortext)

mardi 12 novembre 2013, par Nicolas Turenne

prochaine intervention

20ième séance du séminaire

jeudi 19 juin 2014

10h-11h30 Milan Bouchet-Valat ( PhD Student, Sciences Po Paris )

Le paquet R "R.temis". Cas d’etude sur un corpus de l’affaire Assange .

Résumé : R.TeMiS est un logiciel libre de statistique lexicale visant à explorer de nouvelles dimensions de l’analyse textuelle avec un accent particulier sur l’analyse du cadrage médiatique. R.TeMiS est spécialement conçu pour fournir une aide dans : a) l’automatisation des procédures de construction et de gestion de corpus issus de grandes bases de données de contenus médiatiques, et b) l’extension de la gamme d’outils statistiques d’analyse textuelle à disposition des chercheurs en sciences sociales grâce au logiciel libre R (tableaux croisés, séries temporelles, classifications hiérarchiques, analyse des correspondances, cartographie). Nous présentons une étude de cas sur le cadrage médiatique du personnage de Julian Assange entre janvier 2010 et décembre 2011, fonée sur l’analyse d’un corpus de 667 dépêches publiées en anglais par les trois principales agences de presse internationales.

11h30-13h00 Serge Heiden (IR, ENS de Lyon)

Philologie numérique et analyse textométrique : analyse de corpus textuels XML structurés et lemmatisés avec le logiciel open-source TXM. 

Résumé : Le logiciel d’analyse de corpus textuels TXM a été initié par le projet ANR Textométrie en 2007-2010 (http://textometrie.ens-lyon.fr) en tant que plateforme de développement mutualisé d’outils de (lexico|logo|texto)-métrie. Elle implémente les outils de textométrie classiques (listes de fréquences, AFC, CAH, concordances, retour à l’édition des textes, etc.). Cette plateforme peut traiter 3 grandes catégories de corpus : les corpus de textes écrits à différents niveaux de représentation (texte brut – TXT ou texte structuré simplement – XML ou texte encodé en XML selon les recommandations de la Text Encoding Initiative – http://tei-c.org), les corpus de transcriptions de l’oral - audio ou vidéo synchronisé (transcription en texte brut ou au format Transcriber) et les corpus parallèles multilingues – (format TMX). Elle délègue l’application d’outils de TAL sur les sources à les appelant à la volée par le biais de plugins (comme le lemmatiseur TreeTagger). Elle intègre un moteur de recherche plein texte (Corpus Query Processor – CQP) à la fois pour construire les observables textuels d’une étude en mobilisant simultanément plusieurs niveaux linguistiques et structurels et pour créer différentes configurations de corpus à la demande (sous-corpus et partitions). Elle intègre le moteur statistique R qui implémente les divers modèles et algorithmes statistiques mobilisés et sert à produire certaines visualisations graphiques. Le logiciel TXM est diffusé gratuitement sous une licence open-source GPL v3 en deux versions différentes partageant les mêmes fonctionnalités de base : TXM pour poste Windows, Mac OS X ou Linux et le portail TXM web pour la mise en ligne de corpus avec contrôle d’accès. Sa communauté d’utilisateurs francophones est organisée autour du wiki ’txm-users’ (https://groupes.renater.fr/wiki/txm...) et sa communauté de développeurs francophones autour du wiki ’txm-info’ (https://groupes.renater.fr/wiki/txm-info).

Liste des interventions

séance 20 - jeudi 19 juin 2014

10h-11h30 Milan Bouchet-Valat ( PhD Student, Sciences Po Paris)

Le paquet R "R.temis". Cas d’etude sur un corpus de l’affaire Assange.

11h30-13h00 Serge Heiden ( IR, ENS de Lyon )

Philologie numérique et analyse textométrique : analyse de corpus textuels XML structurés et lemmatisés avec le logiciel open-source TXM. 

séance 19 - jeudi 22 mai 2014

10h-12h00 Adrien Guille ( PhD Student, Université Lyon-2)

La plateforme SONDY.

séance 18 - jeudi 24 avril 2014

10h-11h30 Karim Fraoua ( Maître de Conférence , DICEN, Université Paris-Est Marne-la-Vallée)

Prise en compte des aspects rationnels et irrationnels d’un joueur pour la conception d’un système d’information .

11h30-13h00 Dominique Cardon ( Chercheur , Orange Lab.)

Le travail des données : les sciences sociales et les données du web.

séance 17 - jeudi 27 mars 2014

10h-11h30 Alexandre d’Aspremont ( Directeur de Recherches, INRIA-ENS projet SIERRA - apprentissage statistique)

Relaxations convexes pour l’ordonnancement de données ADN

séance 16 - jeudi 6 mars 2014

10h - 11h30 Olivier Curé (Maître de Conférence HDR, LIGM, Université Paris-Est Marne-la-Vallée)

Exploitation d’ontologies dans le cadre d’une application médicale pour le grand public

séance 15 - jeudi 13 février 2014

10h-11h30 Philippe Gambette (Maître de Conférence, UPEM LIGM)

Exploration textométrique des thématiques dans un corpus de projets de recherche sur la biodiversité

11h30-13h Mathieu Brugidou (chercheur HDR, EDF)

Le Grenelle de l’environnement : une approche morphologique et formelle avec des logiciels d’analyse des données textuelles, Alceste et Tropes.

séance 14 - jeudi 6 février 2014

10h-11h30 Mathieu Andro ( ingénieur - doctorant, Direction de la Valorisation / Information Scientifique et Technique (DV-IST) & Laboratoire Hypermedia Univ. Paris 8 )

Crowdsourcing et numérisation

11h30-13h Etienne Come (Chargé de Recherches, Grettia, IFFSTAR)

Analyse et visualisation des données Vélib

séance 13 - jeudi 16 janvier 2014

10h00-11h30 Fabian Suchanek (Maître de Conférence, Telecom Paris Tech)

A Hitchhiker’s guide to ontology

séance 12 - jeudi 12 décembre 2013

10h-11h30 Julien Bonneau (post-doc, Ceditec, UPEC)

Variété et variation : émergence d’une synergie (co-)textuelle interprétable ?

séance 11 - avril 2013

Alain Lelu (ISCC –LORIA)

Le clustering : des décennies de solutions partiellement satisfaisantes, et quelques résultats nouveaux.

Emilie Née (UPEC- Céditec)

L’insécurité en campagne électorale : une analyse de discours à entrée lexicale.

Séance 10 - avril 2013

Alain Lelu (ISCC –LORIA)

Les 15 ans qui ont changé le monde de la recherche d’information : réflexions rétrospectives d’un défricheur

Jean-Marc Leblanc (UPEC- Céditec)

Pour une textométrie expérimentale : propositions de visualisations pour l’analyse des corpus textuels

Séance 9 - Juin 2012

Philippe Gambette (UPEM)

La classification arborée et l’outil TreeCloud

Juliette Kahn (LNME)

Evaluation des outils du TAL

Séance 8 - Mars 2012

Cristian Martinez (ESIEE-UPE) , Jean-Philippe Cointet (INRA-SenS), Nicolas Turenne (INRA-SenS)

Evaluations de deux extracteurs de termes avec un corpus benchmark

Séance 7 - Janvier 2012

Elise Tancoigne (Muséum National d’Histoire Naturelle)

Etude scientométrique du domaine de la phylogénie

Séance 6 - Décembre 2011

Antoine Cornuejols (INAPG)

Algorithmes d’apprentissage supervisé

Séance 5 - Novembre 2011

Tita Kyriacopoulou (UPE)

Le projet GramLab

Séance 4 - Novembre 2011

Cristian Martinez (ESIEE-UPE)

Métadonnées pour la fusion de base documentaires bibliographiques

Séance 3 - Novembre 2011

Michel Zitt et Fabien Poulard (INRA Nantes)

Application of Data Compression-Based Distances.

Claude Martineau (UPE)

Entités Nommées : usage et degrés de précision et de désambiguïsation

Andreï Mogoutov (IFRIS), Jean-Philippe Cointet (INRA-SenS) -

Désambiguïsation des noms d’auteurs dans la basée de données d’articles scientifiques du Web of Science.

Cristian Martínez (ESIEE-UPE)

Perspectives pour l’application de la méthode "Gurney/Rathenau" de désambiguïsation des noms d’auteurs à l’aide du framework Scilmarin.

Séance 2 - Juin 2010

Nicolas Turenne (INRA-SenS)

Amélioration de l’algorithme Support Vector Clustering

Séance 1 - Mars 2010

Nicolas Turenne (INRA-SenS)

Algorithme multi-agent stochastique pour classer des gènes et des termes

Venir au séminaire

organisateur Nicolas Turenne (0670795124 ou nturenne . inra @ yahoo .fr)

salle ISC PIF (Institut des Systemes Complexes - Paris Ile de France) grande salle de reunion

113 rue Nationale 75013, Paris

METRO-RER Métro lignes 5 (Place d’Italie) , 7 (Tolbiac) , 6 (Nationale) et 14 (Olympiades) RER C (Bibliothèque Mittérrand).

BUS Bus n° 62, 64 et 83

Voiture
- périphérique par les Porte d’Ivry et Porte de Choisy..

Répondre à cet article

INRA © INRA SenS (INRA Unité de Recherche 1326) - IFRIS | | Plan du site | Suivre la vie du site RSS 2.0