Jour 1 (PM) - Conférence > 16h00 | La constitution de corpus avec Istex

La constitution et l'exposition d'un corpus documentaire à partir des ressources Istex

Mathilde Huguin (contact)
Institut de l'information scientifique et technique (Inist-CNRS)

Docteure en linguistique française, Mathilde Huguin est ingénieure de recherche à l’Institut National de l’Information Scientifique et Technique au sein de l'équipe Texte & Corpus - Istex.Elle est membre associée au laboratoire ATILF (UMR 7118) depuis 2021 et ses travaux de recherche sont à l'intersection de la sémantique, de la morphologie et de la linguistique de corpus. Depuis 2022, elle est chargée de la valorisation de la plateforme Istex et accompagne les membres de l’ESR dans son utilisation.

Présentation

La plateforme Istex constitue un réservoir de plus de 27 millions de publications scientifiques accessibles à la communauté de l'enseignement supérieur et de la recherche. Par sa mise à disposition de documents en texte intégral, homogénéisés, enrichis et nettoyés, cette ressource représente un matériau de choix pour réaliser des travaux de fouille de textes à des fins de recherche scientifique.

En outre, elle est associée à toute une gamme de services conçus autour de l'API Istex afin de simplifier et de développer son exploitation, notamment par le téléchargement de corpus volumineux (Istex-DL) et par l'exploration et l’enrichissement de ces corpus à l'aide d'un outil dédié au traitement et à la visualisation de données (Lodex).

Cette conférence se propose de présenter la méthode de constitution d'un corpus à partir d’un cas d’usage en utilisant les différents services associés à Istex afin d'obtenir un corpus de qualité qui pourra ensuite être utilisé dans des outils de fouille de textes.

Programme

Constitution d'un corpus spécialisé à partir des ressources ISTEX

  • Construction d'une requête avec le démonstrateur Istex
  • Téléchargement du corpus avec l’outil Istex-DL
  • Exploration du corpus avec l'outil Lodex pour analyser son contenu et en éliminer les éventuelles anomalies (bruit, silence)

Vidéothèque

Focus corpus Istex (5 min)
Conférence ANF TDM 2021

Tutoriels

Tutoriel vidéo API Istex
Tutoriel vidéo Lodex

Personnes connectées : 2 Vie privée
Chargement...