IRCOM

Actualité Table-Ronde "Formats et métadonnées communs"

Compte-rendu de la journée du 23 Juin 2014

Participants (20) : Mathieu Avanzi, Giulia Barreca, Olivier Baude, Christophe Benzitoun, Catherine Bolly, Annelies Braffort, Laurie Buscail, Christian Chanard, George Christodoulides, Carole Etienne, Serge Fleury, Sylvain Kahane, Bernard Laks, Florence Lefeuvre, Myriam Majdoub, Aliyah Morgenstern, Christophe Parisse, Julie Peuvergne, Anne-Catherine Simon, Atanas Tchobanov

Projets et corpus représentés (21) : CFPP Corpus de Français Parlé Parisien, CLAPI, COLAJE, CORALROM, CORPAFROAS, CORPAGE, CRFP, DEGELS1, DICTA-SIGN, ESLO, FLORAL, HPOL, LS-COLIN, LVTI, OFROM, ORFEO, PFC Phonologie du Français Contemporain, PAC Phonologie de l’Anglais Contemporain, RHAPSODIE, TCOF Traitement des Corpus Oraux du Français, VALIBEL

Présentations téléchargeables

Présentation de la table ronde, Christophe Benzitoun

Document Synthèse des besoins à partir du questionnaire envoyé à chaque participant, Carole Etienne

Présentation "Paysage Institutionnel", Olivier Baude (à venir)

Présentation "Vers des métadonnées communes", Carole Etienne

Présentation "Proposition de convention commune de transcription", Christophe Benzitoun à partir de l'atelier coordonné par Philippe Blache dans le cadre de l'Ircom, groupe de travail interopérabilité

Présentation "Vers un format commun de transcription des données orales" , Christophe Parisse et Myriam MAJDOUB

Pré-requis

L'objectif de ce travail collaboratif est de définir un jeu de descripteurs et un format de transcription communs adaptés à l'ensemble des données, il ne s'agit pas d'appauvrir les données existantes en les ramenant seulement à ce sous-ensemble commun ni de tout standardiser au détriment des spécificités de chaque source de données.

Cette "couche" commune servira pour la partie métadonnées aux recherches de données parmi les corpus existants et pour la partie transcription à ancrer les différentes couches d'annotations sur une ligne de transcription commune. Elle permettra également d'utiliser des outils de recherche et de fouille sur tous les corpus disponibles, sans interdire de revenir aux corpus complets une fois qu'ils sont repérés.

Pour les corpus déjà définis

Il n'y aura ni perte d'informations, ni reprise des métadonnées et des transcriptions existantes, la tâche consistera à dégager ces métadonnées communes et la transcription de niveau 0 à partir des métas et des transcriptions d'origine, les originaux resteront disponibles en consultation soit directement depuis les plateformes communes soit par un lien url vers la ressource d'origine.

Pour les corpus à venir

Ce "niveau 0" participera à l'élaboration de bonnes pratiques de constitution et de diffusion des données orales, son apprentissage devrait entrer dans la formation initiale des futurs étudiants mais aussi dans le programme des prochaines écoles thématiques sur l'oral comme sur le multimodal.

Besoins identifiés de manière collective au cours des discussions (voir la synthèse pour les besoins déjà exprimés avant la réunion)

1) Homogénéiser les droits de citation des corpus, rappeler aux relecteurs d'articles ou aux directeurs de thèses d'exiger systématiquement que les sources de données soient bien décrites et citées. Généraliser l'association des dépôts de corpus avec le dépôt des ouvrages scientifiques associés, et rendre possible la mise à jour aisée de ces références bibliographiques.

2) Proposer une gestion commune des droits d'accès aux supports oraux, probablement à partir de l'étude menée par le groupe de travail 5 "Questions juridiques" de l'Ircom ou en lien avec d'autres consortiums, notamment pour résoudre le problème récurrent des anonymisations du signal audio ou vidéo rendant impossibles certaines études (par exemple sur le geste ou la prosodie), réfléchir en particulier aux données sensibles comme les données médicales. Quand les autorisations seront restreintes ou soumises à confidentialité, prévoir une procédure permettant de partager ces données sensibles dans la communauté pour poursuivre les recherches.

3) Lister les outils disponibles par format de transcription comme les scripts de conversion, les scripts d'anonymisation, ...

4) Proposer et diffuser un format commun permettant le partage optimal des données avec les propriétés du niveau 0 de transcription, avec des des extensions possibles à tout domaine de recherche connexe.

5) Définir des bonnes pratiques pour l'alignement des données au signal pour faciliter les annotations (semi-)automatiques par la suite (ex: groupe de tokens courts sans couper un mot ni avoir de tours trop longs), problème de tokenisation (cf expérience de Rhapsodie)

6) Clarifier le dépôt des mêmes corpus dans plusieurs sources : comment les référencer ? comment les partager?

7) Mettre en place une couche de transcription basique "gros grain", rapide à réaliser (donc peu couteuse) qui permettrait des recherches simples sur de grands volumes pour identifier les passages à analyser plus finement

Questions concernant Ortolang

Service offert pour faciliter le dépôt des corpus : formulaire "guidé" pour les métadonnées multi-niveaux

Préciser les formats de dépôt et les droits d'accès

Proposer un alignement transcription/signal et un enrichissement automatique des données en syntaxe quand une transcription est déposée et rendue disponible à la communauté

Proposer un outil de fouille dans la transcription, probablement à partir d'un sous-ensemble de requêtes-type "guidées" capables de travailler sur différentes couches d'annotations

Rappels

Archivage : dépôt d'une donnée qui ne sera plus modifiée, donc figée au moment du dépôt. L'archivage ne permet pas l'accès systématique, et sous-entend la notion de don de la ressource à l'état. Une donnée archivée passe dans les mains des archivistes et n'est plus contrôlée par son donateur.

Pérennisation : idée de rendre durable, de figer. Dans le cadre des corpus, il y a deux usages principaux:

Sécurisation : sauvegarde sur des serveurs de haute fiabilité technologique via des centres dont par exemple Ortolang pour les corpus de langage. La sauvegarde n'est pas éternelle mais peut être envisagée à très longue durée. Les données n'ont pas à être nécessairement contrôlées dans leur format comme pour l'archivage. Dans la pratique on peut envisager:

Limites de la concertation commune

Outils de floutage vidéo ==> voir les autres ressources vidéo

Langue des signes : format commun de transcription probablement mal adapté, essayer de travailler à partir d'extraits

Outil générique d'interrogation sur toutes les couches d'annotations: à venir si extrapolation possible à partir des requêtes-type mais difficulté à construire une interface commune, difficulté à choisir les résultats et les annotations à afficher, quelle approche quantitative retenir pour l'oral quand le nombre de résultats est important ?

Logiciels

Les logiciels couramment utilisés, avec une description de leurs fonctionnalités sont présentés sur cette page. Vous y trouverez également des programmes permettant la conversion de formats

Bases de données

L'interopérabilité des bases de données pose des difficultés d'un autre ordre que celle des corpus composés de ressources primainres (enregistrements) et d'annotations. En effet, les informations codées suivent une structure propre, conçue pour répondre à des besoins spécifiques. Il est difficile de continuer à avoir accès à ces informations sans interface spécifique (cf. Windhouwer et Dimitriadis, Sustainable operability: Keeping complex resources alive, LREC 2008). L'interopérabilité des bases de données constitue donc un défi, qui incite à la concertation parmi les chercheurs pour le développement et le maintien d'outils suffisamment génériques dans l'intérêt du maintien de l'intelligibilité des informations encodées.

Références

O. Baude, M. Jakobson, A. Tchobanov et R. Walter, 2005, Interopérabilité des corpus sonores : le cas des corpus en français, Phonological variation : the case of French, University of Tromso, Norway (présentation .ppt).

Dernière mise à jour : 2015/11/13