IRCOM

Groupe de travail 2 : Interopérabilité

Coordinateurs : Christophe Parisse, Carole Etienne.

Participants : Sarra El Ayari, Nicolas Ballier, Christophe Benzitoun, Bernard Bel, Annelies Braffort, Christian Chanard, Dominique Fohr, Anne Garcia-Fernandez, Arnaud Gingold, Séverine Guillaume, Tatiana Iakovleva, Loïc Liégeois, Giancarlo Luxardo, Myriam Majdoub, Maria-Caterina Manes-Gallo, Alexis Michaud.

S’inscrire à la liste de diffusion (laisser le mail vide)

Envoyer un mail

Introduction : intitulé, domaines, périmètre

Le groupe de travail 'Interopérabilité' a pour objectif de recenser les usages et les besoins des laboratoires en terme de formats et d'échanges de données de corpus oraux et multimodaux pour apporter des solutions aux problèmes que nous rencontrons au quotidien dans nos unités.

Une des clés de la diffusion et de l’usage massif des corpus de langage oral et multimodaux est la qualité de la réutilisabilité des corpus par les linguistes et les autres usagers scientifiques ou non scientifiques sans intervention technique autre que celle du travail linguistique proprement dit. Ainsi par exemple, un corpus conçu dans une recherche sur la pragmatique conversationnelle devrait pouvoir être utilisé directement pour travailler sur sa syntaxe ou sa phonologie, sans autre besoin de celui du passage d’un logiciel adapté à la première tâche à des logiciels adaptés aux autres tâches. Dans l’idéal, ce passage devrait permettre d’accroitre les informations disponibles sur un corpus et non pas de créer trois corpus parallèles incompatibles.

L’interopérabilité des corpus se heurte donc à la variété des usages linguistiques mais aussi à la variété des pratiques et des outils disponibles dans les laboratoires. Le but du groupe de travail « Interopérabilité » est d’apporter des solutions à cette problématique qui se reposent sur les outils existants et qui s’ouvrent sur une amélioration des logiciels, des corpus, et des outils et formats d’échange entre corpus.

L'inventaire en cours de réalisation à l'IRCOM permettra d'identifier les corpus oraux et multimodaux dans nos laboratoires et leurs formats mais aussi les pratiques qui les accompagnent pour décrire ces ressources ou enrichir les données par des transcriptions et des annotations. A partir de ce recueil, le groupe « Interopérabilité » aura une meilleure connaissance des métadonnées (descripteurs) et des logiciels utilisés ainsi que des difficultés rencontrées dans les unités pour exploiter ces ressources, les réutiliser au sein du laboratoire dans d'autres applications ou les partager avec d'autres laboratoires.

En parallèle, ce groupe connaîtra les différentes solutions mises en œuvre dans les équipes et pourra coordonner les réflexions pour mutualiser ces solutions et les pérenniser dans la communauté.

Le groupe de travail portera ses efforts sur deux axes :

Le statut fédérateur du groupe de travail permettra d'engager des discussions auprès des instances de normalisation (Tei Council, Clarin ou Dariah, …) pour prendre en compte les spécificités de l'oral et permettre à nos corpus d'être représentés dans ces standards d'une manière satisfaisante pour notre communauté. De même, ce statut facilitera les négociations avec les concepteurs des logiciels pour améliorer les fonctions d'export et éventuellement d'autres fonctions pour faciliter leur exploitation dans nos unités. Le groupe de travail informera la communauté sur le suivi des demandes d'évolutions pour les normes comme pour les logiciels.

Vers un format commun : métadonnées et transcription en TEI

Des recommandations sont en cours de développement et pourront être consultées après la table ronde du 18 Janvier " Format commun: comment procéder pour structurer les métadonnées et la transcription d'un corpus oral ou multimodal en TEI ?" sur cette page

Autres actions envisagées

Le groupe de travail aura pour mission d'alimenter le guide en ligne des bonnes pratiques pour:

Constitution et fonctionnement du groupe de travail

Modalités de fonctionnement

Année 2012 : Le groupe a choisi de commencer par la tâche Interopérabilité des logiciels d'annotation pour résoudre le problème de perte des données quand le linguiste est amené à travailler avec différents logiciels pour la même transcription. Cette tâche va consister à identifier précisément les problèmes en entrée/sortie de chaque logiciel et à proposer une solution pour éviter les pertes d'informations. Un cahier des charges sera établi et un développement informatique sera réalisé en partenariat avec les éditeurs des logiciels.

Pour cela, chaque participant du groupe est invité à enrichir le wiki en complétant les informations pour chaque logiciel qu'il utilise

Une réunion plénière de deux journées est prévue en novembre ou en décembre avec les membres du groupe.

Dernière mise à jour : 2015/12/08