Groupe de travail 1 : Corpus linguistiques et finalités scientifiques

Coordinateurs : Brigitte Garcia, Anne Lacheret-Dujour, Amina Mettouchi, Paola Pietrandrea.

Participants : Martine Adda-Decker, Cyril Auran, Dominique Boutet, Philippe Boula de Mareuil, Annelies Braffort, Paul Cappeau, Damien Chabanal, Claudine Chamoreau, José Deulofeu, Laurent Gautier, Sylvain Kahane, Florence Lefeuvre, Philippe Martin, Tobias Scheer.

S’inscrire à la liste de diffusion (laisser le mail vide).

Envoyer un mail

Introduction : intitulé, domaines, périmètre

L’objectif de ce groupe de travail est de faire émerger les questions scientifiques posées par la multiplication des corpus oraux et multimodaux, et l’importance grandissante de leur place dans l’élaboration et la validation d’hypothèses linguistiques.

La première question à laquelle notre groupe sera amené à réfléchir est celle de la définition de notre objet : qu’est-ce qu’un corpus de linguistique ? De ce point de vue, quelles sont les relations entre les corpus issus de la “linguistique de laboratoire”, de la “linguistique de terrain”, de la “linguistique expérimentale”, de la “linguistique théorique”, de la “linguistique appliquée” (notamment en didactique des langues ou dans le domaine des discours spécialisés/professionnels) dans un contexte où toutes peuvent avoir recours à des ressources constituées en corpus ? Plus précisément, y-a-t-il des possibilités de transferts méthodologiques entre les corpus appartenant à différents champs des sciences du langage (terrain, TAL (parole), psycholinguistique, pragmatique, etc.), pouvant mener à des collaborations interdisciplinaires ? Egalement, comment se définissent les corpus oraux et multimodaux, en contraste et continuité avec les corpus écrits, ainsi que ceux issus du web ?

Qu’entend-on par données primaires? Données secondaires ? En lien avec ce double questionnement, qu’entend-on respectivement par “transcription” et “annotation” (cette question sera également abordée par le groupe 4) ? Qu’est-ce exactement que la “modalité” et la “multimodalité” (au sens, entre autres, où les données “gestuelles” peuvent, aussi, être considérées comme relevant de plusieurs modalités, visuelle/gestuelle/proprioceptive) ?

En règle générale, un corpus est constitué en fonction des finalités de recherche fondamentale ou appliquée auxquelles il est destiné ce qui influe sur un certain nombre de choix d’annotation, entre autres. Une des questions que l’on peut alors se poser est celle de la réutilisation possible de corpus déjà annotés à des fins de recherche différentes. Cette réutilisation est-elle possible ? Sous quelles conditions ? Cette question devra être traitée en complémentarité avec le groupe de travail « Interopérabilité », qui se focalise sur les solutions logicielles et les standards. Elle sera vraisemblablement déclinée en fonction des champs de recherche. Ainsi, en dehors des questions techniques d’interopérabilité, peut-on mettre en regard des corpus de différentes langues afin de mener des études typologiques ou comparatives ? Quelles annotations, et quelles métadonnées, sont nécessaires pour la comparaison ? Ces questions peuvent déboucher sur un travail d’enrichissement de la base ISOCat (terminologie linguistique). Ce travail pourra être mené en collaboration avec le groupe « corpus multilingues ». Dans le même ordre d’idée, peut-on considérer qu’il existe un corpus « minimal » (comprenant certains types de métadonnées, et certains types d’annotations, que l’on pourrait considérer comme « de base ») ?

Notre groupe a prévu également de proposer un bilan des corpus qui ont permis des progrès importants dans le champ de la linguistique, et identifier par conséquent des bonnes pratiques. On pourra parallèlement s’interroger sur ce qui manque le plus en matière de corpus oraux/multimodaux (entre autres pour une langue telle que le français (variation diastratique par exemple)). Dans cette même perspective rétrospective, peut-on constater un changement dans les catégories d'analyse suite à l'utilisation de l'informatique pour le traitement des données ?

Sur le plan méthodologique, notre groupe sera enfin amené à réfléchir aux étapes de constitution d’un corpus, « un corpus de A à Z », en fonction des réflexions que nous aurons menées.

Actions envisagées

Deux ateliers ont été organisés autour de questions scientifiques. Le glossaire a été complété à l'issue de ces deux ateliers.

22 octobre 2012

* Typologie des utilisations de corpus dans les analyses linguistiques : José Deulofeu, Laurent Gautier, Gudrun Ledegen, Florence Lefeuvre

* Corpus "hautement" enrichi, contenant des annotations dans tous les domaines linguistiques (avec donc la question de leur alignement) et complétées par des données physiologiques : Philippe Blache et Sylvain Kahane

3 décembre 2012

* Synthèse, bilan et perspectives sur les travaux du 22 octobre

* Annotation vs transcription (Brigitte Garcia, Amina Mettouchi, Gudrun Ledegen)

* corpus de référence/évolutif, données primaires/secondaires (Anne Lacheret et Brigitte Garcia)

* corpus-based /corpus-driven (Damien Chabanal et Laurent Gautier)

* Campagnes d’annotations et accords inter-annotateurs (Sophie Rosset et Laurence Devillers)

* métadonnées, contenus et usages (Anne Lacheret et Paola Pietrandrea)

A l'avenir, en parallèle avec des réunions de synthèse sur les enjeux scientifiques et méthodologiques autour des corpus oraux et multimodaux, le groupe souhaite fonctionner comme incubateur d'idées pour faire surgir des perspectives innovantes sur ces types de corpus.

Des réunions seront programmées en 2013.

Constitution et fonctionnement du groupe de travail

Participants au groupe (liste ouverte à compléter)

Lors de la réunion du Conseil Scientifique qui s'est tenue le 16 janvier 2012, les personnes ci-dessous se sont inscrites pour participer à ce groupe de travail.

Prénom	Nom	Rôle	Laboratoire
Philippe	Blache	CP-CS co-pilote	Laboratoire Parole & Langage - CNRS
Laurence	Devillers	CS co-pilote	LIMSI - CNRS & Univ. Paris Sorbonne 4
Anne	Lacheret-Dujour	CS co-pilote	MODYCO-CNRS & Université Paris Ouest Nanterre
Amina	Mettouchi	CP-CS co-pilote	LLACAN - EPHE
Sophie	Rosset	CS co-pilote	LIMSI - CNRS
Martine	Adda-Decker	CP-CS	Laboratoire de Phonétique et Phonologie - Univ. Paris 3
Cyril	Auran	CS
Dominique	Boutet	CS	Structures Formelles du langage & Univ. Evry Val d'Essonne
Philippe	Boula de Mareuil	CS	LIMSI - CNRS
Annelies	Braffort	CS	LIMSI-CNRS
Paul	Cappeau	CS
Damien	Chabanal	CS
Claudine	Chamoreau	CS
José	Deulofeu	CS
Brigitte	Garcia	CS	Structures Formelles du Langage & Université Paris 8
Laurent	Gautier	CS
Sylvain	Kahane	CS
Florence	Lefeuvre	CS
Philippe	Martin	CS
Paola	Pietrandrea	CS
Tobias	Scheer	CS

Modalités de fonctionnement

Le groupe fonctionne par divers types d’échanges réguliers (forum Wiki, courriels, téléconférences, réunions) et fournit des comptes rendus au Comité de Pilotage IRCOM plusieurs fois par an. Il est envisagé d’organiser des rencontres avec d'autres groupes de travail, à la fois au sein d'IRCOM et avec les autres consortiums d'Huma-Num.

Dernière mise à jour : 2014/10/13