IRCOM

Groupe de travail 1 : Corpus linguistiques et finalités scientifiques

Coordinateurs : Brigitte Garcia, Anne Lacheret-Dujour, Amina Mettouchi, Paola Pietrandrea.

Participants : Martine Adda-Decker, Cyril Auran, Dominique Boutet, Philippe Boula de Mareuil, Annelies Braffort, Paul Cappeau, Damien Chabanal, Claudine Chamoreau, José Deulofeu, Laurent Gautier, Sylvain Kahane, Florence Lefeuvre, Philippe Martin, Tobias Scheer.

S’inscrire à la liste de diffusion (laisser le mail vide).

Envoyer un mail

Introduction : intitulé, domaines, périmètre

L’objectif de ce groupe de travail est de faire émerger les questions scientifiques posées par la multiplication des corpus oraux et multimodaux, et l’importance grandissante de leur place dans l’élaboration et la validation d’hypothèses linguistiques.

La première question à laquelle notre groupe sera amené à réfléchir est celle de la définition de notre objet : qu’est-ce qu’un corpus de linguistique ? De ce point de vue, quelles sont les relations entre les corpus issus de la “linguistique de laboratoire”, de la “linguistique de terrain”, de la “linguistique expérimentale”, de la “linguistique théorique”, de la “linguistique appliquée” (notamment en didactique des langues ou dans le domaine des discours spécialisés/professionnels) dans un contexte où toutes peuvent avoir recours à des ressources constituées en corpus ? Plus précisément, y-a-t-il des possibilités de transferts méthodologiques entre les corpus appartenant à différents champs des sciences du langage (terrain, TAL (parole), psycholinguistique, pragmatique, etc.), pouvant mener à des collaborations interdisciplinaires ? Egalement, comment se définissent les corpus oraux et multimodaux, en contraste et continuité avec les corpus écrits, ainsi que ceux issus du web ?

Qu’entend-on par données primaires? Données secondaires ? En lien avec ce double questionnement, qu’entend-on respectivement par “transcription” et “annotation” (cette question sera également abordée par le groupe 4) ? Qu’est-ce exactement que la “modalité” et la “multimodalité” (au sens, entre autres, où les données “gestuelles” peuvent, aussi, être considérées comme relevant de plusieurs modalités, visuelle/gestuelle/proprioceptive) ?

En règle générale, un corpus est constitué en fonction des finalités de recherche fondamentale ou appliquée auxquelles il est destiné ce qui influe sur un certain nombre de choix d’annotation, entre autres. Une des questions que l’on peut alors se poser est celle de la réutilisation possible de corpus déjà annotés à des fins de recherche différentes. Cette réutilisation est-elle possible ? Sous quelles conditions ? Cette question devra être traitée en complémentarité avec le groupe de travail « Interopérabilité », qui se focalise sur les solutions logicielles et les standards. Elle sera vraisemblablement déclinée en fonction des champs de recherche. Ainsi, en dehors des questions techniques d’interopérabilité, peut-on mettre en regard des corpus de différentes langues afin de mener des études typologiques ou comparatives ? Quelles annotations, et quelles métadonnées, sont nécessaires pour la comparaison ? Ces questions peuvent déboucher sur un travail d’enrichissement de la base ISOCat (terminologie linguistique). Ce travail pourra être mené en collaboration avec le groupe « corpus multilingues ». Dans le même ordre d’idée, peut-on considérer qu’il existe un corpus « minimal » (comprenant certains types de métadonnées, et certains types d’annotations, que l’on pourrait considérer comme « de base ») ?

Notre groupe a prévu également de proposer un bilan des corpus qui ont permis des progrès importants dans le champ de la linguistique, et identifier par conséquent des bonnes pratiques. On pourra parallèlement s’interroger sur ce qui manque le plus en matière de corpus oraux/multimodaux (entre autres pour une langue telle que le français (variation diastratique par exemple)). Dans cette même perspective rétrospective, peut-on constater un changement dans les catégories d'analyse suite à l'utilisation de l'informatique pour le traitement des données ?

Sur le plan méthodologique, notre groupe sera enfin amené à réfléchir aux étapes de constitution d’un corpus, « un corpus de A à Z », en fonction des réflexions que nous aurons menées.

Actions envisagées

Deux ateliers ont été organisés autour de questions scientifiques. Le glossaire a été complété à l'issue de ces deux ateliers.

A l'avenir, en parallèle avec des réunions de synthèse sur les enjeux scientifiques et méthodologiques autour des corpus oraux et multimodaux, le groupe souhaite fonctionner comme incubateur d'idées pour faire surgir des perspectives innovantes sur ces types de corpus.

Des réunions seront programmées en 2013.

Constitution et fonctionnement du groupe de travail

Participants au groupe (liste ouverte à compléter)

Lors de la réunion du Conseil Scientifique qui s'est tenue le 16 janvier 2012, les personnes ci-dessous se sont inscrites pour participer à ce groupe de travail.

Prénom Nom Rôle Laboratoire
Philippe Blache CP-CS co-pilote Laboratoire Parole & Langage - CNRS
Laurence Devillers CS co-pilote LIMSI - CNRS & Univ. Paris Sorbonne 4
Anne Lacheret-Dujour CS co-pilote MODYCO-CNRS & Université Paris Ouest Nanterre
Amina Mettouchi CP-CS co-pilote LLACAN - EPHE
Sophie Rosset CS co-pilote LIMSI - CNRS
Martine Adda-Decker CP-CS Laboratoire de Phonétique et Phonologie - Univ. Paris 3
Cyril Auran CS
Dominique Boutet CS Structures Formelles du langage & Univ. Evry Val d'Essonne
Philippe Boula de Mareuil CS LIMSI - CNRS
Annelies Braffort CS LIMSI-CNRS
Paul Cappeau CS
Damien Chabanal CS
Claudine Chamoreau CS
José Deulofeu CS
Brigitte Garcia CS Structures Formelles du Langage & Université Paris 8
Laurent Gautier CS
Sylvain Kahane CS
Florence Lefeuvre CS
Philippe Martin CS
Paola Pietrandrea CS
Tobias Scheer CS

Modalités de fonctionnement

Le groupe fonctionne par divers types d’échanges réguliers (forum Wiki, courriels, téléconférences, réunions) et fournit des comptes rendus au Comité de Pilotage IRCOM plusieurs fois par an. Il est envisagé d’organiser des rencontres avec d'autres groupes de travail, à la fois au sein d'IRCOM et avec les autres consortiums d'Huma-Num.

Dernière mise à jour : 2014/10/13