Coordinateurs : Brigitte Garcia, Anne Lacheret-Dujour, Amina Mettouchi, Paola Pietrandrea.
Participants : Martine Adda-Decker, Cyril Auran, Dominique Boutet, Philippe Boula de Mareuil, Annelies Braffort, Paul Cappeau, Damien Chabanal, Claudine Chamoreau, José Deulofeu, Laurent Gautier, Sylvain Kahane, Florence Lefeuvre, Philippe Martin, Tobias Scheer.
S’inscrire à la liste de diffusion (laisser le mail vide).
L’objectif de ce groupe de travail est de faire émerger les questions scientifiques posées par la multiplication des corpus oraux et multimodaux, et l’importance grandissante de leur place dans l’élaboration et la validation d’hypothèses linguistiques.
La première question à laquelle notre groupe sera amené à réfléchir est celle de la définition de notre objet : qu’est-ce qu’un corpus de linguistique ? De ce point de vue, quelles sont les relations entre les corpus issus de la “linguistique de laboratoire”, de la “linguistique de terrain”, de la “linguistique expérimentale”, de la “linguistique théorique”, de la “linguistique appliquée” (notamment en didactique des langues ou dans le domaine des discours spécialisés/professionnels) dans un contexte où toutes peuvent avoir recours à des ressources constituées en corpus ? Plus précisément, y-a-t-il des possibilités de transferts méthodologiques entre les corpus appartenant à différents champs des sciences du langage (terrain, TAL (parole), psycholinguistique, pragmatique, etc.), pouvant mener à des collaborations interdisciplinaires ? Egalement, comment se définissent les corpus oraux et multimodaux, en contraste et continuité avec les corpus écrits, ainsi que ceux issus du web ?
Qu’entend-on par données primaires? Données secondaires ? En lien avec ce double questionnement, qu’entend-on respectivement par “transcription” et “annotation” (cette question sera également abordée par le groupe 4) ? Qu’est-ce exactement que la “modalité” et la “multimodalité” (au sens, entre autres, où les données “gestuelles” peuvent, aussi, être considérées comme relevant de plusieurs modalités, visuelle/gestuelle/proprioceptive) ?
En règle générale, un corpus est constitué en fonction des finalités de recherche fondamentale ou appliquée auxquelles il est destiné ce qui influe sur un certain nombre de choix d’annotation, entre autres. Une des questions que l’on peut alors se poser est celle de la réutilisation possible de corpus déjà annotés à des fins de recherche différentes. Cette réutilisation est-elle possible ? Sous quelles conditions ? Cette question devra être traitée en complémentarité avec le groupe de travail « Interopérabilité », qui se focalise sur les solutions logicielles et les standards. Elle sera vraisemblablement déclinée en fonction des champs de recherche. Ainsi, en dehors des questions techniques d’interopérabilité, peut-on mettre en regard des corpus de différentes langues afin de mener des études typologiques ou comparatives ? Quelles annotations, et quelles métadonnées, sont nécessaires pour la comparaison ? Ces questions peuvent déboucher sur un travail d’enrichissement de la base ISOCat (terminologie linguistique). Ce travail pourra être mené en collaboration avec le groupe « corpus multilingues ». Dans le même ordre d’idée, peut-on considérer qu’il existe un corpus « minimal » (comprenant certains types de métadonnées, et certains types d’annotations, que l’on pourrait considérer comme « de base ») ?
Notre groupe a prévu également de proposer un bilan des corpus qui ont permis des progrès importants dans le champ de la linguistique, et identifier par conséquent des bonnes pratiques. On pourra parallèlement s’interroger sur ce qui manque le plus en matière de corpus oraux/multimodaux (entre autres pour une langue telle que le français (variation diastratique par exemple)). Dans cette même perspective rétrospective, peut-on constater un changement dans les catégories d'analyse suite à l'utilisation de l'informatique pour le traitement des données ?
Sur le plan méthodologique, notre groupe sera enfin amené à réfléchir aux étapes de constitution d’un corpus, « un corpus de A à Z », en fonction des réflexions que nous aurons menées.
Deux ateliers ont été organisés autour de questions scientifiques. Le glossaire a été complété à l'issue de ces deux ateliers.
A l'avenir, en parallèle avec des réunions de synthèse sur les enjeux scientifiques et méthodologiques autour des corpus oraux et multimodaux, le groupe souhaite fonctionner comme incubateur d'idées pour faire surgir des perspectives innovantes sur ces types de corpus.
Des réunions seront programmées en 2013.
Lors de la réunion du Conseil Scientifique qui s'est tenue le 16 janvier 2012, les personnes ci-dessous se sont inscrites pour participer à ce groupe de travail.
Prénom | Nom | Rôle | Laboratoire |
---|---|---|---|
Philippe | Blache | CP-CS co-pilote | Laboratoire Parole & Langage - CNRS |
Laurence | Devillers | CS co-pilote | LIMSI - CNRS & Univ. Paris Sorbonne 4 |
Anne | Lacheret-Dujour | CS co-pilote | MODYCO-CNRS & Université Paris Ouest Nanterre |
Amina | Mettouchi | CP-CS co-pilote | LLACAN - EPHE |
Sophie | Rosset | CS co-pilote | LIMSI - CNRS |
Martine | Adda-Decker | CP-CS | Laboratoire de Phonétique et Phonologie - Univ. Paris 3 |
Cyril | Auran | CS | |
Dominique | Boutet | CS | Structures Formelles du langage & Univ. Evry Val d'Essonne |
Philippe | Boula de Mareuil | CS | LIMSI - CNRS |
Annelies | Braffort | CS | LIMSI-CNRS |
Paul | Cappeau | CS | |
Damien | Chabanal | CS | |
Claudine | Chamoreau | CS | |
José | Deulofeu | CS | |
Brigitte | Garcia | CS | Structures Formelles du Langage & Université Paris 8 |
Laurent | Gautier | CS | |
Sylvain | Kahane | CS | |
Florence | Lefeuvre | CS | |
Philippe | Martin | CS | |
Paola | Pietrandrea | CS | |
Tobias | Scheer | CS |
Le groupe fonctionne par divers types d’échanges réguliers (forum Wiki, courriels, téléconférences, réunions) et fournit des comptes rendus au Comité de Pilotage IRCOM plusieurs fois par an. Il est envisagé d’organiser des rencontres avec d'autres groupes de travail, à la fois au sein d'IRCOM et avec les autres consortiums d'Huma-Num.
Dernière mise à jour : 2014/10/13