IRCOM

Groupe de travail 3 : Corpus multilingues et corpus plurilingues

Coordinateurs : Martine Adda-Decker, Philippe Boula de Mareüil, Boyd Michailovsky, Pascal Nocera, Stéphane Robert.

Participants : Bernard Bel, Marie-Christine Bornes Varol, Jocelyne Fernandez-Vest, Michael Filhol, Laurent Gautier, Gudrun Ledegen, Isabelle Léglise, Philippe Martin, Amina Mettouchi, Alexis Michaud, Claire Moyse-Faurie, Kamal Nait-Zerrat, Véronique Travero, Valentina Vapnarsky, Valentin Vydrine.

S’inscrire à la liste de diffusion (laisser le mail vide)

Envoyer un mail

Introduction : intitulé, domaines, périmètre

Le groupe de travail « Corpus multilingues» regroupe des problématiques variées concernant :

  1. l’étude de langues ou variétés de langues « rares », sans tradition écrite, qui ne sont pas ou que peu décrites; les variétés de langues d’apprenants, de locuteurs bilingues et plurilingues ; les créoles, les langues en contact ; le code-switching…
  1. la production de corpus incluant plusieurs langues, soit en parallèle ou en simultané au niveau source (audio), soit au niveau des annotations ; la création de corpus parallèles avec des contenus similaires dans différentes langues; l’annotation multilingue de corpus de langue des signes…
  1. le développement de méthodes et d’outils « indépendants de la langue », ou au moins utilisables pour un nombre élevé de langues. Cette thématique est en lien avec le groupe interopérabilité.

Sont concernés par ces thématiques les chercheurs ayant une expertise de recherche dans différentes langues, une expertise dans l’adaptation de leurs méthodes de recherche d’une langue à l’autre ou une expertise dans le domaine du plurilinguisme et du contact de langues.

De même, sont concernés des chercheurs devant produire des annotations/gloses en différentes langues et des chercheurs en traitement automatique de la parole (transcription, traduction, synthèse, recherche d’information…), pour lesquels le déploiement de technologies existantes pour un grand nombre de langues est un défi majeur.

Ce déploiement génère souvent des questions de recherche d’ordre linguistique et s’accompagne généralement de la création de grands corpus multilingues. Les domaines d’application de notre groupe de travail incluent les nouveaux usages pour l’apprentissage des langues et les technologies vocales multilingues ainsi que les problèmes qui se posent pour l’annotation de corpus de langues pas ou peu décrites.

Actions envisagées

Constitution et fonctionnement du groupe de travail

Modalités de fonctionnement

Le groupe fonctionnera par divers types d’échanges réguliers (courriels, téléconférences, réunions si nécessaire) et devra fournir des comptes rendus au Comité de Pilotage IRCOM plusieurs fois par an.

Il pourra faire appel à des experts externes nationaux ou internationaux pour éclairer ses travaux.

Il est envisagé également d’organiser des rencontres avec d’autres groupes de travail, notamment dans les divers consortiums (Corpus Oraux et Multimodaux, Corpus Ecrits).