IRCOM

Actions d'aide aux corpus

Le consortium IRCOM se donne comme objectif de valoriser les corpus et d'améliorer leur accessibilité. Dans cette perspective, il a lancé un appel d'aide à la finalisation conjointement avec l'Equipes ORTOLANG en 2013. L'appel a été renouvelé en 2014. Cet appel d'offre propose une aide technique et/ou financière permettant d'aboutir au dépôt et à la diffusion des corpus. L'attribution de l'aide financière est décidée collégialement par le comité de pilotage de l'IRCOM et l'EquipEx Ortolang.

Pour des demandes d'aide technique ou de renseignements, vous pouvez contacter à tout moment Martine Toda.

Etat de progression de tous les projets bénéficiant de l'aide à la finalisation (au 01/12/2015)

Etat de la finalisation projet (responsable, laboratoire) média, volumétrie remarques description
Dépôt finalisé (16) OTG (J.-Y. Antoine, LI) Audio. 2h transcrites ; 320 locuteurs Déposé auprès de SLDR/Ortolang Transcription orthographique d’un corpus de dialogue oral personne-personne à forte interactivité : échanges en présentiel à l’accueil d’un office du tourisme.
315 Dialogues - Locuteurs : 315 touristes + 5 réceptionnistes - 2 heures d’enregistrement - 26000 mots (source : SLDR)
Accueil-UBS (J.-Y. Antoine, LI) Audio. 40 dialogues / 10000 mots / 1 heures d'enregistrement Déposé auprès de SLDR/Ortolang Le corpus Accueil_UBS est un corpus pilote de dialogue oral homme-homme finalisé correspondant à une tâche d’accueil téléphonique par le standard d’une université. Il a été enregistré en conditions réelles au sein de l’Université de Bretagne Sud et regroupe un ensemble de dialogues entre un(e) appelant et le personnel d’accueil du standard. Le corpus distribué comprend les fichiers audio enregistrés ainsi qu’une transcription orthographique des dialogues ainsi recueillis. Tous les dialogues sont en français. Il est distribué sous licence CC BY-SA (source : SLDR)
ACSYNT (E. Delais-Roussarie, Sedyl) Audio. 124017 mots / 23 locuteurs Déposé auprès de SLDR/Ortolang Le corpus ACSYNT est un corpus oral du français contemporain qui contient 124 000 mots. Il est composé de trois types de données orales: de la lecture oralisée de texte (17 858 mots), des présentations monologuées (19 575 mots) et des entretiens guidés (86 584).
Les données ont été enregistrées auprès de 23 locuteurs originaires du Sud Ouest de la France. Chaque locuteur a effectué les tâches suivantes: lecture de trois textes, présentation monologuée et entretien guidé.
Les données ont été transcrites sous PRAAT.
Sont accessibles la documentation, les données audio et les transcriptions PRAAT (format textgrid).
Ce corpus peut être utilisé pour travailler en prosodie et intonation, en syntaxe de l’oral, en analyse du discours. (source : SLDR)
Alipe (T. Chanier, LRL) Audio. 88651 mots Déposé auprès de SLDR/Ortolang Interactions parents-enfant annotées pour l’étude de la liaison.
Ce corpus contient la transcription d’environ 15H de conversations informelles entre enfant et parents.
Les données de ce corpus ont été structurées dans le cadre du projet ALIPE (Acquisition de la Liaison et Interactions Parents Enfants) du Laboratoire de Recherche sur le Langage. (source : SLDR)
Atlas linguistique de l’alsace (C. Evrard, LILPA) Audio. 216 points d'enquête Déposé auprès de CoCoON L'Atlas Linguistique de l'Alsace comporte des enregistrements sonores à caractère ethnographique (1965) et linguistique (1980) réalisés dans plus de 200 communes Alsaciennes. Le site web des Archives numérisées du Département de Dialectologie alsacienne et mosellane de l'Université de Strasbourg http://ala.u-strasbg.fr/ présente plus d'informations sur l'Atlas Linguistique et ethnographique de l'Alsace.
On distingue 3 parties principales: les enquêtes linguistiques, les enquêtes sur la conscience linguistique et les ethnotextes. (source : CoCoON)
Interactions FLE (E. Oursel, Syled) Audio. 16h réparties sur 72 entretiens Déposé auprès de SLDR/Ortolang (000876-000889) Corpus d’interactions en français langue étrangère (FLE) (source : SLDR)
Berlin (C. Granget, LLING) Vidéo. 28 locuteurs Déposé auprès de SLDR/Ortolang Corpus pseudo-longitudinal de récits oraux d’une séquence filmique muette. Les récits sont produits en français L2 par des adolescents berlinois, en situation de face à face avec un locuteur dont le français est la L1. Une fiche de vocabulaire est à disposition des narrateurs.
Le film vu est un extrait de Modern Times de Charlie Chaplin, plus précisément la version expérimentale conçue par l’équipe de Heidelberg pour l’étude de l’acquisition de l’allemand L2 par des adultes migrants turcophones et italophones (Projet ESF, Perdue 1993).
Les narrateurs sont des adolescents scolarisés en allemand dans un établissement berlinois. Ils ont un bagage langagier commun qui contient l’allemand langue de scolarisation, et l’anglais et le français langues étrangères apprises en classe. Certains connaissent aussi d’autres langues apprises dans leur famille ou dans des pays dans lesquels ils ont séjourné et/ou ont été scolarisés antérieurement.
Les récits oraux se répartissent selon 4 niveaux institutionnels correspondant aux 1ère, 2e, 3e et 4e année d’apprentissage du français. (source : SLDR)
ANCOR (J.-Y. Antoine, LI ; E. Schang, LLL) Audio (enrichissements). 453 000 mots, annotation anaphorique Déposé auprès de SLDR/Ortolang ANCOR Centre est un corpus francophone d’envergure (488 000 mots) de parole spontanée annoté en anaphores et coréférences portant aussi bien sur des entités nominales que pronominales. L’annotation a été réalisée sur trois corpus de parole conversationnelle (Accueil_UBS, OTG et ESLO) diffusés également librement. Le corpus ANCOR_Centre est distribué gratuitement sous licence Creative Commons CC-BY-SA pour ce qui est des données concernant les corpus OTG, Accueil_UBS et CO2, et sous licence CC-BY-SA-NC pour le corpus lié à ESLO. Les sources audio (diffusées librement par ailleurs) liées à ce corpus ne font pas l’objet de cette distribution. (source : SLDR)
Cyber-base Gradignan (G. Luxardo, Praxiling) Vidéo. Analyse conversationnelle Déposé auprès de SLDR/Ortolang Le corpus "Cyberbase Gradignan" a été recueilli de juillet 2010 à juin 2012 dans le cadre de l'expérimentation Cyber-base® Justice mise en oeuvre la Maison d'Arrêt de Gradignan et finalisée à l'accès à l'information, à l'apprentissage de l'informatique et à l'enseignement.
Il est constitué d'enregistrements audiovisuels portant, d'une part, sur les activités dans l'espace informatique de la Maison d'Arrêt et, d'autre part, sur des entretiens avec les différents acteurs. (source : SLDR)
SPEEDI DB (A. Ghio, LPL) Audio. plus de 2000 locuteurs ; données physiologiques Déposé auprès de SLDR/Ortolang Locuteurs dysphoniques enregistrés dans le service ORL du CHU de la Timone à Marseille entre 1995 et 2005 (source : SLDR)
Attitudes-VN (D.-K. Mac, MICA) Audio et EGG (Electro-glotto-graphie) Sur Nakala, accessible via CoCoON Le corpus Vietnamese Attitudes (VnA) est un corpus audio-visuel pour l’étude des attitudes simulées en langue vietnamienne en vue de leur caractérisation et de la synthèse de la parole expressive en vietnamien. Il comporte un ensemble d’enregistrements vidéo de 125 phrases composées de une à huit syllabes. Ces phrases ont été produites en chambre sourde par deux locuteurs (un homme et une femme, originaires de Hanoi) avec 16 attitudes ou expressions : déclaration, question simple, exclamation de surprise neutre, exclamation de surprise positive, exclamation de surprise négative, évidence, doute/incrédulité, autorité, irritation, ironie sarcastique, mépris, politesse, admiration, maternelle séduction et familière. Les phrases contiennent des syllabes portant les différents tons (2, 3, 4, 5, 6, 5b, 6b) en position de début, milieu et fin permettant l’étude de l’interaction des tons lexicaux avec la prosodie. Une répétition parmi les trois effectuées par le locuteur masculin comporte également des signaux électro-glotto-graphiques. (source : CoCoON)
Ese’eja (M. Vuillermet DDL) Audio et Vidéo. 10h Déposé auprès de SLDR/Ortolang Le présent corpus a été enregistré entre 2005 et 2013, et a été financé par plusieurs institutions dont Endangered Language Documentation Programme (2007), Afrique Amérique Latine Langues En Danger (ANR AALLED, 2008-2009) et Endangered Language Fund (2008). L’ese eja est une langue parlée par environ 1700 locuteurs en Amazonie bolivienne et péruvienne. Les enregistrements ont été essentiellement effectués dans le village de Portachuelo Bajo, Bolivie, et, plus récemment dans la communauté d’Infierno au Pérou (2013). La majorité des enregistrements ont été transcrits, glosés et traduits dans toolbox. Le corpus comprend des listes de mots, des narrations personnelles et semi-spontanées (stimuli visuels), des mythes, quelques conversations et des ateliers filmés, et un film documentaire.
Ce corpus a servi de base à une description grammaticale. (source : SLDR)
Creagest (B. Garcia, SFL) Vidéo. 364 h Déposé auprès de SLDR/Ortolang Il s’agit d’un corpus de dialogues entre adultes sourds (106 heures) : 51 entretiens, animés par quatre enquêteurs sourds de quatre régions de France différentes (entretiens semi-directifs, 3 caméras).
Les vidéos mises à disposition ici constituent une sous-partie du corpus global : 7 extraits filmés avec trois caméras (soit 21 fichiers). (source : SLDR)
Cyberbase St-Maur (G. Luxardo, Praxiling Vidéo. 40h (non transcrites) prax000928 et 929 déposés auprès de SLDR/Ortolang Le corpus "Cyberbase Saint-Maur" a été recueilli de Mai 2008 à juin 2009 dans le cadre du travail doctoral "Interactions et pratiques d’un processus d’innovation pédagogique en environnement carcéral" (Alidières 2013).
Il est constitué d’enregistrements audiovisuels portant, d’une part, sur les activités dans l’espace informatique de la Maison d’Arrêt et, d’autre part, sur des réunions avec l’équipe pédagogique et des entretiens avec les différents acteurs. (source : SLDR)
Gipsy Ling (N. Auger, Montpellier 3) Audio. 46 entretiens d'un total de 80 minutes, transcrits en totalité prax000930 à 933 déposés auprès de SLDR/Ortolang Le présent corpus a été recueilli entre septembre 2012 et juin 2014. Il est issu d’une recherche financée par un fonds social européen (FSE) sur le thème de l’ « oralité, de la langue et des imaginaires » chez les populations gitanes de Perpignan (en particulier les enfants).
Début juillet 2013, la Direction de l’Action Éducative et de l’Enfance de la Ville de Perpignan, avec le soutien financier du Fonds Social Européen (FSE), et en partenariat étroit avec l’Education Nationale souhaite commander une formation interinstitutionnelle à destination des équipes enseignantes et éducatives de la Ville intervenant auprès de la population gitane des quartiers Saint-Jacques et Nouveau-Logis. Cette étude a été couplée avec une recherche interrogeant les questions d’oralité, de langue et d’imaginaire.
L’objectif est une meilleure compréhension des mécanismes d’apprentissages scolaires dans le contexte de plurilinguisme et d’oralité multiséculaire de cette population ainsi que la constitution d’outils pédagogiques. Elle intègre les questions de la langue maternelle et interroge les questions liées à l’imaginaire à travers une approche couplée d’étude en famille et à l’école. (source : SLDR)
Atlas du créole haïtien (D. Fattier, LDI) 20 points d'enquête, 300 locuteurs, questionnaire de 2225 questions Consultables à la BnF (dans la BnF même, niveau Recherche), et prochainement sur CoCoON Enquête linguistique réalisée à Haïti entre 1978 et 1985 dans le cadre d'une réforme de l'école visant à introduire le créole dans l'enseignement. Environ 300 personnes ont été enregistrées entre mars et octobre 1982 puis entre mai et août 1985 par des enquêteurs haïtiens sur différents points géographiques. Plus de 360 heures ont été ainsi enregistrées (356 heures sont disponibles à l'écoute). Cette collecte enregistrée est le résultat d'une pré-enquête (ALH ; mars et avril 1982), suivie d'une enquête principale (ALH ; juillet-octobre 1982) doublée d'une enquête secondaire (ALH-ALHS ; 1985). Ces enregistrements se sont basés sur un questionnaire linguistique général de 2225 questions auquel s'ajoute également l'utilisation d'un cahier proposant environ 5000 questions spécialisées. Les questions posées aux témoins haïtiens portent essentiellement sur le lexique mais aussi sur le discours vernaculaire et quelques fables et contes créoles ont été également recueillis. 272 cassettes audio ont été déposées ainsi que 20 cahiers d'enquêtes (enquête principale) et documents relatifs à la constitution de l'Atlas linguistique du créole français d'Haïti (transcription phonétique et romaniste des réponses aux questionnaires, cartes, notes, ...). (source : BnF)
SITAF (C. Horges et S. Scheuer, Paris 3) 290 interactions vidéo en tandem L1/L2 d'un total de 25 heures, transcription existante pour 112 ressources Enregistré sur Ortolang Corpus vidéo d’interactions tandem entre des étudiant-e-s francophones étudiant-e-s anglophones à l’Université Sorbonne Nouvelle- Paris 3. Chacune des 21 paires tandem réalise les tâches de production orale collaborative (narration, argumentation, lecture) à deux occasions (sessions d’enregistrements) espacées de 3 mois. Le corpus comprend aussi des interactions contrôle L1-L1 pour les participant-es.
Des métadonnées sont aussi disponibles (profil linguistique des participant-e-s au départ du projet tandem, questionnaire sur l’expérience tandem post enregistrement).
Prêt pour le dépôt, métadonnées en cours de préparation (4) Basque/français (I. Duguine, Octogone) Vérification des formats, mise en relation avec le centre de ressources
Jean-Macé (J.-M. Colletta, LIDILEM) 6h annotées / 60 locuteurs enfants Vérification et conversion éventuelle des vidéos, normalisation des transcriptions (vers XML ?)
FOS (L. M. Lerin, Arras) 9h de vidéo d'interaction en situation professionnelle simulée, transcription de 150000 mots. Conversion de format des transcriptions et conversion de format des vidéos
Autisme (C. Dascalu, PRISMES) 9h / 48 614 mots Vérification des transcriptions (chevauchements, bégaiement)
Pris en charge pour aide technique (3) Entretiens patient-psychiatre (A. Celle, Paris 5)
CIL (acquisition) (S. Ali, Rennes 2)
ET (B. Fagard, Lattice)
Finalisation financée en cours (3)
(IRCOM/ORTOLANG confondus, campagne 2013)
Ye’kwana (N. Caceres, DDL) 12h Vérification des transcriptions avec informateurs locaux
IXCATECO (D. Costaouec, Sedyl) 60h dont 7h transcrites Saisie de transcriptions et traductions papier
Judéo-espagnol (M.-C. Varol) 90 heures dont 25 à traiter dans le cadre de cette appel d'offre Alignement temporel et normalisation des annotations
Prise en charge par Ortolang (campagne 2014), finalisation en cours (1) CorpAGEst (C. Bolly, SFL) 16h de vidéo ; 18h d'audio Vérification des annotations mimo-gestuelles (ELAN), anonymisation de la vidéo et de l'audio.

Ce qu'on vise à obtenir

Au-delà des finalités initiales pour lesquelles un corpus a été constitué, il peut être avantageux de respecter certaines normes : (1) pour garantir sa conservation ; (2) pour pouvoir bénéficier d'un meilleur degré de services (3) pour augmenter le potentiel de réutilisation du corpus.

Plan de nommage et arborescence du corpus

- Eviter les caractères accentués, les caractères spéciaux et les espaces dans les noms de fichiers, parce qu'ils peuvent provoquer des problèmes inattendus en passant d'une plate-forme à une autre (Mac/PC).

- Penser à l'éventuelle nécessité d'anonymisation : éviter d'utiliser les noms propres dans les noms de fichiers ; utiliser plutôt des codes ou pseudonymes.

- De manière générale, il n'est pas nécessaire que le nom des fichiers contiennent toutes les informations relatives à l'enregistrement (ex. date d'enregistrement, séance d'enregistrement, tâche...). Les noms de fichiers servent à distinguer les fichiers les uns des autres, et non pas à fournir des informations sur leur contenu. Ces informations doivent plutôt être renseignée de manière explicite (par exemple, "03-02" est une information implicite, qui ne dit pas si c'est une date ou un numéro pour le locuteur et la répétition) dans un fichier ad hoc (typiquement un tableau excel).

- Penser à séparer (dans des dossiers distincts) les fichiers qui ne vont pas évoluer (enregistrements originaux) des fichiers qui peuvent être mis à jour (ex. annotations), afin de faciliter les mises à jour du corpus.

- Séparer les fichiers dans des dossiers différents selon leur modalité de diffusion (ex. dossier pour diffusion publique, dossier confidentiel à l'usage de collaborateurs identifiés, etc.)

Formats des fichiers

Dans la perspective d'une prise en charge par le circuit d'archivage institutionnel en déposant un corpus auprès d'un centre de ressources (CoCoON ou SLDR/ORTOLANG), il est important de vérifier au préalable la compatibilité du format des fichiers auprès du CINES et d'effectuer des conversions (l'IRCOM peut fournir une aide technique). Un utilitaire permet de vérifier chaque fichier : facile.cines.fr.

Voici quelques points à signaler :

- Pour qu'un fichier texte soit reconnu comme tel, il doit avoir comme extension ".txt" au moment d'être testé à travers cet utilitaire (mais au moment de l'archivage, il peut comporter une autre extension, par exemple ".TextGrid" ou ".cha").

- Le format d'encodage accepté pour le texte brut est UTF-8. Pour ré-encoder un fichier texte dans ce format, on peut utiliser des éditeurs de texte comme par exemple Notepad++ (PC) ou TextWrangler (Mac).

- Les formats .doc, .docx, .xls, .xlsx, et .ods ne sont pas acceptés. Ils peuvent être transformés en .odt, .pdf et .csv (texte avec fabulations).

- Certains formats .pdf ne sont pas pris en charge (ex. pdf 1.3). La suite OpenOffice permet d'exporter en pdf des fichiers Microsoft Office dans le bon format (pdf 1.4 par exemple).

Transcriptions et annotations

Le principe général à suivre, c'est de préserver une cohérence dans la transcription ou les annotations. Idéalement, l'opérateur doit respecter une convention d'annotation/transcription prédéfinie et répondant aux besoins du projet scientifique de façon à ce qu'une même unité linguistique soit transcrite/annotée de la même façon par le même annotateur d'une occurrence à une autre ou par des annotateurs différents.

Les formats d'annotation peuvent être divers, mais les annotations seront plus aptes à évoluer (lorsque les standards évoluent avec le temps ou lorsque d'autres outils de traitement apparaissent) ou à être partagées si elles utilisent une syntaxe explicite, comme le XML (dont le TEI, qui est un formalisme codé en XML). Cela ne signifie pas que l'annotation doit être faite directement en XML. Elle peut être faite à l'aide de logiciels permettant l'exportation des données dans ce format (cf. notre page sur les outils logiciels) ou bien dont les fichiers de sortie peuvent aisément être convertis sans qu'il n'y ait d'ambiguïté. C'est le cas, par exemple du format TextGrid de Praat.

Il est à noter que les fichiers XML ou assimilés peuvent être pris en charge dans le circuit d'archivage à long terme (consultez la liste des formats acceptés sur le site du CINES) en tant que fichiers textes unicode (UTF-8).

Description du corpus

Les métadonnées sont des données sur les données, qui renseignent les "quoi, qui, où, quand, comment, combien, pourquoi" au sujet d'une ressource, d'un corpus ou d'une collection. Elles sont renseignées au moment du dépôt.

OLAC-DC

La norme actuellement en usage dans le domaine de la linguistique est l'ensemble OLAC-DC. Les centres de ressources Ortolang/SLDR (exemple) et CoCoON (exemple), qui sont des entrepôts OAIS, utilisent cette norme.

Informations complémentaires

Le fichier de description peut contenir des informations correspondant aux champs prévus, mais selon les projets il est possible que d'autres informations soient pertinentes, et doivent être renseignées. En définitive, ce sont les préoccupations scientifiques (et non pas les normes existantes, qui peuvent être imparfaites) qui doivent guider la description. En attendant le développement d'un standard commun de référence, les informations qui ne peuvent pas être contenues dans le schéma de métadonnées peuvent toujours être fournies sous forme de tableau et jointe au dépôt. Il est même utile, pour que la structure interne du corpus reste intelligible (même pour le déposant lui-même, quelques années plus tard...), d'accompagner le dépôt d'un tableau récapitulatif, avec au moins une description sommaire pour chaque fichier (qui sont les auteurs, quand il a été enregistré, où, quelle est la langue étudiée, quelle est la tâche linguistique, etc.). Ce fichier de description contiendra aussi des informations sur la relation qu'entretiennent entre eux les fichiers : par exemple, si plusieurs fichiers média (audio ou vidéo) se rapporte à la même session d'enregistrement, s'il existe un fichier d'annotation, etc.

EAD

Dans le domaine général de l'archivistique, c'est la norme ISAD-G (implémentée numériquement en EAD) qui est actuellement en usage (consulter le compte-rendu d'une formation suivie auprès de l'Association des archivistes français). La BnF utilise ce format (exemple).

Contexte de production

Mais à partir du moment où les normes sont bien décrites, il est souvent possible de traduire une description d'un format à un autre. La question du format relève de la compétence des centres de ressources, tandis que le chercheur ou le déposant est le mieux placé pour documenter le contexte scientifique dans lequel les ressources ont été produites (les finalités de l'enregistrement, les modalités de sélection des locuteurs, les questions scientifiques, etc.).

RDF

Le modèle RDF permet de mettre en relation les informations selon les perspectives du Web de données (ou web sémantique) sous forme de triade sujet-prédicat-complément. Le moteur Isidore utilise ce format pour intégrer et rendre interopérables les métadonnées natives disparates. Des formations sont régulièrement proposées, par exemple par le TGIR Huma-Num (édition 2014). D'autres formations sur la gestion de projet des sources numériques de la recherche en SHS sont dispensées par le CNRS (édition 2015)

Qualité de l'information, interopérabilité et évolutivité

{{ http://ircom.huma-num.fr/wiki/lib/exe/fetch.php?media=wiki:fichiers_publiques:ressources_.gif?nolink|}}

Pour être efficace, la description archivistique doit bien refléter le contenu de la ressource décrite, afin de rendre possible un tri à travers la masse de tout ce qui est disponible. L'utilisation de normes de catalogage ou de vocabulaire contrôlé peut améliorer la qualité de l'indexation à l'aide de mots clés. La description archivistique doit également être interopérable, c'est-à-dire consultable à partir d'un maximum de plateformes et de logiciels différents depuis différentes localisations. Enfin, elle doit être évolutive, pour que la ressource puisse continuer à être accessible lorsque les normes de description changent.

Adresse de la page WIKI

Dernière mise à jour : 2015/12/01