IRCOM

Présentation de ACSYNT

Laboratoire(s) participant(s)

CLLE-ERSS, LLF

Responsable(s)

Elisabeth DELAIS-ROUSSARIE

Objet

Objectifs scientifiques discipline début-fin recueil/enrichissement/exploitation nombre de personnes impliquées
Constitution d'un corpus oral pour étudier la prosodie et les liens entre prosodie et syntaxe dans différents styles de parole Prosodie, syntaxe, TAL 2000-2005 Oui, entre autres 10 environ

Données orales/multimodales

Audio/video/autre Matériel/technique d'enregistrement Volume sont-elles numérisées ? Support
Audio Enregistrement sur K7 avec Marantz PMD 270 / numérisation 124 000 mots oui (tout) CD comportant les fichiers audio au format WAV (mono, 22 KHz, 16bits), transcription au format txt, et transcription alignée au format TxtGrid (Praat)
Langues Pays d'enregistrement Années d'enregistrement Nombre de locuteurs enregistrés Tâche linguistique
Français France 2001 et 2002 23 locuteurs lecture de texte, présentation monologuée préparée et enquête (environ 30 minutes / locuteur)
Métadonnées Manuscrite/numérique/format ? données structurées ? Standards
Oui Les données sont transcrites. Les transcriptions sont sous format numérique (textgrid) et les documentations sont au format HTML, DOC et PDF

Annotation (transcription) et alignement

Manuscrites/numériques ? Par qui ? Alignées ? Volume annoté Type d'information codée Convention ? Format des fichiers
Transcription orthographique, au format Txt. Pour certains extraits, phonétisation sous format Txt des étudiants, puis contrôle par des experts sur l'ensemble des données en vue de corriger le non-respect des conventions, les erreurs d'annotation, etc. Oui 124 000 mots (tous le corpus) Transcription orthographique, et sur certaines parties Tagging, transcription phonémique EAGLES / Document joint Texte, Praat pour l'alignement
Annotation et enrichissement collaboratifs
L'annotation et les enregistrements ont été essentiellement faits par des membres de l'ERSS. Lors de la constitution, le responsable du projet (Elisabeth DELAIS-ROUSSARIE) était d'ailleurs à l'époque de la constitution rattachée à l'ERSS.

Anonymisation et autorisations d'exploitation et de diffusion

Une anonymisation a-t-elle été effectuée ? Les enregistrements comportent-ils des données personnelles ? Quelles sont les autorisations prévues par le consentement éclairé ?
Oui non, l'ensemble a été filtré et les indications ont été codées dans les transcriptions (voir documentation) Autorisations pour l'enregistrement, la transcription, l'édition des transcriptions et des données orales, et la diffusion (audio ou orthographe) pour des fins pédagogiques/ scientifiques. Le tout doit être fait en préservant l'anonymat

Sauvegarde, pérenisation, diffusion

Moyens de sauvegarde et pérenisation* Condition d'accès aux données Volume accessible Volume téléchargeable Personne à contacter
non fait sur demande non non elisabeth.roussarie@wanadoo.fr

* L'archivage pérenne concerne l'archive publique, un moyen de pérennisation institutionnel des documents créés dans le cadre de l'exercice du service public. Il s'agit d'une notion distincte du dépôt sur un portail de diffusion ou d'une sauvegarde sur un serveur sécurisé, pour lesquels la pérennité des données n'est pas garantie dans le long terme.