IRCOM

Présentation de CFPP2000

Laboratoire(s) participant(s)

SYLED

Responsable(s)

Sonia Branca-Rosoff

Objet

Objectifs scientifiques discipline début-fin recueil/enrichissement/exploitation nombre de personnes impliquées
Constitution d’un corpus permettant l’étude du français de Paris et sa banlieue, ou plutôt, l’étude du français « de communication » que les participants adoptent lors d’ interviews conversationnelles sociolinguistique, syntaxe, prosodie, morphologie 2006- recueil, développement d'outillage, exploitation

Données orales/multimodales

Audio/video/autre Matériel/technique d'enregistrement Volume sont-elles numérisées ? Support
Audio Tascam H2P2 (FireWire) 535 000 mots environ, soit 37h 75 oui http://cfpp2000.univ-paris3.fr/
Langues Pays d'enregistrement Années d'enregistrement Nombre de locuteurs enregistrés Tâche linguistique
Français France 2006-2012 40 Interviews conversationnelles (comportant narrations, description, argumentation, …)
Métadonnées Manuscrite/numérique/format ? données structurées ? Standards
oui numériques, XML base de données spécialisation des métadonnées du Dublin Core (OLAC et ajouts)

Annotation (transcription) et alignement

Manuscrites/numériques ? Par qui ? Alignées ? Volume annoté Type d'information codée Convention ? Format des fichiers
oui, numériques Pour l’essentiel, les créateurs du corpus (+ des étudiants sur vacations) Oui - alignement en ligne (via le COCOON) Transcriber
Annotation et enrichissement collaboratifs

Anonymisation et autorisations d'exploitation et de diffusion

Une anonymisation a-t-elle été effectuée ? Les enregistrements comportent-ils des données personnelles ? Quelles sont les autorisations prévues par le consentement éclairé ?
oui Personne ne peut garantir qu’un tiers ne peut reconnaître une voix oui

Sauvegarde, pérenisation, diffusion

Moyens de sauvegarde et pérenisation* Condition d'accès aux données Volume accessible Volume téléchargeable Personne à contacter

* L'archivage pérenne concerne l'archive publique, un moyen de pérennisation institutionnel des documents créés dans le cadre de l'exercice du service public. Il s'agit d'une notion distincte du dépôt sur un portail de diffusion ou d'une sauvegarde sur un serveur sécurisé, pour lesquels la pérennité des données n'est pas garantie dans le long terme.