IRCOM

Présentation de Cambridge Student Corpus

Laboratoire(s) participant(s)

PRISMES

Responsable(s)

Yann Fuchs, Eric Melac, Camille Debras

Objet

Objectifs scientifiques discipline début-fin recueil/enrichissement/exploitation nombre de personnes impliquées
Analyse de la production orale de locuteurs natifs d’anglais britannique et irlandais en dialogue (conversation spontanée et semi-guidée), en interview, et en réponse à des tâches. Le corpus a initialement été constitué en trois sous-parties, visant respectivement à étudier : les introducteurs de citations (quotatives) ; l’expression de l’accès à l’information (marqueurs d’épistémicité et d’évidentialité), l’expression du positionnement interpersonnel en interaction (stance). Interaction, pragmatique, prosodie, étude des gestes et de la communication non-verbale (multimodalité), analyse du discours, syntaxe et sémantique de l’anglais oral. 2010-2011 Projet de recueil et d’exploitation de données. Un professeur et trois doctorants

Données orales/multimodales

Audio/video/autre Matériel/technique d'enregistrement Volume sont-elles numérisées ? Support
Vidéo Caméra numérique et micro 14h environ Oui, 14h numérisées. Fichiers .mov
Langues Pays d'enregistrement Années d'enregistrement Nombre de locuteurs enregistrés Tâche linguistique
Anglais (britannique : sud de l’angleterre, nord de l’angleterre, Irlande, Irlande du Nord, Ecosse) Royaume-Uni 2010-2011 31 Tâches variées: conversations semi-guidée à partir de questions piochées par les sujets ; interviews ; réponse à des questions posées par l’observateur ; description de sons et d’images ; résumé d’une bande dessinée d’une page.
Métadonnées Manuscrite/numérique/format ? données structurées ? Standards
Oui : informations générales d’intérêt linguistique sur chaque locuteur (différents pays de résidence, autres langues parlées...) Manuscrites, format papier, bientôt scannées. Non

Annotation (transcription) et alignement

Manuscrites/numériques ? Par qui ? Alignées ? Volume annoté Type d'information codée Convention ? Format des fichiers
Une certaine partie des données est transcrites sous forme numérisée. Les trois doctorants qui ont effectué la collecte. Oui, elles sont transcrites sous CLAN et alignées par tour de parole. Au moins 5H sont transcrites. La transcription orthographique des données est en cours. Transcription orthographique Clan
Annotation et enrichissement collaboratifs

Anonymisation et autorisations d'exploitation et de diffusion

Une anonymisation a-t-elle été effectuée ? Les enregistrements comportent-ils des données personnelles ? Quelles sont les autorisations prévues par le consentement éclairé ?
Il est fait mention soit du prénom réel, soit de l’initial du prénom, selon le souhait du locuteur dans le consentement éclairé. Aucune information personnelle (adresse, téléphone) n’apparaît, cependant, le visage des locuteurs est bien visible (vidéos). Selon le consentement éclairé signé par les locuteurs, ils acceptent que : les enregistrements vidéo soient transcrits intégralement dans le cadre de la constitution d’un corpus informatisé de linguistique de l’oral ; que ce corpus ne soit utilisé qu’à des fins scientifiques de recherches en linguistique ; qu’il soit utilisé dans le cadre de publications scientifiques, colloques et cours d’Université ; qu’il soit diffusé à un public de chercheurs en linguistique anglaise en France et à l’étranger dans des bases de données informatiques pour la recherche en linguistique ; publié sur des sites internet dédiés à la recherche en linguistique. Il est fait mention soit du prénom réel, soit de l’initial du prénom, selon le souhait du locuteur dans le consentement éclairé.

Sauvegarde, pérenisation, diffusion

Moyens de sauvegarde et pérenisation* Condition d'accès aux données Volume accessible Volume téléchargeable Personne à contacter
Fichiers vidéos Le corpus n’est pas encore accessible en ligne, il devrait bientôt l’être sur le site du laboratoire. ympfuchs@gmail.com, ericmelac@yahoo.fr, camilledebras@yahoo.fr

* L'archivage pérenne concerne l'archive publique, un moyen de pérennisation institutionnel des documents créés dans le cadre de l'exercice du service public. Il s'agit d'une notion distincte du dépôt sur un portail de diffusion ou d'une sauvegarde sur un serveur sécurisé, pour lesquels la pérennité des données n'est pas garantie dans le long terme.