Brigitte Garcia (responsables scientifiques : Christian Cuxac et Brigitte Garcia)
Objectifs scientifiques | discipline | début-fin | recueil/enrichissement/exploitation | nombre de personnes impliquées |
---|---|---|---|---|
Le projet comportait deux niveaux d’objectifs : 1/ La constitution/documentation/édition de corpus (plus de 300h prévues) a) de LSF enfantine; b) de LSF adulte (dialogues) ; c) de gestualité naturelle, visant à complémenter l’existant en termes d’âges, de régions et de genres discursifs représentés (le plus grand corpus contrôlé préexistant était de 2 h et de type monologique) ; 2/ L’analyse linguistique des données collectées, fondée sur l’enjeu transversal d’affinement des options théoriques quant à la sémiogenèse de la gestualité humaine signifiante, aux trois niveaux de l’acquisition de la LSF par les enfants sourds, des émergences lexicales dans la LSF adulte et des interrelations entre LS et gestualité dite coverbale. | Morphologie, morpho-phonétique, sémantique, interaction, acquisition, sociolinguistique, gestualité | 2007-2012 | Les deux, deux enjeux particuliers étant : a) la constitution de ressources patrimoniales pour la LSF, langue minoritaire et toujours menacée et b) la libre mise à disposition à moyen terme de ces ressources linguistiques documentées aux deux communautés des chercheurs en LS et des locuteurs de la LSF, notamment les enseignants de et en LSF (cf. création en 2010 d’un CAPES de LSF et développement exponentiel des licences de LSF). | 26 personnes à des degrés très variables sur l’ensemble des 4 années. Noyau de 5 permanents (max 1/3 temps) |
Audio/video/autre | Matériel/technique d'enregistrement | Volume | sont-elles numérisées ? | Support |
---|---|---|---|---|
audio et vidéo | Pour les corpus de LSF, la captation est toujours faite selon plusieurs angles de vue (2 ou 3 selon les sous-projets) grâce à des caméras « grand public » sur support mini-DV, dans des conditions (éclairage naturel, pas de maquillage etc.) aussi proches que possible d'une interaction « spontanée ». Les corpus collectés ont donc nécessité une phase de numérisation avant exploitation. Ces corpus ne présentent pas, pour les raisons indiquées, une qualité HD. | 362 heures au total. 290 h de LSF adulte | L’ensemble du corpus constitué est en voie d’être numérisé (numérisation effective des deux-tiers, fin prévue pour septembre 2012). Le format de numérisation est MPEG-4 (audio : AAC vidéo : H.264) conformément aux recommandations du CINES pour l’archivage pérenne. | Les corpus, annotations et métadonnées sont stockés en interne sur différents supports numériques (cassettes mini-DV, serveur + NAS, disques durs autonomes). Toutefois, une chaîne éditoriale a été élaborée en partenariat avec le CRDO et l'IN2P3 dans le but d'assurer une visibilité et un accès le plus large possible aux données collectés dans le cadre du projet, ainsi qu'à un archivage le plus pérenne possible. Les enregistrements donnent lieu à une édition minimale : insertion d'un titre et du logo Creagest, calage sur clap de début, recalage des bandes enregistrées par différentes caméras, reformatage si nécessaire (4/3 ou 16/9). |
audio et vidéo | ::: | 70 h de LSF enfantine | ::: | ::: |
audio et vidéo | Pour la gestualité : La captation sera faite selon 3 angles de vue : un plan large sur l’interaction et les interactants et un plan pour chaque locuteur. En outre les locuteurs seront équipés de microphones à distance constante. | 2 h de gestualité naturelle (en cours). | ::: | ::: |
Langues | Pays d'enregistrement | Années d'enregistrement | Nombre de locuteurs enregistrés | Tâche linguistique |
---|---|---|---|---|
Langue des signes française, LSF (adulte) | France | 2008-2012 | Total : 144 locuteurs sourds. LSF adulte : 58 locuteurs, de 18 à 60 ans ( + les 4 enquêteurs sourds) | LSF adulte : entretiens semi-dirigés de 2h en moyenne (guide d’entretien) conduits par des pairs sourds Gestualité naturelle : tâches de description. |
Langue des signes française, LSF (enfantine) | France | 2008-2012 | LSF enfantine : 65 enfants de 3 à 15 ans (et 17 adultes / population de référence) | LSF enfantine : récits à partir de vidéos animées (stimuli expérimentaux et un dessin animé grand public), récit à partir d’une histoire dessinée et dialogue libre |
Gestualité naturelle (dyades locuteurs sourds-sourds, sourds-entendants, entendants-entendants) | France | 2008-2012 | Gestualité et LSF : 16 dialogues prévus, 3 locuteurs sourds ; 4 locuteurs entendants | Gestualité naturelle : tâches de description. |
Métadonnées | Manuscrite/numérique/format ? | données structurées ? | Standards |
---|---|---|---|
Oui, très détaillées 1/ Métadonnées de diffusion, conformes aux recommandations de l’OAIPMH (OLAC) 2/ Métadonnées scientifiques Principaux critères selon les 3 types de corpus : Pour la LSF enfantine : - Enquêteur (critères prérequis) : être sourd, s’exprimer en LSF couramment, avoir une profession en rapport avec l’éducation des enfants sourds, avoir intégré la formation d’enquêteur. - Enquêté (enfant et adulte) :âge, parents sourds ou entendants, type d’appareillage(s) auditif(s) - dont implant(s) cochléaire(s), type de scolarisation, exposition à la LSF (nombre d’heures/semaine d’enseignement explicite et présence ou non de la LSF dans la famille), région d’habitation et de scolarisation | Manuscrites, en voie de formalisation OLAC | De nombreuses séances de réflexion collective ont permis d'identifier : le nombre, le type et la structure des éléments de métadonnées pertinents pour chaque sous-corpus, le format de structuration de métadonnées le plus adéquat. Les métadonnées et les annotations associées à chaque production sont pensées pour être explorables et moissonnables par des dispositifs tels que OAI-ster. De ce fait, l'ensemble de ces informations est saisi sous la forme de fichiers XML : fichiers de transcription EAF sous Elan et fichiers XML ad hoc pour les métadonnées « pures ». Au sens strict, les métadonnées renseignent les différentes variables sociolinguistiques (âge, sexe, région d'origine, latéralisation, type de sous-corpus, type de stimulus etc.) nécessaires à l'identification de chaque production, ainsi qu'à une exploration détaillée des corpus constitués. Le but est de pouvoir constituer des sous-corpus en exploitant les différentes métadonnées ainsi renseignées, par ex., ou de permettre de croiser paramètres linguistiques observés (structures annotées) et variables sociolinguistiques. | Le format de métadonnées retenu est OLAC, augmenté des informations manquantes (ex. : âge des locuteurs) Les métadonnées, le nommage des fichiers et les annotations sont conformes aux recommandations du CRDO pour l’archivage pérenne. |
Manuscrites/numériques ? | Par qui ? | Alignées ? | Volume annoté | Type d'information codée | Convention ? | Format des fichiers |
---|---|---|---|---|---|---|
Chaque type de corpus a fait l’objet d’une annotation partielle sous ELAN. La conception et l’expérimentation des templates (originaux), de même que l’annotation, ont été opérées par les permanents sourds et entendants de l’équipe assistés de contractuels sourds et entendants. | oui | LSF adulte : 35 mns | Pour la LSF, l’annotation soulève des questions spécifiques liées à l’absence de système de transcription équivalent de près ou de loin à l’API et, en amont, de toute forme écrite instituée spécifique aux LS. Un enjeu clé est donc de pallier les limites drastiques liées au recours courant à un étiquetage des unités gestuelles par des mots de la langue vocale nationale. Annotation orthographique en français. Pour la LSF adulte : Les champs annotés, pour chacun des deux interlocuteurs, sont : l’unité sémantico-fonctionnelle, étiquetée par un mot ou une abréviation en langue vocale écrite ; la supra-catégorie ; la sous-catégorie ; regard, l’expression faciale, le comportement de chacune des deux mains et/ou des deux mains, la traduction (nota : template plus fin en cours d’expérimentation). | Elan : fichiers XML | ||
::: | ::: | LSF enfantine : 60 minutes | Pour la LSF enfantine : les champs (tiers ou pistes) annotés sont, : l’unité de sens (signifié approximatif véhiculé par l’unité gestuelle), la catégorie morpho-sémantique, le regard, l’expression faciale, la labialisation, et la traduction en énoncés. PS : Annotation orthographique en français. | ::: | ||
::: | ::: | Pour la gestualité, les données annotées seront orthographiques, phonétique (au moins pour les productions des entendants), l’annotation de la gestualité sera faite à un niveau ‘phonétique’.Les données relevant de la LS seront glosées mais également annotées au grain le plus fin possible. Les conventions utilisées seront celles de McNeill et celles développées dans l’équipe | ::: |
Annotation et enrichissement collaboratifs |
---|
Une anonymisation a-t-elle été effectuée ? | Les enregistrements comportent-ils des données personnelles ? | Quelles sont les autorisations prévues par le consentement éclairé ? |
---|---|---|
Oui (l’identité « administrative » des locuteurs n’est pas visible dans les métadonnées) et Non (locuteurs filmés en vidéo =la modalité de LSF et de la gestualité est par nature visuo-gestuelle). | Tout locuteur filmé de LSF et de gestualité est bien sûr reconnaissable (a fortiori dans une communauté de cette dimension). | Tout enregistrement a fait l’objet préalable d’un consentement écrit assorti, pour les adultes sourds filmés en entretien, d’un accord filmé en LSF en fin d’entretien. Pour les locuteurs mineurs, les parents ont signé le consentement écrit, et, dans le cas d’un tournage en milieu scolaire, toutes les autorisations officielles ont préalablement été recuillies (inspections d’académie, directions de l’école, enseignants de la classe, etc.). Les objectifs de l’enregistrement ont été expliqués aux enfants en deux étapes : lors d’un rendez-vous préalable, puis réexpliqués le jour de l’enregistrement. |
Moyens de sauvegarde et pérenisation* | Condition d'accès aux données | Volume accessible | Volume téléchargeable | Personne à contacter |
---|---|---|---|---|
La sauvegarde des données sera effective lorsqu’elles seront adossées au CRDO. | Les données seront disponibles sur le web, au fur et à mesure des numérisations et des montages, à partir de 2013 (soit un an après la fin du projet, comme stipulé dans le projet) | A partir de 2013, des échantillons des corpus seront accessibles. | A déterminer | A déterminer |
* L'archivage pérenne concerne l'archive publique, un moyen de pérennisation institutionnel des documents créés dans le cadre de l'exercice du service public. Il s'agit d'une notion distincte du dépôt sur un portail de diffusion ou d'une sauvegarde sur un serveur sécurisé, pour lesquels la pérennité des données n'est pas garantie dans le long terme.
{{:labos:sfl:slcn_london_sallandre.pdf|Présentation Sallandre et Braffort "LSF resources", Sign Linguistics Corpora Network 1
Organised by Onno Crasborn London, UCL, July 26-27 2009}} : présentation des corpus Spreadthesign, LS-COLIN, CREAGEST, SNCF et autres, et nombreuses références web.