IRCOM

Présentation de THESOC

Laboratoire(s) participant(s)

BCL

Responsable(s)

Michèle OLIVIERI, Jean-Philippe DALBERA

Objet

Objectifs scientifiques discipline début-fin recueil/enrichissement/exploitation nombre de personnes impliquées
Rassembler l'ensemble des données dialectales recueillies par voie orale dans l'aire occitane dans une base de données multimédia, dotée d'outils d'analyse spécifiques. dialectologie, diachronie, reconstruction lexicale, phonologie, morphologie, syntaxe 1992- enr. et expl. 10

Données orales/multimodales

Audio/video/autre Matériel/technique d'enregistrement Volume sont-elles numérisées ? Support
Audio et vidéo magnétophones à bandes ou à cassettes (XXè siècle), zoom H4 (XXIè siècle) 154 bandes magnétiques et 85 cassettes (durée variable) + environ 42h d'enregistrements numériques partiellement (34 bandes magnétiques) bandes magnétiques, cassettes, enregistrements numériques
Langues Pays d'enregistrement Années d'enregistrement Nombre de locuteurs enregistrés Tâche linguistique
dialectes occitans France depuis 1950 enquête linguistique : mots, phrases, récits
Métadonnées Manuscrite/numérique/format ? données structurées ? Standards
très peu manuscrites les transcriptions en API figurent dans la base de données THESOC, quelques sons et images sont intégrés dans la base

Annotation (transcription) et alignement

Manuscrites/numériques ? Par qui ? Alignées ? Volume annoté Type d'information codée Convention ? Format des fichiers
transcriptions en API Les enseignants-chercheurs et les étudiants Les données textuelles sont en cours d'annotation morpho-syntaxique dans le module morpho-syntaxique du THESOC. divers
Annotation et enrichissement collaboratifs

Anonymisation et autorisations d'exploitation et de diffusion

Une anonymisation a-t-elle été effectuée ? Les enregistrements comportent-ils des données personnelles ?
seulement lorsque l'informateur l'a souhaité oui, si on veut...

Sauvegarde, pérenisation, diffusion

Moyens de sauvegarde et pérenisation* Condition d'accès aux données Volume accessible Volume téléchargeable Personne à contacter
l'intégration dans le Thesoc en cours Une partie des données figurent dans le site web du Thesoc (http://thesaurus.unice.fr/), les autres sont destinées à y figurer lorsque cela sera possible. olivieri@unice.fr

* L'archivage pérenne concerne l'archive publique, un moyen de pérennisation institutionnel des documents créés dans le cadre de l'exercice du service public. Il s'agit d'une notion distincte du dépôt sur un portail de diffusion ou d'une sauvegarde sur un serveur sécurisé, pour lesquels la pérennité des données n'est pas garantie dans le long terme.