Les outils logiciels permettent d'enrichir (transcrire, annoter...) les enregistrements bruts, afin de permettre leur exploitation linguistique. Le développement de ces ressources secondaires demande un temps de traitement important, plusieurs fois le temps réel, et donc très coûteux.
Les ressources secondaires représentent donc, au même titre que les enregistrements bruts, des ressources linguistiques précieuses. Afin de sauvegarder et de pérenniser ce patrimoine, leur archivage est recommandé au même titre que les ressources primaires. Toutefois, contrairement à ces dernières, le format des ressources secondaires dépend des logiciels qui ont permis de les développer, et sans eux leur potentiel d'exploitation reste limité. Or, si les fichiers d'annotation, au format texte, peuvent être sauvegardés de manière pérenne, la préservation des logiciels, qui dépendent des plateformes, n'est pas garantie.
Afin de maximiser ses chances pour que les ressources secondaires développées restent intelligibles dans leur intégralité (contenu et structure), on peut proposer quelques recommandations :
Logiciel | description | Organisation des données | Annotation | Alignement | Visualisation | Video | Fouille/analyse |
---|---|---|---|---|---|---|---|
Anvil | Logiciel d'annotation de corpus vidéo, spécialisé pour l'annotation de gestes et de langue des signes | x | x | x | x | x | x |
Arbil (détails) | Permet d'éditer des fiches de métadonnées structurées IMDI et CMDI | x | - | - | - | - | - |
CLAN (détails) | Logiciel pour explorer la base CHILDES | x | x | x | x | x | |
Dolmen | Mêmes fonctionnalités de recherche que sur la plateforme Web du projet PFC | x | - | - | - | - | x |
EasyAlign (détails) | Permet de générer et d'aligner semi-automatiquement des annotations phonétiques à partir de la transcription | x | - | x | x | - | - |
ELAN (détails) | Logiciel d'annotation de corpus vidéo | x | x | x | x | x | x |
eLite-HTS | Application Web générant des fichiers TextGrid pour entraîner des synthétiseurs HMM | ||||||
EMU | |||||||
EXMARaLDA | |||||||
iLex | Logiciel d'annotation de corpus vidéo et base de données, spécialisés pour l'annotation de langue des signes | x | x | x | x | x | x |
IMPACT-- | Outil pédagogique développé à l’Université de Lausanne s’adressant aux enseignants et aux étudiants concernés par la consultation, la transcription et le commentaire de sources audio-visuelles | ||||||
IrcamCorpusTools | Plate-forme ouverte et facilement extensible pour la création, l’analyse et l’exploitation de corpus de parole | ||||||
ITE | Permet d'annoter sur plusieurs niveaux. Génère un document XML avec la DTD du LACITO, utilisée pour l'archive du LACITO. Un lexique est construit au fur et à mesure pour faciliter la saisie. Mise à jour non suivie. | ||||||
MAUS | Alignement phonétique à partir du son et de la transcription orothographique. A télécharger ou à utiliser en ligne | x | |||||
Phon | Exploration phonologique des bases de données CHILDES et TalkBank | x | x | x | x | ||
Praat (détails) | Traitement du son, annotation, analyse du signal, mesures diverses, scripts | x | x | x | - | - | |
TELEMETA | Application web à installer sur votre serveur, développé par Parisson en collaboration avec le CREM (UMR 7186), conçu initialement pour les documents sonores d'ethnomusicologie | x | x | x | x | - | - |
Toolbox | Permet d'organiser et d'analyser ses données linguistiques écrites. Annotation multi-linéaire, création de lexiques, tri, accepte des extensions linguistiques Unicode | ||||||
SailAlign | Boîte à outils d'alignement phonétique robuste au bruit et aux erreurs de transcription, acceptant de très longues séquences. Langues prises en charge : anglais, espagnol. | ||||||
SPPAS | Outil d'annotation phonétique avec alignement son-texte automatisé. Langues prises en charge : français, italien, espagnol, chinois mandarin, anglais, taiwanais, cantonais, japonais, polonais, catalan | x | x | x | x | ||
Train&Align | Alignement automatique du son avec sa transcription | x | |||||
Transana | |||||||
Transcriber | - | x | x | x | - | ||
Wavesurfer | Edition de fichiers son, programme léger. Spectrogrammes en temps réel | - | x | x | x | - | - |
Winpitch | Visualisation en temps réel, analyse et re-synthèse de la courbe mélodique, interfaces Praat, Transcriber, Excel, ..., multimodal, données Unicode (avec écritures droite-gauche), alignement texte assisté, segmentation automatique, statistiques, création de lexiques, transcription API automatique, etc. | x | x | x | x | x | x |
fonction | lien | auteur |
---|---|---|
filtrage de portions de son pour anonymisation (Praat) | http://hdl.handle.net/11041/sldr000526 | D. Hirst |
Voir également les ressources inventoriées sur le site du projet EMELD de Linguist List.
Description : Permet d'éditer des fiches de métadonnées structurées IMDI et CMDI.
Site officiel : tla.mpi.nl/tools/tla-tools/arbil/.
Manuels : pour IMDI, pour CMDI.
Description : Logiciel pour explorer la base CHILDES.
Site officiel : tla.mpi.nl/tools/tla-tools/arbil.
Manuels : childes.psy.cmu.edu/manuals/CLAN.pdf.
Description : Basé sur la reconnaissance de la parole, il permet de générer et d'aligner semi-automatiquement des annotations phonétiques à partir de la transcription orthographique ou phonétique d'énoncés. Langues prises en charge (extensible à d'autres langues moyennant transcodage phonétique) : français, espagnol, portugais du Brésil, taiwanais min nan, slovaque.
Site officiel : latlcui.unige.ch/phonetique/easyalign.php.
Manuels : latlcui.unige.ch/phonetique/easyalign/Tutorial_EasyAlign.pdf.
Description : Logiciel d'annotation de corpus vidéo.
Site officiel : www.lat-mpi.eu/tools/elan.
Manuels :
Description : Traitement du son, annotation, analyse du signal, mesures diverses, scripts.
Site officiel : www.fon.hum.uva.nl/praat.
Manuels : Le LLACAN propose un manuel de prise en main et des liens intéressants vers les plug-ins et scripts Praat.
Le site CORVIS (ICAR & Huma-Num) propose un comparatif illustré des logiciels d'annotation pour la vidéo.
Les métadonnées IMDI sont en voie d'être remplacées par des standards internationaux (CMDI). Il est toutefois probable que la plupart des champs puissent faire partie d'un schème compatible avec ces nouveaux standards. Il s'agit donc d'un schème de métadonnées intéressant car plus détaillé que le schème OLAC, et à priori convertible en l'état ou moyennant des ajustements mineurs dans les standards futurs.
IMDI editor (MPI, Nijmegen) : Manuel
Voir les manuels proposés par le LLACAN (Shoebox/Toolbox, Saisie de caractères spéciaux...)
Voir également la page de Karën Fort (LIPN) sur l'annotation
Voir la page décrivant les outils et les liens de téléchargement des formations IRCOM 2011
Concernant l'organisation des données, voir également : organisation de fichiers et plan de nommage.
Des outils de conversion existent pour passer d'un logiciel à un autre, par exemple lorsque l'annotation porte sur plusieurs niveaux linguistiques qui ne peuvent pas être gérés dans un logiciel unique, ou lorsque les outils évoluent, et qu'il devient nécessaire de migrer d'anciennes données vers un nouveau logiciel.
CLAN permet d'importer les formats PRAAT, ELAN, ANVIL, PHON, LIPP, et d'exporter vers PRAAT, ELAN, ANVIL, PHON, EXMARALDA.
Cf. le tutoriel de Christophe Parisse.
Site officiel : ncslaap.lib.ncsu.edu/tools.
Scripts de conversion (dont TRANSCRIBER -> PRAAT) écrits en Perl et possibilité de conversion en ligne via le site web.
Site officiel : www.projet-pfc.net/index.php?option=com_docman&task=cat_view&gid=933&Itemid=179 (Compatible Windows, MacOSX, Linux).
Outre l'annotation de corpus, ce logiciel possède une compatibilité avec Praat qui permet de passer de l'un à l'autre pour l'analyse.
Site officiel : kiwi.emse.fr/ANON/software.html (source en C, testé sous Linux).
Scripts proposés par J.-J. Girardot du groupe ANON de l'EMSE (Ecole des Mines de Saint-Etienne). La DTD XML modélise ici la structure des fichiers TextGrid de Praat.
Possibilité de conversion XML -> et XML -> CLAN en ligne à l'adresse weblex.ens-lsh.fr/projects/xitools/tools/tools.php?conv=pxml.
Voir www.tei-c.org/Tools/.
L'annotation d'un corpus numérique est destinée à s'enrichir de manière cumulative, afin de pouvoir être exploitée dans des domaines variés (ex. un corpus construit pour étudier la syntaxe peut aussi servir à une analyse phonétique, etc.). L'annotation est donc vouée à être un travail collaboratif, d'où l'importance d'utiliser des formats standards et des conventions orientées vers l'interopérabilité.
Tandis que la transcription/annotation constitue une ressource secondaire pour les corpus oraux et multimodaux, elle peut devenir à son tour le matériau primaire pour le traitement automatique de son contenu linguistique (ex. reconnaissance des entités nommées, extraction d'information, annotation et analyse (morpho-)syntaxique, ontologies, annotation sémantique, analyse des sentiments, annotation semi- ou non-supervisée, traduction automatique...). Ces technologies peuvent non seulement permettre d'enrichir nos connaissances sur le contenu des corpus ou nous faire gagner du temps pour leur enrichissement préalable à l'analyse, mais également d'explorer des interfaces : ex. gestes-syntaxe, prosodie-sentiments, hésitations-stratégies d'argumentation, etc. En réalité les corpus numériques ouvrent de nouveaux champs de recherches grâces aux technologies émergentes et l'interdisciplinarité.
Dernière mise à jour : 2015/06/11