Outils logiciels pour le développement et l'utilisation de corpus oraux et multimodaux

Les outils logiciels permettent d'enrichir (transcrire, annoter...) les enregistrements bruts, afin de permettre leur exploitation linguistique. Le développement de ces ressources secondaires demande un temps de traitement important, plusieurs fois le temps réel, et donc très coûteux.

Les ressources secondaires représentent donc, au même titre que les enregistrements bruts, des ressources linguistiques précieuses. Afin de sauvegarder et de pérenniser ce patrimoine, leur archivage est recommandé au même titre que les ressources primaires. Toutefois, contrairement à ces dernières, le format des ressources secondaires dépend des logiciels qui ont permis de les développer, et sans eux leur potentiel d'exploitation reste limité. Or, si les fichiers d'annotation, au format texte, peuvent être sauvegardés de manière pérenne, la préservation des logiciels, qui dépendent des plateformes, n'est pas garantie.

Afin de maximiser ses chances pour que les ressources secondaires développées restent intelligibles dans leur intégralité (contenu et structure), on peut proposer quelques recommandations :

utiliser des logiciels dont le format des données est open-source, c'est-à-dire que la strucure interne des données est connue. En cas d'extinction du logiciel, des scripts de conversion pourront permettre aux données d'être importées dans d'autres outils ;

utiliser des logiciels libres, dont le code source est ouvert, pour lesquels il existe une communauté conséquente de développeurs susceptibles de maintenir le logiciel à jour (lors des changements de plateformes...) et les anciens fichiers lisibles.

Fonctionalités de logiciels courants

Logiciel	description	Organisation des données	Annotation	Alignement	Visualisation	Video	Fouille/analyse
Anvil	Logiciel d'annotation de corpus vidéo, spécialisé pour l'annotation de gestes et de langue des signes	x	x	x	x	x	x
Arbil (détails)	Permet d'éditer des fiches de métadonnées structurées IMDI et CMDI	x	-	-	-	-	-
CLAN (détails)	Logiciel pour explorer la base CHILDES		x	x	x	x	x
Dolmen	Mêmes fonctionnalités de recherche que sur la plateforme Web du projet PFC	x	-	-	-	-	x
EasyAlign (détails)	Permet de générer et d'aligner semi-automatiquement des annotations phonétiques à partir de la transcription	x	-	x	x	-	-
ELAN (détails)	Logiciel d'annotation de corpus vidéo	x	x	x	x	x	x
eLite-HTS	Application Web générant des fichiers TextGrid pour entraîner des synthétiseurs HMM
EMU
EXMARaLDA
iLex	Logiciel d'annotation de corpus vidéo et base de données, spécialisés pour l'annotation de langue des signes	x	x	x	x	x	x
IMPACT--	Outil pédagogique développé à l’Université de Lausanne s’adressant aux enseignants et aux étudiants concernés par la consultation, la transcription et le commentaire de sources audio-visuelles
IrcamCorpusTools	Plate-forme ouverte et facilement extensible pour la création, l’analyse et l’exploitation de corpus de parole
ITE	Permet d'annoter sur plusieurs niveaux. Génère un document XML avec la DTD du LACITO, utilisée pour l'archive du LACITO. Un lexique est construit au fur et à mesure pour faciliter la saisie. Mise à jour non suivie.
MAUS	Alignement phonétique à partir du son et de la transcription orothographique. A télécharger ou à utiliser en ligne			x
Phon	Exploration phonologique des bases de données CHILDES et TalkBank	x	x	x		x
Praat (détails)	Traitement du son, annotation, analyse du signal, mesures diverses, scripts	x	x	x	-	-
TELEMETA	Application web à installer sur votre serveur, développé par Parisson en collaboration avec le CREM (UMR 7186), conçu initialement pour les documents sonores d'ethnomusicologie	x	x	x	x	-	-
Toolbox	Permet d'organiser et d'analyser ses données linguistiques écrites. Annotation multi-linéaire, création de lexiques, tri, accepte des extensions linguistiques Unicode
SailAlign	Boîte à outils d'alignement phonétique robuste au bruit et aux erreurs de transcription, acceptant de très longues séquences. Langues prises en charge : anglais, espagnol.
SPPAS	Outil d'annotation phonétique avec alignement son-texte automatisé. Langues prises en charge : français, italien, espagnol, chinois mandarin, anglais, taiwanais, cantonais, japonais, polonais, catalan		x	x	x		x
Train&Align	Alignement automatique du son avec sa transcription		x
Transana
Transcriber		-	x	x	x		-
Wavesurfer	Edition de fichiers son, programme léger. Spectrogrammes en temps réel	-	x	x	x	-	-
Winpitch	Visualisation en temps réel, analyse et re-synthèse de la courbe mélodique, interfaces Praat, Transcriber, Excel, ..., multimodal, données Unicode (avec écritures droite-gauche), alignement texte assisté, segmentation automatique, statistiques, création de lexiques, transcription API automatique, etc.	x	x	x	x	x	x

Scripts

fonction	lien	auteur
filtrage de portions de son pour anonymisation (Praat)	http://hdl.handle.net/11041/sldr000526	D. Hirst

Voir également les ressources inventoriées sur le site du projet EMELD de Linguist List.

Arbil

Description : Permet d'éditer des fiches de métadonnées structurées IMDI et CMDI.

Site officiel : tla.mpi.nl/tools/tla-tools/arbil/.

Manuels : pour IMDI, pour CMDI.

CLAN

Description : Logiciel pour explorer la base CHILDES.

Site officiel : tla.mpi.nl/tools/tla-tools/arbil.

Manuels : childes.psy.cmu.edu/manuals/CLAN.pdf.

EasyAlign

Description : Basé sur la reconnaissance de la parole, il permet de générer et d'aligner semi-automatiquement des annotations phonétiques à partir de la transcription orthographique ou phonétique d'énoncés. Langues prises en charge (extensible à d'autres langues moyennant transcodage phonétique) : français, espagnol, portugais du Brésil, taiwanais min nan, slovaque.

Site officiel : latlcui.unige.ch/phonetique/easyalign.php.

Manuels : latlcui.unige.ch/phonetique/easyalign/Tutorial_EasyAlign.pdf.

ELAN

Description : Logiciel d'annotation de corpus vidéo.

Site officiel : www.lat-mpi.eu/tools/elan.

Manuels :

transcription et annotation mutimodale sous ELAN (accès restreint);

version anglaise développée dans le cadre de l'ANR Multimodalité 2005-2009 (J.-M. Colletta et al.) (accès restreint) ;

le LLACAN propose des manuels, dont ELAN et ELAN-CorpA.

Praat

Description : Traitement du son, annotation, analyse du signal, mesures diverses, scripts.

Site officiel : www.fon.hum.uva.nl/praat.

Manuels : Le LLACAN propose un manuel de prise en main et des liens intéressants vers les plug-ins et scripts Praat.

Autres Manuels

Annotation de Vidéo

Le site CORVIS (ICAR & Huma-Num) propose un comparatif illustré des logiciels d'annotation pour la vidéo.

IMDI

Les métadonnées IMDI sont en voie d'être remplacées par des standards internationaux (CMDI). Il est toutefois probable que la plupart des champs puissent faire partie d'un schème compatible avec ces nouveaux standards. Il s'agit donc d'un schème de métadonnées intéressant car plus détaillé que le schème OLAC, et à priori convertible en l'état ou moyennant des ajustements mineurs dans les standards futurs.

IMDI editor (MPI, Nijmegen) : Manuel

Autres

Voir les manuels proposés par le LLACAN (Shoebox/Toolbox, Saisie de caractères spéciaux...)

Voir également le portail Corinte (corpus d'interactions), qui propose un inventaire des logiciels servant à l'alignement

Voir également la page de Karën Fort (LIPN) sur l'annotation

Voir la page décrivant les outils et les liens de téléchargement des formations IRCOM 2011

Concernant l'organisation des données, voir également : organisation de fichiers et plan de nommage.

Outils de conversion

Des outils de conversion existent pour passer d'un logiciel à un autre, par exemple lorsque l'annotation porte sur plusieurs niveaux linguistiques qui ne peuvent pas être gérés dans un logiciel unique, ou lorsque les outils évoluent, et qu'il devient nécessaire de migrer d'anciennes données vers un nouveau logiciel.

CLAN

CLAN permet d'importer les formats PRAAT, ELAN, ANVIL, PHON, LIPP, et d'exporter vers PRAAT, ELAN, ANVIL, PHON, EXMARALDA.

Cf. le tutoriel de Christophe Parisse.

SLAAP tools (Sociolinguistic Archive and Analysis Project, NC State University)

Site officiel : ncslaap.lib.ncsu.edu/tools.

Scripts de conversion (dont TRANSCRIBER -> PRAAT) écrits en Perl et possibilité de conversion en ligne via le site web.

Transpraat, ou Plateforme PFC, ou Dolmen

Site officiel : www.projet-pfc.net/index.php?option=com_docman&task=cat_view&gid=933&Itemid=179 (Compatible Windows, MacOSX, Linux).

Outre l'annotation de corpus, ce logiciel possède une compatibilité avec Praat qui permet de passer de l'un à l'autre pour l'analyse.

XML2Pra (Praat) et Pra2XML

Site officiel : kiwi.emse.fr/ANON/software.html (source en C, testé sous Linux).

Scripts proposés par J.-J. Girardot du groupe ANON de l'EMSE (Ecole des Mines de Saint-Etienne). La DTD XML modélise ici la structure des fichiers TextGrid de Praat.

Possibilité de conversion XML -> et XML -> CLAN en ligne à l'adresse weblex.ens-lsh.fr/projects/xitools/tools/tools.php?conv=pxml.

Autour de la TEI

Voir www.tei-c.org/Tools/.

Annotation collaborative

L'annotation d'un corpus numérique est destinée à s'enrichir de manière cumulative, afin de pouvoir être exploitée dans des domaines variés (ex. un corpus construit pour étudier la syntaxe peut aussi servir à une analyse phonétique, etc.). L'annotation est donc vouée à être un travail collaboratif, d'où l'importance d'utiliser des formats standards et des conventions orientées vers l'interopérabilité.

De l'annotation au traitement automatique du langage naturel

Tandis que la transcription/annotation constitue une ressource secondaire pour les corpus oraux et multimodaux, elle peut devenir à son tour le matériau primaire pour le traitement automatique de son contenu linguistique (ex. reconnaissance des entités nommées, extraction d'information, annotation et analyse (morpho-)syntaxique, ontologies, annotation sémantique, analyse des sentiments, annotation semi- ou non-supervisée, traduction automatique...). Ces technologies peuvent non seulement permettre d'enrichir nos connaissances sur le contenu des corpus ou nous faire gagner du temps pour leur enrichissement préalable à l'analyse, mais également d'explorer des interfaces : ex. gestes-syntaxe, prosodie-sentiments, hésitations-stratégies d'argumentation, etc. En réalité les corpus numériques ouvrent de nouveaux champs de recherches grâces aux technologies émergentes et l'interdisciplinarité.

Dernière mise à jour : 2015/06/11