IRCOM

Ressources pour l'étude de corpus oraux et multimodaux

Cette page complète les corpus mentionnés dans la page Inventaire corpus, et les organismes dans la page Institutions.

Moteurs de recherche de corpus

Catalogue OLAC (Open Language Archives Community) : Permet d'effectuer des recherches sur toutes les ressources du monde exposant des métadonnées OLAC (+ DC et IMDI).

IMDI Browser (DoBeS, MPI) : permet d'effectuer des recherches sur les ressources documentées au format IMDI.

Isidore (TGE-Adonis) : recherche de ressources en sciences humaines et sociales

Corpus, archives et portails de dépôt à l'international

Pour les corpus et centres de ressources en France : voir la page Inventaire corpus

AILLA (The archives of the indigenous languages of Latin America) : les recherches de corpus doitvent se faire dans l'archive même. Non moissonné par OLAC.

Projets Elicop, Elilap et Lancom : Voix d'Auvergne, Livre parlé de Tours, Corpus d'Orléans.

CHILDES : portail d'échange de données sur la parole enfantine (dont de nombreux corpus sur le français). Fait partie de TalkBank, moissoné par OLAC.

UCLA Phonetics Lab Archives

DoBeS

SOAS

TalkBank : portail d'archivage de la communication humaine et animale, subdivisé en base de données thématiques relevant des domaines scientifiques variés (ex. PhonBank sur le développement phonologique de l'enfant).

Portail de Metashare

British National Corpus

Bases de données

Les bases de données suivantes, dérivées de données orales ou multimodales, comportent des informations linguistiques structurées, sur lesquelles des requêtes peuvent être exécutées. Dans la plupart des bases de données, il est possible d'apporter votre contribution en fournissant des données codées en suivant les spécifications fournies.

Base institution coordinatrice informations codées conditions accès comment l'utiliser modalités de citation à noter
Childes (sous-ensemble de TalkBank) CMU (Carnegie Mellon University) différents niveaux d'autorisations (accès libre à privé) logiciel CLAN
CQPweb Lancaster University catégories grammaticales, traduction (dépend des corpus) identification nécessaire (différents niveaux d'autorisations selon les ensembles) Application web, requêtes simples ou requêtes élaborées à base d'expressions régulières
PFC (Phonologie du français contemporain) cf. page détaillée schwa, liaison libre moteur de recherche sur le site du projet ; logiciels téléchargeables
PhonBank (sous-rnsemble de CHILDES portant sur le développement du système phonologique) logiciel Phon
TDS (Typological Database System) Dutch National Graduate School in Linguistics (LOT) informations typologiques diverses compilées à partir de plusieurs bases de données (phonologie, morphologie, syntaxe, sémantique lexicale...) libre Application web

Organismes divers

The Association for Computational Linguistics