IRCOM

Normes et formats

Les normes concernant les formats et la terminologie garantissent l'interopérabilité des données : la possibilité d'effectuer des recherches pour trouver des ressources correspondant à des critères explicites, de manipuler des ressources variées avec les mêmes outils et les mêmes paramètres, de pouvoir les réunir, les comparer, et en extraire des informations de manière systématique.

Groupe de travail Interopérabilité

Le groupe de travail Interopérabilité s'intéresse en particulier aux normes et formats qui peuvent y contribuer.

Formations, ateliers

L'IRCOM soutient ou organise des formations et ateliers.

Numérisation, Stockage

En vue de garantir une pérennité à vos données, il est important de connaître les formats qui peuvent faire l'objet d'un archivage numérique institutionnel via le CINES et le CC-IN2P3.

Voir à ce sujet, le guides des formats numériques, et des bonnes pratiques numériques du TGE-Adonis. Voir également la liste des formats sur le site du Cines.

Des conseils de bonnes pratiques, de l'enregistrement jusqu'à l'archivage, peuvent être également trouvés sur le site d'OLAC.

Les portails de dépôts sont présentés sur la page Institutions.

Métadonnées

Métadonnées pour l'archivage des corpus oraux et multimodaux

Les métadonnées sont nécessaires pour l'archivage des ressources numériques. C'est l'équivalent des fiches bibliographiques des ouvrages dans les bibliothèques. Elles permettent aux informations qui y sont contenues d'être moissonnées et devenir visibles par les moteurs de recherche, par le biais du protocole OAI-PMH. Les métadonnées OLAC, orientées linguistique, sont compatibles avec ce protocole, ce qui assure à votre corpus une bonne visibilité. Des données déposées dans un centre de ressource deviennent ainsi visibles, non seulement lorsqu'on effectue une recherche dans la base de donnée de ce centre de ressources, mais également lorsqu'on utilise des moteurs de recherche génériques qui utilisent ce protocole, au côtés d'autres ressources provenant d'autres centres de ressources.

Ces métadonnées sont codées à l'aide du formalisme XML, mais des interface d'édition (formulaire html) sont proposées par les entrepôts ou centres de ressources utilisant ce standard (ex. COCOON, SLDR). Il est possible d'éditer des fiches de métadonnées en utilisant des éditeurs XML (par exemple, sur le site de E-MELD scholl of good practices), mais également dans de simples éditeurs de texte.

Nous proposons sur ce site une description détaillée des métadonnées OLAC, afin de permettre aux producteurs de ressources de bien les maîtriser.

Métadonnées pour l'enrichissement des corpus oraux et multimodaux

Les métadonnées dédiées à l'archivage restent insuffisantes pour une exploitation scientifique car le nombre restreint de descripteurs conduit à surcharger les champs libres comme "Présentation". Un atelier transversal "Métadonnées" mis en place à l'Ircom cherche à définir un jeu de descripteurs commun et évolutif, à granularité variable, qui pourrait alimenter les bonnes pratiques en matière de constitution de corpus. En évitant de reprendre les débats sur les catégorisations ou de remettre en cause les descriptions existantes, cette réflexion s'inscrit dans la continuité des téléconférences de février 2014 et de la table ronde consacrée aux formats communs en juin 2014 et bénéficiera de nombreux exemples parmi les corpus du projet Orféo.

Ces métadonnées seront basées sur les standards en cours principalement la TEI (Tei Header) et CMDI (Clarin), voire EAD (Bnf) pour certains d'entre eux, ainsi que des évolutions plus récentes orientées "web de données" comme le service Nakala d'Huma-num

Voir aussi A gentle guide to Metadata par Jeff Good (2002).

Voir également

Voir également la page sur la standardisation sur le site CORINTE.

E-MELD school of best practices : E-MELD est un projet de The Linguist List, qui vise à promouvoir un consensus sur l'infrastructure des ressources linguistiques. L'école des bonnes pratiques propose des guides pratiques divers, comme comment convertir un ancien format de données vers un format standard (éditeur de fiches de métadonnées).

Dernière mise à jour : 2014/07/29