IRCOM

Aspects éthique et juridique

Groupe de travail

Le groupe de travail questions juridiques, droits des personnes et des producteurs de corpus veille au sein de l'IRCOM à identifier les problèmes juridiques liés aux données orales et multimodale, et à proposer des réponses en concertation avec les experts en matière de droit.

Qui concernent-ils ?

Pour pouvoir diffuser un corpus, il est important de prêter attention à la régularité de son statut juridique. L'aspect éthique et juridique peut être subdivisé en deux volets :

  1. les droits des personnes enregistrées (protection de la vie privée) ;
  2. les droits des auteurs des corpus (propriété intellectuelle).

Pour le premier point, il est important de veiller à l'obtention d'un consentement éclairé, en portant à la connaissance du locuteur l'objectif de recherche et les niveaux de diffusion qui sont prévus, ou effectuer une anonymisation.

Pour le second point, les auteurs de corpus peuvent choisir/définir et les termes d'une licence selon lesquels ils acceptent de partager leurs ressources avec autrui. Pour les travaux effectués dans le cadre du service publique, les chercheurs peuvent être engagés à céder leurs droits patrimoniaux à leur organisme d'appartenance. Les droits moraux, en revanche, demeurent aux auteurs.

Guides de bonnes pratiques, correspondants

L'ouvrage Corpus oraux, guide des bonnes pratiques, coordonné par Olivier Baude aborde également l'aspect éthique et juridique des corpus oraux.

Le site Corinte propose également des ressources utiles sur les aspects juridique et éthique.

Le CNRS possède un comité d'éthique, le COMETS, qui publie des recommandations.

Quelques recommandations

Afin de garantir la protection de la vie privée et le droit des personnes, et de permettre la diffusion des données, il est important de veiller aux points suivants dès l'étape du recueil de données et de leur structuration à l'intérieur d'un corpus.

Le consentement éclairé

Il s'agit de porter à la connaissance de la personne enregistrée l'objectif de l'enregistrement, et de lui demander de donner explicitement son consentement (par écrit ou par oral enregistré) pour les différents niveaux d'utilisation prévues et prévisibles de ses données :

Les lecteurs sont invités à se référer aux guides présentés dans la section précédente.

Anonymisation

Afin de garantir le respect de la vie privée des personnes enregistrées, les données doivent être anonymisées dès leur entrée dans une base de données (avec des tables de correspondance consignant les identités en clair, externes à la base de données ou non publiques), même si cette base ne fait pas l'objet d'une diffusion immédiate. Cette précaution évite les manipulation ultérieures, et les éventuels oublis/confusions. Il est prudent d'éviter les initiales, mais opter pour un code par lequel le locuteur n'est plus identifiable (ex. frF01 pour une locutrice (F) de français (fr), dans un corpus multilingue).

Les fichiers contenant certaines données personnelles, telles que la date et le lieu de naissance, adresse, numéro de téléphone, etc. doivent faire l'objet d'une déclaration auprès de la CNIL à moins de correspondre à un cas de dispense sous certaines conditions. En savoir plus sur le site de la CNIL.

Voir le glossaire sur l'anonymisation.

Licence

Les licences précisent les termes de cession de certains droits, dont en particulier les droits de distribution et de reproduction.

Qu'est-ce qu'une licence ?

Les licences intéressent en particulier les auteurs qui souhaitent diffuser des corpus sous forme électronique. Les portails de dépôt et de diffusion proposent généralement une ou plusieurs déclinaisons de licences, qui doivent être acceptées par les déposants pour compléter le dépôt. Les licences Creative Commons et GNU General Public Licence sont les plus répandues parmi les logiciels libres, et peuvent être utilisées pour les ressources linguistiques également. Ces modèles de licence ou leurs déclinaisons peuvent être utilisés selon le besoin pour la diffusion sur des sites propres (projet...).

Creative Commons : modèles de licences et autres ressources (entre autres) pour la science.

Licence GNU : Initialement concue pour la distribution de logiciels libres, cette licence est utilisée telle quelle, ou comme base dans beaucoup de portails de dépôt et de diffusion de corpus.

En cas de diffusion en l'absence de licence explicite, cela ne signifie pas qu'un corpus est libre de droits. La propriété intellectuelle est un droit inaliénable qui persiste 70 ans après la mort de l'auteur, au regard du droit français (cf. légifrance.gouv.fr). Afin de garantir la libre circulation d'un corpus, il est d'autant plus important de définir explicitement ses conditions de distribution par le moyen d'une licence.

Ateliers, formations

Des ateliers et formations sur l'aspect juridique et éthique sont proposés.