Fiche pratique

Documenter, métadonnées et formats de fichiers

En quoi ça consiste ?

Avoir recours à des métadonnées d’ordre général qui décrivent :

  • le contexte du recueil des données (la description du projet, son histoire, ses objectifs et ses hypothèses de départ) ;
  • les parties prenantes du recueil des données : les membres des équipes scientifiques impliquées (noms, adresses et statuts : directeur, thésard, stagiaire…) ;
  • les dates du projet et sa durée initiale ;
  • la description de la ou des méthodes de recueil des données, du processus de collecte, les instruments utilisés, matériels et logiciels informatiques utilisés (version), échelle, granularité, couverture géographique et temporelle, description des données secondaires utilisées ;
  • la description de la structuration de la base de données et des fichiers ainsi que de leurs inter-relations ;
  • la mention et la description du cycle de vie des données  (durée de vie prévue) ;
  • la description du processus de validation des données, de leur nettoyage ;
  • la description de toutes les modifications apportées aux données et à leurs formats au-delà de la période de création ainsi que l’identification des différentes versions de formats utilisés ;
  • la description précise des conditions de réutilisation et de confidentialité des données.

Et avoir recours à des métadonnées plus spécifiques :

  • le nom des schémas de classifications utilisées (modèles d’ontologies, taxonomie, norme ISO/CEI 11179, standards….) ;
  • la définition des acronymes et des terminologies spécifiques (thésaurus interne, Gemet, Inspire, Agrovoc, Eurovoc, Geonames…) ;
  • la description des données dérivées créées après le recueil des données primaires avec les codes et algorithmes utilisés ou le fichier de commande ;
  • la description des valeurs manquantes dans la ou les bases et les raisons de ces manques.

Pour les formats de fichiers à utiliser : il est communément admis que les formats les plus susceptibles d’être accessibles à l’avenir sont ceux qui répondent aux critères suivants :

  • non propriétaire,
  • ouvert,
  • documenté,
  • dont l’usage est reconnu par la communauté scientifique en question,
  • répondant à des standards (ASCII, Unicode),
  • non crypté et non compressé.

Il est donc fortement recommandé de migrer vos données dans un format qui répond aux caractéristiques ci-dessus, en plus de conserver une copie dans le format original du logiciel.

Dans quel but ?

Documenter ses données répond à des enjeux de confiance dans la qualité des données pour l’accès, la mise à disposition, la réutilisation et l’archivage pérenne.

Une bonne documentation des données inclut nécessairement d’avoir recours à des métadonnées. Les métadonnées sont un ensemble de données structurées décrivant des ressources physiques (documents papiers tels que rapports ou ouvrages…) ou numériques (fichier PDF, articles, tables excel, photographies…). Ces informations sont souvent structurées selon des schémas internationaux  (DUBLIN CORE, ISO 19115 pour les informations géographiques…).

Ces métadonnées sont un maillon essentiel pour le partage de l’information et l’interopérabilité des bases de données et des systèmes informatiques associés. Cette étape est cruciale et indispensable pour la mise à disposition et/ou l’archivage et détermine le cycle de vie de la donnée. Des données insuffisamment documentées, ne peuvent pas être réutilisables, ni archivées. Ces éléments de description sont les garants d’une production de données fiables et authentiques.

Le format de fichier dans lequel vous conservez vos données est un facteur déterminant de la manière dont vos données seront conservées et réutilisées dans le futur.

Comme les évolutions technologiques sont constantes, il est absolument nécessaire de planifier la gestion de l’obsolescence des logiciels ainsi que du matériel informatique permettant de lire et d’exécuter les programmes à l’origine de la création des données. Comment vos données seront-elles accessibles et lues si le logiciel utilisé pour les produire devient inopérant ?

Recommandations

On peut utiliser ce type de tableau pour récapituler toutes les informations utiles à la gestion ultérieure des données.

Titre Nom du projet ou du jeu de données
Auteur/point de contact/propriétaire Nom et adresse du ou des personnes ou de l’organisation. Suivant les cas, on peut préciser : l’auteur, le propriétaire de la donnée ou à minima, un point de contact
Identifiant N° de référence (interne ou DOI ou autre…)
Sujet Description du sujet de recherche
Financeur Nom et adresses des organismes qui financent le projet
Conditions d’utilisation Droits d’auteur, licences prévues… Cette information est capitale si on veut assurer la réutilisation de la donnée.

Description de qui a droit d’accéder et les conditions à remplir.

Il faut aussi préciser les conditions de réutilisation fonctionnelle. En particulier, les usages inappropriés ou délictueux…

Langue Langue de travail courante pour le projet
Cycle de vie Durée initiale prévue de la conservation des données
Date Date et période du projet, date et/ou périodicité de mise à jour des données
Méthodologie Description matérielle de la création des données (logiciels/machine/versions programmes…)
Process de création Comment sont produites les données (processus intellectuel)
Source Descriptions des données existantes utilisées dans la création de ce nouveau jeu de données…
Listes des noms de fichiers Descriptions et noms des fichiers
Formats utilisés HTML, JPEG, CSV…
Structure de la base Description de la base et de sa structure = liste des variables et format des variables (chaine, num, date, etc.). Quel que soit le fichier, décrire le modèle conceptuel de données
Versions N° de versions des logiciels utilisés pour chaque fichier

 


[dkpdf-button]

En savoir plus

Des formats recommandés

•  PDF / A
•  ASCII
•  MPEG-4
•  TIFF ou JPEG2000
•  XML ou RDF
•  CSV

Des formats à proscrire

•  WORD (.doc)
•  EXCEL (.xls)
•  Quicktime
•  GIF