Fiche pratique

Archiver mes données

L’archivage des données est une étape incontournable de tout projet de recherche ou d’expertise. L’objectif principal de cette fonction est de choisir et conserver les documents ou données qui ont une valeur légale ou patrimoniale, et garder intègres ceux qui sont susceptibles d’êtres réutilisés.

Les référentiels

Les documents de « Politique d’archivage » accompagnés des « Tableaux de gestion » en ligne sur l’intranet définissent les procédures d’archivage.
Ils prévoient les durées de conservation des documents puis leur sort final, c’est-à-dire soit leur destruction après durée de conservation, soit leur conservation définitive dans l’Institut ou auprès des Archives de France. Ces procédures tiennent compte du droit à l’oubli notamment pour les données personnelles selon les recommandations de la CNIL (Commission Nationale de l’informatique et des Libertés).
Pour les Données de la recherche il pourra être plus simple d’utiliser directement un « Plan de gestion des données » (cf fiche idoine).

La notion de durée

L’archivage s’inscrit dans le temps. Or les documents ou données nativement numériques sont peu pérennes. C’est pour cette raison que pour toute donnée numérique la durée de conservation est à documenter en début de projet (cf. fiche Documenter données).

Distinguer sauvegarde et archivage

Là où, basiquement, la sauvegarde sécurise les données en les dupliquant n fois, en monitorant les supports et en définissant des niveaux de criticité, l’archivage électronique ajoute notamment la gestion des formats et de leur pérennité. La norme principale de l’archivage pérenne est l’Iso 14721 ou OAIS (cf encadré).

Quels formats de fichiers ?

Il est à noter que les directives européennes préconisent de diffuser les documents et données dans des formats interopérables (Inspire, H2020).
C’est à cette phase du cycle de vie qu’il convient de penser aussi archivage.
On peut concrètement proposer la « règle des 5 ans ».

  • Jusqu’à 5 ans c’est un archivage court ou intermédiaire, et l’on peut stocker les données dans des formats propriétaires non archivables mais réutilisables dans ce pas de temps.
  • Au-delà de 5 ans le risque de perte lié aux formats augmente rapidement. Il faut donc les convertir vers des formats archivables, c’est-à-dire :
    – non propriétaires,
    – ouverts ou documentés (Pdf),
    – répondant à des standards (Unicode, Ascii…),
    – non cryptés et non compressés.
  • À noter : si l’on veut garder des formats propriétaires plus de 5 ans alors il faut les convertir tous les 5 ans.
  • Idéalement lorsqu’on connaît la durée de conservation/réutilisation en début de projet on peut décider de les produire directement dans un format pérenne et éviter les conversions ultérieures.
  • Ou pour l’exprimer autrement : « Ne vous demandez pas si vous devez convertir vos données, mais quand vous devrez le faire, et qui le fera ! ».
  • L’outil facile du Cines http://facile.cines.fr/ fournit une liste exhaustive des formats archivables.
  • Le cas du .csv : il est dans tous les cas largement préférable au .xls, et convient bien aux durées intermédiaires sans être un format d’archivage pérenne. Doit être documenté dans tous les cas.
  • Le nommage des fichiers est recommandé par diverses normes mais n’est vital que si les données ne sont pas documentées par ailleurs.

Le cas des bases de données

Actuellement l’archivage pérenne des bases de données informatiques (SGBD) relève de processus complexes, et dont les coûts peuvent être élevés au point d’en compromettre la faisabilité. Il existe quelques pistes sur ce problème :

  • L’OAIS cité en encart. Il fournit un cadre, utilisé notamment par le Cines, mais est peu précis sur le cas des SGDB.
  • Le format SIARD permet d’extraire les informations (données + structure) des SGBD Oracle, SQL Server, MySQL et MS Access.

Dans presque tous les cas, on se voit contraint de ré-exporter les données, ce qui est toujours lourd et génère souvent des pertes. Il n’est donc pas conseillé à ce jour d’archiver des données uniquement à l’intérieur de SGBD, sauf lorsque ceux-ci ont été conçus dès le départ dans un souci d’interopérabilité..


[dkpdf-button]

En savoir plus

L’obligation légale

Les documents et données que nous détenons, produisons ou recevons dans le cadre de notre travail dans un organisme public sont des archives publiques. Nous en sommes responsables mais pas propriétaires (Code du patrimoine, art. L.211-1). Ils ne peuvent donc être ni aliénés, ni détruits sans l’autorisation de l’administration des Archives.

Incitation à l’archivage dans le cadre de Horizon 2020

Les projets soumis doivent désormais être accompagnés d’un « plan de gestion des données », décrivant entre autres les modalités d’archivage.

L’OAIS

– Le modèle OAIS ou norme ISO 14721:2003 est un modèle conceptuel destiné à la gestion, à l’archivage et à la préservation longue de documents ainsi que des données numériques. Il constitue une référence décrivant dans les grandes lignes les fonctions, les responsabilités et l’organisation d’un système qui voudrait préserver de l’information, en particulier des données numériques, sur le long terme, pour en garantir l’accès à une communauté d’utilisateurs identifiés. Le long terme est défini comme suffisamment long pour être soumis à l’impact des évolutions technologiques.
– Un organisme comme le CINES utilise les préconisations OAIS pour son archivage pérenne.

Documentation

Liste des formats acceptés pour l’archivage numérique au Cines
Cette liste est tenue à jour, et on peut y vérifier la qualité de ses fichiers. Les formats qui n’y figurent pas sont par définition non archivables de façon pérenne pour le moment.

Guide méthodologique pour l’archivage des bases de données, Cines, Montpellier, 2013.

Le « Guide des bonnes pratiques » constitue une véritable « bible » de l’archivage numérique. Il a été mis en ligne en 2012 par la direction interministérielle des systèmes d’information et de communication de l’État (DISIC). Il comprend plusieurs exemples concrets sur comment intégrer le cycle de vie et l’archivage des données dès le début des projets, voir le dossier en ligne