J’ai découvert l’importance des métadonnées un soir de décembre, en pleine migration de mon vieux catalogue photo vers un nouveau système. J’avais passé des heures à photographier des événements, des voyages, des tests de matériel. Sans métadonnées structurées, j’aurais perdu tous ces repères temporels et géographiques. Ce jour-là, j’ai compris que ces données sur les données représentaient bien plus qu’une simple formalité administrative.
Les métadonnées constituent un ensemble structuré d’informations décrivant une ressource, qu’elle soit numérique ou sur support papier. Contrairement à une documentation classique lisible uniquement par l’humain, elles sont interprétables par les machines. Leur rôle dans la gestion documentaire moderne dépasse largement le simple archivage : elles répondent aux questions fondamentales du qui, quoi, où, quand, comment et pourquoi.
Ce guide analyse les différents types de métadonnées, leurs standards d’application et les outils permettant leur création efficace. Vous découvrirez comment ces informations structurées transforment la gestion des ressources dans des domaines aussi variés que les bibliothèques, les données géographiques, les documents numériques ou les fichiers images. Le web regorge aujourd’hui de contenus nécessitant une qualification précise pour être exploitables.
Types et catégories de métadonnées selon leur fonction
Les métadonnées descriptives forment la première catégorie essentielle. Elles fournissent une description bibliographique normalisée permettant l’échange de données entre systèmes. Ces informations rattachent chaque document à son original ou à ses différentes versions. Le titre, l’auteur, la date d’édition ou le nombre de pages illustrent parfaitement ce type de qualification.
Les métadonnées de structure reconstituent l’architecture complète d’un document. Elles relient les fichiers entre eux, définissent leur ordre d’affichage et précisent les relations physiques entre composants. Imaginez une monographie numérique : la pagination, l’ordre des chapitres, la table des matières constituent autant d’éléments structurels indispensables à la navigation.
Les métadonnées administratives gèrent les droits d’accès, d’usage, d’impression ou de reproduction. Elles préservent les informations techniques nécessaires à la lecture future des fichiers. Ces données garantissent l’intégrité des ressources et tracent leur historique de modifications. Un utilisateur doit savoir précisément ce qu’il peut faire avec chaque document consulté.
Ces trois types répondent à des besoins complémentaires dans la chaîne de production documentaire. Je recommande vivement de créer ces informations au moment même de la production plutôt qu’a posteriori. Le cycle de vie des ressources impose des mises à jour régulières. Les métadonnées évoluent avec les documents qu’elles décrivent, du stade de collecte jusqu’à leur archivage final.
Standards et schémas de structuration des métadonnées
Le schéma METS (Metadata Encoding and Transmission Standard) représente un pilier pour encoder les métadonnées descriptives, administratives et de structure. Maintenu par la Bibliothèque du Congrès, il comprend plusieurs sections complémentaires : l’en-tête précise les dates de création et modification du fichier, la section bibliographique décrit le type de document original, et la section de gestion documente les conditions de numérisation.
L’inventaire des fichiers classe les ressources par famille selon leur usage : images, textes, fichiers OCR. La structure de navigation définit des modes de consultation particuliers sous forme de cartes. METS intègre Dublin Core pour les métadonnées bibliographiques et PREMIS pour les métadonnées de provenance. Ce format XML s’accompagne de clauses de validation exprimées en langage Schematron.
Le schéma XML refNum, développé dans les années 1990, offrait des fonctionnalités proches avec une structure simplifiée. À partir de 2014, les nouveaux marchés de numérisation ont privilégié METS pour standardiser les échanges. Cette transition illustre l’évolution constante des standards documentaires.
Pour les données géographiques, INSPIRE impose des obligations spécifiques de création, mise à jour et publication. Les métadonnées de données décrivent les ressources cartographiques, tandis que les métadonnées de services renseignent les plateformes de consultation et téléchargement. Ces deux catégories se référencent mutuellement pour garantir la cohérence.
La conformité aux normes ISO 19115 et 19119 garantit l’interopérabilité entre systèmes. Le Géocatalogue français et la Commission européenne proposent des outils de validation contrôlant le respect des règlements, la validité des formats et la présence des champs obligatoires comme le titre, le résumé ou l’emprise géographique.
Méthodes et outils de création des métadonnées
La saisie directe en ligne via des formulaires web constitue la méthode la plus accessible. Le Géocatalogue permet d’entrer manuellement toutes les informations requises pour les données géographiques. Cette approche convient parfaitement aux petits volumes de documentation.
Les formulaires Excel avec macro facilitent la saisie en masse et l’exportation XML. J’ai personnellement utilisé cette technique lors d’un projet d’inventaire patrimonial : la structure tabulaire simplifie la réplication d’informations similaires sur des centaines de ressources. L’export automatique garantit la conformité du format final.
Des outils spécialisés comme Géosource, développé par le BRGM, proposent un moissonnage automatique vers les catalogues nationaux. Le plugin Qsphère pour QGIS respecte les guides de saisie du CNIG. Ces solutions intégrées réduisent considérablement les erreurs de qualification.
- La saisie manuelle via des interfaces web adaptées aux besoins ponctuels
- Les formulaires Excel pour traiter des volumes importants de ressources similaires
- Les outils de moissonnage permettant la réplication automatique entre systèmes
- Les plugins logiciels s’intégrant directement dans les applications métier
Pour les fichiers images, certains logiciels offrent des fonctionnalités complètes de gestion. L’affichage, la modification et l’application s’effectuent via des panneaux dédiés. Les paramètres prédéfinis accélèrent la saisie répétitive, tandis que l’outil de peinture permet une application visuelle sur plusieurs fichiers simultanément.
L’importation automatique représente un gain de temps considérable. Les nouvelles ressources héritent instantanément d’un jeu de métadonnées de base comprenant date, lieu, auteur et mots-clés génériques. Cette automatisation s’intègre naturellement dans les chaînes de production pour limiter les coûts de qualification.
Éléments essentiels à renseigner dans les métadonnées
Le titre complet et informatif constitue la première information obligatoire. Il doit refléter précisément le contenu dans la langue du public cible. Pour les jeux de données liés à des publications scientifiques, la mention Données de réplication pour améliore la traçabilité.
Le point de contact comprend le nom complet, l’affiliation avec l’acronyme du laboratoire et les tutelles, ainsi qu’un courriel. L’auteur s’identifie par son nom, son affiliation au moment de la production, et idéalement son identifiant ORCID. Cette référence unique évite toute confusion entre homonymes.
La description prend la forme d’un résumé expliquant l’intérêt, les objectifs, le contexte de production et le potentiel de réutilisation. Ce texte détermine souvent la découvrabilité sur le web. Une version bilingue accroît significativement la visibilité internationale.
Les éléments recommandés enrichissent considérablement la qualification. Les contributeurs ayant participé sans être auteurs principaux méritent une mention. Les producteurs détenant la responsabilité administrative doivent être identifiés avec leurs tutelles. Les dates de production et collecte suivent un format normalisé AAAA-MM-JJ.
La localisation géographique précise le lieu de collecte des données. Les mots-clés issus de vocabulaires contrôlés comme AgroVoc, GEMET ou MeSH facilitent l’identification thématique. Ces référentiels disciplinaires structurent la documentation scientifique selon des standards reconnus internationalement.
L’origine des données précise leur mode de production : observation, expérimentation, simulation, compilation. Les logiciels utilisés sont documentés avec leurs versions exactes pour garantir la reproductibilité. Les publications et jeux de données associés établissent des liens contextuels précieux pour les utilisateurs.
Les informations sur le financement incluent les agences et numéros de subvention. Les projets de recherche sont identifiés par leurs acronymes et identifiants uniques. La période couverte par les données diffère de leur date de création : elle représente l’intervalle temporel décrit par les informations collectées.
