Données, métadonnées et modélisation : comprendre l'infrastructure invisible des musées

Published: 2025-10-29
Updated: 2026-01-15

Emmanuel Château-Dutier, mon directeur de recherche, m’a offert la possibilité et responsabilité de reprendre sa charge de cours “Introduction aux métadonnées” pour les étudiants de la maîtrise en muséologie. Je vous propose donc ici, en m’inspirant de son cours, un petit article définissant les données, métadonnées et leurs modélisations pour les institutions muséales.

Quand l’œuvre devient donnée

Dès 1951, la documentaliste française Suzanne Briet¹ avançait une idée provocante : une œuvre dans un musée devient une donnée, comparable à un fichier stocké dans un dossier. Cette perspective peut surprendre, mais elle souligne une réalité fondamentale des institutions patrimoniales : conserver, c’est aussi gérer de l’information.

Mais qu’est-ce qu’une donnée, exactement ? Selon la définition classique, il s’agit de « ce qui est connu et qui sert de point de départ à un raisonnement » : une observation, une mesure, une description élémentaire de la réalité. Dans le contexte muséal, les données incluent tout ce qui permet d’identifier, de décrire et de contextualiser un objet : son numéro d’inventaire, ses dimensions, ses matériaux, sa provenance, son état de conservation, son emplacement, les analyses scientifiques dont il a fait l’objet…

Le chercheur Rob Kitchin (2014)² propose une distinction éclairante : si un fait est faux, il cesse d’être un fait ; mais si une donnée est fausse, elle reste une donnée. Les données existent avant leur interprétation. C’est cette interprétation qui les transforme en informations, puis en connaissances. Comme le formule poétiquement David Weinberger³ : « L’information est aux données ce que le vin est à la vigne ».

Un autre point crucial : les données ne valent rien en isolation. Comme le souligne Christine Borgman (2015)⁴, « les données n’ont pas de valeur ou de signification isolées ; elles existent au sein d’une infrastructure de connaissances ». C’est leur mise en relation, leur contexte, qui leur donne du sens.

Les métadonnées, ou « l’information sur l’information »

Si les données sont essentielles, les métadonnées le sont tout autant. Le terme, formé du préfixe grec meta- (« au-delà » ou « à propos de »), désigne littéralement des « données sur les données ».

Prenons un exemple simple : pour une photographie, l’image elle-même est la donnée ; mais les coordonnées géographiques du lieu de prise de vue, la date, le nom du photographe, les conditions techniques (appareil, réglages) sont des métadonnées. Elles ne remplacent pas la photo, mais elles permettent de la retrouver, de la comprendre et de l’utiliser.

Dans le monde muséal, les métadonnées prennent souvent la forme de notices documentaires : ces descriptions structurées qui accompagnent chaque objet dans les catalogues et bases de données. Mais leur portée est beaucoup plus large. Elles incluent aussi les informations nécessaires à la gestion administrative, à la conservation, aux droits d’auteur, à la diffusion numérique.

Une infrastructure omniprésente… et longtemps invisible

Les métadonnées sont partout dans notre quotidien numérique. Lorsque vous cherchez un livre dans une bibliothèque en ligne, ce sont les métadonnées qui permettent de le retrouver. Quand vous faites une recherche sur Google, ce sont elles qui hiérarchisent les résultats. Quand une photo circule sur votre téléphone, ce sont encore elles qui indiquent la date, le lieu, l’appareil utilisé.

Pourtant, comme le rappelle Jeffrey Pomerantz (2015)⁵, les métadonnées sont longtemps restées en arrière-plan, invisibles. Elles sont devenues un enjeu public majeur en 2013, lorsque Edward Snowden a révélé l’existence de programmes de surveillance mondiale basés sur la collecte massive de métadonnées⁶. Ce scandale a mis en lumière leur puissance stratégique : derrière des informations apparemment anodines se cache un instrument de contrôle considérable. Malgré cette prise de conscience post-Snowden, la collecte de métadonnées semble s’être intensifiée plutôt que réduite, souvent acceptée par commodité ou par méconnaissance de leurs implications réelles. Le débat reste vif entre sécurité collective et protection de la vie privée.

Dans le champ culturel, les enjeux sont différents mais tout aussi importants : organiser, standardiser et décrire les collections implique de choisir ce que l’on met en avant, ce que l’on relie, ce que l’on invisibilise. Les métadonnées ne sont jamais neutres ; elles reflètent des choix techniques, mais aussi culturels et politiques.

Différents types de métadonnées pour différents usages

L’Observatoire de la culture et des communications du Québec (2017)⁷ distingue plusieurs catégories fonctionnelles :

Métadonnées descriptives : titre, auteur, sujet, matériaux, date – tout ce qui décrit le contenu
Métadonnées administratives : date de création du fichier, logiciel utilisé, provenance – pour la gestion interne
Métadonnées juridiques : droits d’auteur, licences, mentions obligatoires – essentielles pour la diffusion
Métadonnées techniques : format, résolution, taille du fichier – caractéristiques numériques
Métadonnées d’usage : nombre de vues, téléchargements – générées automatiquement par l’activité des usagers
Identifiants uniques : ISBN, DOI, ISNI – codes normalisés assurant l’identification stable

Cette typologie montre que les métadonnées dépassent largement la simple description. Elles constituent une infrastructure invisible qui relie les contenus, assure leur gestion et permet leur circulation.

Des standards pour un langage commun

Pour que les métadonnées soient vraiment utiles, elles doivent être structurées, normalisées et interopérables. C’est-à-dire : compréhensibles et exploitables aussi bien par les humains que par les machines, et capables de circuler entre différents systèmes.

Les institutions patrimoniales distinguent généralement trois familles de standards :

Standards de structure : quels éléments décrire ? (Dublin Core, CDWA, VRA Core)
Standards de vocabulaire : quels termes utiliser ? (Art & Architecture Thesaurus, thésaurus de la Library of Congress)
Standards de contenu : comment saisir l’information ? (règles de catalogage)

Ces standards ne sont pas que techniques : ils sont aussi des espaces de négociation et de pouvoir. Celui qui impose son modèle influence la manière dont l’information sera organisée, valorisée et diffusée.

Inclusion, éthique et justice de l’information

Les métadonnées traduisent des choix culturels et sociaux. Les termes utilisés pour décrire les documents reflètent des valeurs, des priorités, et parfois des biais. Plusieurs initiatives visent aujourd’hui à rendre la description documentaire plus inclusive.

Au Québec, la Table permanente de concertation des bibliothèques (2016)⁸ affirme que la bibliothèque garantit un accès libre et sans discrimination grâce au travail de structuration de l’information. Le Principe de Joyce (2020)⁹ rappelle l’importance de la reconnaissance des savoirs autochtones et du respect de la diversité culturelle, inspirant une approche plus équitable dans la gestion des métadonnées. Dans cette perspective, les travaux de Stacy Allison-Cassin et ses collègues (2025) sur le développement d’une ontologie et d’un vocabulaire contrôlé propres aux communautés des Premières Nations, Métis et Inuit démontrent les défis et la nécessité de créer des structures de données qui reflètent véritablement les épistémologies autochtones dans le contexte canadien ¹⁰.

Les métadonnées deviennent ainsi des instruments de justice informationnelle, soutenant la représentation équitable des communautés et la transparence des sources.

La modélisation et les différentes façons de représenter la réalité

Si les données sont la matière première et les métadonnées leur description, la modélisation est l’architecture qui les structure. Il s’agit de choisir comment organiser l’information, selon quel modèle conceptuel.

Au fil du temps, quatre grands modèles de données se sont imposés, chacun avec ses forces et ses limites ¹¹.

1. Le modèle tabulaire, simple mais limité

Le modèle le plus intuitif se présente sous la forme d’un simple tableau avec des colonnes et des lignes. C’est l’univers des fichiers Excel ou CSV. Chaque ligne représente un objet, chaque colonne un type d’information.

Ce modèle offre plusieurs avantages. Il est accessible, facile à comprendre et à manipuler pour un petit nombre de données.

Ses limites sont cependant nombreuses. On observe une répétition des informations, des risques d’erreurs de frappe, et une difficulté avec les valeurs multiples (la question se pose de savoir comment gérer plusieurs auteurs pour une même œuvre). La visualisation devient complexe au-delà d’un certain nombre de colonnes, et il n’existe aucun contrôle de cohérence.

C’est exactement pour dépasser ces limites qu’ont été inventées les bases de données relationnelles.

2. Le modèle relationnel, puissant mais rigide

Développé dans les années 1970, le modèle relationnel organise les données en tables reliées par des clés. Au lieu de tout mettre dans un seul tableau, on crée des entités distinctes (une table pour les œuvres, une pour les artistes, une pour les lieux) et on établit des relations entre elles.

Ce modèle présente de nombreux avantages. Il est très puissant, gère efficacement de grandes quantités de données structurées, évite la redondance et garantit la cohérence.

Toutefois, ses limites ne sont pas négligeables. Il se révèle peu flexible face aux changements (modifier le schéma peut être complexe), et il nécessite une couche supplémentaire pour l’interopérabilité sémantique.

Le modèle relationnel reste dominant aujourd’hui dans les musées, mais il a été complété par d’autres approches.

3. Le modèle hiérarchique (XML/JSON), flexible et partageable

Apparu vers l’an 2000 avec l’essor de XML, ce modèle organise l’information en arbre. Chaque élément peut contenir des enfants, mais il n’existe qu’un élément racine unique.

Ses avantages sont significatifs. Le format textuel facilite l’échange entre systèmes différents, la structure est claire et lisible, et il est largement utilisé sur le web.

Néanmoins, l’interopérabilité sémantique reste un défi. Pour comprendre vraiment les données, il faut connaître le schéma et la vision du producteur.

4. Le modèle en graphe (RDF), l’avenir du patrimoine connecté ?

Le Resource Description Framework (RDF) représente une évolution majeure. Au lieu de tables ou d’arbres, il propose une approche radicalement différente où tout est exprimé sous forme de triplets.

Un triplet constitue une assertion simple qui relie un sujet, un prédicat et un objet. Par exemple, on peut affirmer que La Joconde a été créée par Léonard de Vinci, que Le Musée du Louvre est situé à Paris, ou encore que cette sculpture date de 1889.

Ces triplets forment progressivement un graphe de connaissances dont le fonctionnement est double. D’une part, les nœuds représentent les ressources (œuvres, artistes, lieux, concepts), et d’autre part, les arcs orientés représentent les relations entre ces ressources.

Les avantages de ce modèle sont multiples. L’interconnexion permet qu’une même ressource soit le sujet d’un triplet et l’objet d’un autre. L’extensibilité fait qu’on peut toujours ajouter de nouveaux triplets sans modifier la structure existante. Enfin, l’interopérabilité devient possible lorsque différentes institutions lient leurs graphes en utilisant des identifiants communs (URIs).

Ce modèle comporte toutefois certaines limites. Il permet à n’importe qui de déclarer n’importe quoi (ce qui pose des problèmes de qualité), peut être complexe à mettre en œuvre, et nécessite une réflexion préalable claire sur les objectifs.

CIDOC-CRM : une ontologie pour le patrimoine mondial

Dans le monde muséal, un modèle fait référence : le CIDOC-CRM (Conceptual Reference Model)¹². Développé depuis 1994 par le Comité international pour la documentation de l’ICOM, il est devenu une norme ISO en 2006 (ISO 21127).

Le CIDOC-CRM n’est pas une liste de procédures ou de champs, mais un modèle conceptuel devenu une ontologie formelle de l’information patrimoniale. Il a été élaboré par une équipe interdisciplinaire réunissant informaticiens, archéologues, historiens de l’art, documentalistes et philosophes.

Son objectif : faciliter l’intégration, la médiation et l’échange d’informations patrimoniales hétérogènes à l’échelle internationale. Il permet aux musées de rendre leurs documentations compatibles sans rien perdre ni de leurs spécificités ni de la précision de leurs données.

Conclusion

Les données, métadonnées et modèles ne sont pas de simples outils techniques. Ils constituent l’infrastructure invisible qui détermine ce qui est visible, ce qui est valorisé, ce qui circule – et ce qui reste dans l’ombre.

Dans un monde numérique saturé d’informations, la qualité et la normalisation des métadonnées deviennent déterminantes pour la découvrabilité des contenus culturels, pour la rémunération équitable des créateurs, pour la préservation à long terme du patrimoine.

Mais au-delà des enjeux techniques, les métadonnées posent aussi des questions éthiques et politiques : Comment représenter équitablement toutes les communautés, d’autres représentations du monde ? Comment et doit-on intégrer les savoirs autochtones ? Comment éviter de reproduire des biais dans nos descriptions ?

Les métadonnées ne sont jamais neutres. Elles reflètent nos choix collectifs sur ce qui mérite d’être documenté, valorisé, transmis. En ce sens, elles sont bien plus qu’un langage technique. Elles sont un acte de culture, de pouvoir et de mémoire.

L’engouement actuel autour de l’intelligence artificielle générative pose ces questions avec une acuité nouvelle. Ces technologies promettent d’automatiser l’enrichissement des métadonnées, d’identifier des œuvres, de détecter des relations cachées entre objets. Certains projets de recherche explorent même la possibilité de contraindre les modèles d’IA à respecter la logique des ontologies sémantiques comme le CIDOC-CRM. Mais cette automatisation soulève des interrogations cruciales. Si les IA sont entraînées sur des corpus reflétant déjà des biais historiques, ne risquent-elles pas de les amplifier ? Qui contrôle les choix opérés par ces systèmes ? Comment garantir que l’efficacité technique ne se fasse pas au détriment de la justesse culturelle et de la diversité des perspectives ? L’IA n’est qu’un outil de plus dans notre infrastructure informationnelle, mais un outil qui, comme les métadonnées elles-mêmes, n’est jamais neutre et demande une vigilance constante quant à ses usages et ses implications.

Notes

Briet, Suzanne. 1951. Qu’est-ce que la documentation? Collection de documentologie 1. Editions documentaires, industrielles et techniques. ↩
Kitchin, Rob. 2014. The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. SAGE Publications.↩
Weinberger, David. 2011. Too Big to Know: Rethinking Knowledge Now That the Facts Aren’t the Facts, Experts Are Everywhere, and the Smartest Person in the Room Is the Room. Basic Books.↩
Borgman, Christine L. 2015. Big Data, Little Data, No Data: Scholarship in the Networked World. MIT Press.↩
Pomerantz, Jeffrey. 2015. Metadata. MIT Press.↩
Greenwald, Glenn. 2014. No Place to Hide: Edward Snowden, the NSA, and the U.S. Surveillance State. 1. Metropolitan Books Henry Holt.↩
Observatoire de la culture et des communications du Québec. 2017. État des lieux sur les métadonnées relatives aux contenus culturels.↩
La déclaration des bibliothèques québécoises. Octobre 2016. Élaborée par la Table permanente de concertation des bibliothèques québécoises. https://www.abpq.ca/declaration_des_bibliotheques.php ↩
Principe de Joyce. 2020. Principes directeurs pour la reconnaissance des savoirs autochtones dans les bibliothèques, archives et musées. https://principedejoyce.com/fr/index ↩
Allison-Cassin, Stacy, Camille Callison, et Robin Desmeules. 2025. « The First Nations, Métis, Inuit Indigenous Ontology and Challenges in the Development of an Indigenous Community Vocabulary in the Canadian Context ». The Canadian Journal of Information and Library Science 48 (2): 1‑13. https://doi.org/10.5206/cjils-rcsib.v48i2.19585. ↩
Baca, Murtha, éd. 2016. Introduction to Metadata. 2nd ed. Getty Research Institute. ↩
CIDOC-CRM. 2023. « CIDOC Conceptual Reference Model ». ICOM-CIDOC. https://cidoc-crm.org/.↩