
INTRODUCTION
I. MATERIELS & METHODES
Le passage du dictionnaire de sa forme documentaire au thésaurus sous une forme structurée a été réalisé en trois phases : 1) l’analyse des données aboutissant au choix du standard pour représenter les informations contenues dans le thésaurus, à savoir le modèle SKOS, 2) la transformation des données, réalisée de manière semi-automatique, et 3) un travail intellectuel et manuel d’organisation des concepts au sein des hiérarchies.
La création du Thésaurus de la viande s’appuie sur les termes du Dictionnaire de la Viande de l’Académie de la viande. Le fichier des données sources est un document Word qui contient 1357 entrées et des encadrés. Ces derniers ne sont pas conservés dans le thésaurus car ils ne contiennent pas de définitions. La structure pour décrire une entrée du dictionnaire est plutôt régulière (Figure 3), ce qui permet d’automatiser une partie des traitements, travail rendu cependant difficile par la présence d’un grand nombre d’éléments facultatifs. Le terme est suivi de ses caractéristiques grammaticales (sa nature, son genre et son nombre) et d’une définition comme dans l’exemple montré Figure 4. Certaines entrées présentent un ou plusieurs Synonymes, des Notes, ou encore un renvoi vers une ou plusieurs autres entrées indiquées par la mention Voir.
Figure 3 : Structure d'une entrée du dictionnaire
terme (obligatoire) nature.genre.nombre (facultatif) I définition (facultatif) | Pour aller plus loin : (facultatif) | Synonyme : (facultatif) | Notes : (facultatif) | Voir : nom (facultatif, plusieurs valeurs possibles séparées par des virgules ou des points) |
Figure 4 : Exemple d'une entrée du dictionnaire : emboucheur
emboucheur n.m. I Éleveur ou marchand qui pratique l’engraissement du bétail à l’herbe sur des pâtures. I Synonyme : herbager. I Voir : Embouche. |
Cette analyse des données textuelles nous a conduits à choisir le modèle SKOS (Simple Knowledge Organisation System), un standard du W3C (https://www.w3.org/) utilisé pour représenter des systèmes d’organisation des connaissances simples, typiquement les thésaurus. Ce modèle s’appuie sur RDF (Resource Description Framework), un cadre de description de données structuré sous forme de graphes, qui permet de faire des assertions de la forme [Sujet – Prédicat – Objet] comme montré dans la Figure 5 (ou par exemple, le concept « C1 » "est désigné par" le terme « emboucheur »).
Figure 5 : Exemples de représentation d’informations sous la forme [Sujet – Prédicat – Objet] ou triplets RDF
Un identifiant unique appelé URI permet de faire référence à chaque élément décrit dans la base de données. Cet identifiant est composé d’un préfixe unique pour le thésaurus (ici http://opendata.inrae.fr/ThViande/) et d’un suffixe unique pour chaque ressource décrite (par exemple C1 pour le concept 1). L’URI est un identifiant global, i.e. unique dans tout l’espace du web. Comme le montre la Figure 6, l’objet central de notre modèle est le concept (skos:Concept) qui peut être vu comme une unité de pensée correspondant à un type d’objet du monde réel (ex : troupeau) ou à une entité abstraite (ex : transhumance). Il est désigné par un terme préférentiel (skos:prefLabel) dans une ou plusieurs langues et éventuellement des synonymes (skos:altLabel). La langue des termes est identifiée. Pour indiquer une définition, on utilise la propriété skos:definition. Les mentions « Voir » entre deux entrées du dictionnaire source sont traduites par la relation skos:related entre les deux concepts dans le thésaurus, par exemple [emboucheur] skos:related [embouche]. Au sein du thésaurus (skos:ConceptScheme), les concepts sont organisés sous la forme d’une hiérarchie au moyen des relations skos:narrower (concept plus spécifique) et skos:broader (concept plus générique). On aura par exemple : [éleveur] skos:narrower [emboucheur]. Cette structuration hiérarchique n’existait pas dans le dictionnaire et a fait l’objet d’un travail que nous décrivons ultérieurement. Le modèle SKOS présente d’autres propriétés et relations non utilisées que nous ne détaillons pas ici.
Figure 6 : Modèle des données du thésaurus basé sur SKOS, SKOS-XL et LexInfo
Cette partie entièrement manuelle du travail a consisté à passer d’une représentation centrée sur les termes (dictionnaire) à une structuration centrée sur les concepts (thésaurus), et à en proposer une organisation thématique. Cette tâche nécessitait des connaissances approfondies du domaine qui ont été apportées par quatre experts, deux étant de l’Académie de la Viande et deux autres d’INRAE. Les experts de l’Académie de la Viande ont apporté des connaissances sur les découpes, les cuissons, les métiers et les spécificités de la filière ainsi que sur les différentes races d’animaux de boucherie. Les experts INRAE ont apporté des connaissances sur la biologie des muscles. Environ 32 réunions de 2 heures chacune se sont tenues pour ce travail. Dans certains cas, les experts se sont appuyés sur d’autres sources de connaissances telles que l’ontologie AHOL (Salaun et al., 2020) ou le dictionnaire du CIRAD (https://opendata.inra.fr/AHOL/page/AHOL_0005001).
Dans un thésaurus, et plus généralement en SKOS, un concept ne représente qu’une notion explicitée dans la définition. Dans le dictionnaire au contraire, l’entrée est centrée sur le terme qui peut correspondre à plusieurs notions et donc avoir plusieurs définitions. Ainsi, par exemple, alors que « charcuterie » est un commerce sous le concept « métier de la filière viande », il peut aussi être une déclinaison du concept « préparation culinaire des viandes ». Pour répondre à la contrainte d’univocité de SKOS, certaines entrées du dictionnaire ont dû être scindées en 2 concepts et leur définition modifiée en conséquence. Dans ce cas, il a fallu faire une distinction entre les 2 concepts en apportant des précisions entre parenthèses : « charcuterie (commerce) » et « charcuterie (salaison) ».
A l’inverse, certaines entrées du dictionnaire n’ont pas été reprises comme par exemple les termes VOF (Viande Ovine Française), VBF (Viande Bovine Française), VPF (Viande Porcine Française) pour ne garder que des labels officiels reconnus par l’INAO (https://www.inao.gouv.fr/Les-signes-officiels-de-la-qualite-et-de-l-origine-SIQO).
D’autres concepts ont été introduits pour répondre aux besoins de la hiérarchisation et assurer une certaine cohérence au sein du thésaurus. En particulier, les concepts de premier niveau (appelés « top concept » en SKOS) devaient être assez génériques pour constituer des catégories thématiques comme élevage ou métiers de la filière viande. Les ontologies AHOL - Animal Health Ontology for Livestock (https://www.atol-ontology.com/en/a-ahol/) et ATOL - Animal Trait Ontology for Livestock (Le Bail et al., 2014) ont été utilisées comme sources pour la création de concepts initialement absents du dictionnaire de la viande.
Afin d’organiser les concepts sous forme de hiérarchie au sein de chaque branche, les experts se sont basés sur les termes génériques mentionnés dans les définitions ou ont mobilisé leur propre expertise. Dans certains cas, le concept pouvait être placé à plusieurs endroits de la hiérarchie, comme par exemple le concept quartier pouvant être considéré comme spécifique de découpe ou demi-carcasse. Dans ce cas, il a été décidé qu’il était plus pertinent de le positionner comme un spécifique de demi-carcasse afin de rendre sa sémantique plus explicite. Dans d’autres cas, le concept le plus générique a été choisi. Par exemple, la branche « animal de boucherie » a été choisie pour englober tous les animaux abattus pour leur viande. Pour cette première version du thésaurus, nous avons choisi de ne pas introduire de polyhiérarchie, organisation dans laquelle un concept peut avoir plusieurs génériques. Si ce choix rend le travail de classification plus difficile (parce qu’il faut trancher), il le rend aussi plus précis (parce qu’il faut trouver la place la plus optimale).
Le travail de hiérarchisation a été complété par une révision de certaines définitions qui contenaient des éléments superflus ou sujets à évolution, ou encore contraires aux bonnes pratiques de rédaction des définitions (Vézina, 2009). Suite à la hiérarchisation, les relations skos:related (« Voir ») présentes dans le dictionnaire papier ont été supprimées entre les concepts entretenant dès lors une relation hiérarchique.
Afin de permettre sa réutilisation par des tiers, le thésaurus de la Viande est mis à la libre disposition de la communauté sur un portail public, Agroportal, et dans un format ouvert : http://agroportal.lirmm.fr/ontologies/MEAT-T (onglet Classes pour voir la hiérarchie). Il s’inscrit dans la démarche FAIR (Tableau 1) dont les principes offrent un cadre pour s’assurer qu’une ressource numérique puisse être réutilisée par d’autres (humains et machines). Des solutions proposées par le service Vocabulaires Ouverts de la DipSO INRAE ont été combinées afin que le thésaurus de la viande soit autant que possible conforme aux principes FAIR.
L’analyse proposée dans le Tableau 1 a été réalisée dans le cadre du projet ANR FooSIN (https://foosin.fr/) et du questionnaire développé par le groupe de travail RDA SHARC (David et al., 2020).
Tableau 1 : le thésaurus de la Viande au crible des principes FAIR et solutions adoptées
Références bibliographiques :
Aucun événement |
Pour Accéder au site V&PC depuis votre smartphone,
veuillez scanner ce flashcode.