Les différents types de Terminologies
Définitions
Une ressource sémantique est un ensemble de concepts définis par des termes permettant de décrire un ou plusieurs domaines de connaissance. Selon leur complexité plusieurs types de ressources peuvent être distingués : les dictionnaires, les taxonomies, les thésaurus, les terminologies et les ontologies.
Listes / Dictionnaires / Glossaires :
Les dictionnaires (ou glossaires ou listes) correspondent aux ressources sémantiques les plus simples. Selon le dictionnaire Larousse, une liste est « une suite de mots de nombres, de noms de personnes, de choses le plus souvent inscrites l’une au-dessous de l’autre ». La liste est synonyme de catalogue.
Un dictionnaire associe à une liste de termes une notion et une définition. C’est « un ouvrage didactique constitué par un ensemble d’articles dont l’entrée constitue un mot, indépendants les uns des autres et rangés dans un ordre déterminé, le plus souvent alphabétique ».
Le glossaire porte la notion de spécialisation : il s’agit « du nom donné à certains dictionnaires alphabétiques portant sur un domaine spécialisé ou à certains dictionnaires bilingues ».
Ce type de ressource fournit un matériel brut difficilement utilisable par une machine, mais aide l’humain à structurer et à représenter une information de manière uniforme.
Taxonomie :
Le terme « Taxonomie » (parfois aussi dénommée classification) est très utilisé par les anglo-saxons pour désigner la « science de la classification » et par extension tout système de classification/catégorisation. Une taxonomie contient des catégories organisées hiérarchiquement. Elle sert à classifier, organiser des connaissances. La seule relation entre concepts existant dans la taxonomie est la subsomption (relation d’inclusion entre des concepts, aussi dénommée « est un »).
La fonction première d’une taxonomie est de classer. Elle permet de regrouper plusieurs concepts différents sous un concept parent commun. Par exemple, l’Erythromycine et l’Amoxicilline sont des Antibiotiques. Les règles de classification sont très formelles. Par exemple NCBI Taxonomy est la taxonomie de l’ensemble du vivant dont le génome est actuellement séquencé. Elle est maintenue par un groupe de scientifiques qui alignent cette taxonomie avec les autres taxonomies des sciences de la vie et la littérature taxonomique.
Il n’y a pas de définitions logiques permettant aux machines de distinguer les concepts les uns par rapport aux autres en dehors d’une organisation hiérarchique.
Les classifications comme la CIM-10 visent à couvrir tout un champ d’indexation et ont des concepts pour cela comme « Infarctus, sans autre précision » (SAP en français, NOP en anglais). Ils respectent le principe d’avoir une mono-hiérarchie de concepts mutuellement disjoints et couvrant totalement le domaine (Jointly Exhaustive Mutually Disjoint Principle – JEPD).
Thesaurus :
Un thésaurus est une liste structurée et hiérarchisée des termes d’un domaine du savoir plus ou moins large. Chacun des termes est relié à d’autres par divers types de relations hiérarchiques ou associatives (synonymes, termes associés, classification). Par exemple : une maladie par carence est un terme générique synonyme de trouble nutritionnel ou trouble du métabolisme. Ce terme est relié par une relation de subsomption aux carences en vitamines, aux carences minérales, et aux carences en oligo-éléments. Il est associé à la notion de malnutrition (Terme associé).
Un thésaurus sert généralement à indexer des contenus ou des ressources avec des mots-clés et à les rechercher (avec les mêmes mots-clés). Les règles de construction n’ont pas besoin d’être formelles compte tenu de l’utilisation du thésaurus. L’objectif est une large couverture du domaine pour une indexation optimale. Le thésaurus MeSH (Medical Subject Headings) est le thésaurus de référence dans le domaine médical. Il est construit et mis à jour par l’U.S. National Library of Medicine. Il est utilisé notamment pour indexer les articles scientifiques du domaine biomédical et permettre une interrogation sémantique de la base de données bibliographiques MEDLINE.
Terminologie :
Une « terminologie » est « un ensemble de concepts représentant la réalité définie par des termes appartenant à un langage spécifique » (ISO 1087-1, 2000).
Un concept est « une unité de connaissance créée par une combinaison unique de caractères ». Le concept correspond à une image ou une idée créée dans notre cerveau lorsqu’on nous présente un objet. Cet objet peut être physique (par exemple, une voiture) ou abstrait (par exemple, la vitesse).
Un concept peut être représenté par une désignation, c’est-à-dire un signe qui le dénote. Un terme est une désignation verbale d’un concept dans un domaine spécifique. Ce concept crée donc la connexion entre l’objet et la désignation. Cela est représenté par le triangle sémiotique d’Ogden-Richard. Ce concept crée donc la connexion entre l’objet et la désignation.
La construction d’une terminologie passe par une démarche systématique pour rechercher les termes spécifiques les plus pertinents pour une discipline ou un domaine de connaissances dans un contexte d’utilisation particulier.
Le but de documenter le vocabulaire est de promouvoir une utilisation cohérente. Une terminologie est par ailleurs destinée à un utilisateur humain et est principalement utilisée par les experts de domaines.
D’après ISO 1087, il y a plusieurs types possibles de relations dans une terminologie :
1. Les relations hiérarchiques entre deux concepts qui peuvent être génériques (un concept est plus spécifique que l’autre) ou partitif (un concept fait partie d’un autre).
2. Les relations associatives pragmatiques entre deux concepts qui n’ont pas de relation hiérarchique mais une connexion basée sur l’expérience (par exemple enseignement et éducation).
Ontologie :
Dans son sens premier, l’ontologie vise à étudier ce qui existe, sa dissection en composants irréductibles, non-redondants et les relations entre eux. En informatique, une ontologie permet de formaliser des concepts propres à un domaine en utilisant un vocabulaire défini composé de :
- Classes (ou concepts), qui représentent une famille / groupe :
- Chaque classe contient une ou plusieurs instance(s) (ou individu(s)) ;
- Une instance peut appartenir à plusieurs concepts.
- Relations, qui sont dirigées et décrivent le type d’interaction entre :
- Deux classes ;
- Une classe et une instance ;
- Deux instances.
Cet ensemble de classes (ou d’individus) interconnectés par des relations forment ainsi une structure mathématique appelée graphe. Pour être plus précis, la structure taxinomique de l’arbre est un graphe orienté acyclique (Direct Acyclic Graph – DAG – en anglais). Pour en revenir à un point de vue plus cognitif, l’ontologie est un modèle de représentation des connaissances, i.e. une conceptualisation, qui est ensuite mise dans un modèle formel pour permettre un certain nombre de tests de cohérences et de raisonnement.