Dernières techniques de PNL : classification sémantique des adjectifs

Découvrez comment la classification sémantique améliorée des adjectifs améliore la compréhension automatique pour de meilleures techniques de PNL : analyse des sentiments, enrichissement du catalogue de produits, etc.

Édouard Trouillez

Jan 15, 2024

Get a quick demo ->

Ce mois-ci, nous avons publié une mise à jour révolutionnaire de notre technologie de traitement du langage naturel : une classification sémantique améliorée des adjectifs conçue pour améliorer la compréhension automatique. Nous avons conçu ce nouveau cadre linguistique pour aider les systèmes d'IA à comprendre les significations complexes et nuancées des adjectifs dans leur contexte.

Comme d'autres parties du discours, les adjectifs sont des mots riches en significations, qui nous permettent d'exprimer divers concepts tels que les qualités, les états ou les émotions. Cependant, les adjectifs peuvent également être ambigus et sujets à interprétation. Cette classification mise à jour fournit une taxonomie structurée des adjectifs divisés en sept branches significatives : caractéristiques, situations, quantités, sentiments, goûts, actions et relations. Notre nouvelle catégorisation aide les modèles d'IA à reconnaître et à représenter les liens entre les adjectifs et les concepts qu'ils modifient.

Comme nous l'avons indiqué dans notre récent article, L'importance de la désambiguïsation dans le traitement du langage naturel, comprendre avec précision le sens et l'intention est crucial pour les projets de PNL. Notre classification sémantique améliorée s'appuie sur les capacités de désambiguïsation existantes de Lettria pour fournir aux modèles d'IA une base encore plus solide en linguistique.

Grâce à cette base améliorée en linguistique, la Lettonie continue de repousser les limites du traitement du langage naturel pour les entreprises. Notre nouvelle classification sémantique se traduit directement par de meilleures performances dans les principales techniques de PNL telles que l'analyse des sentiments, l'enrichissement du catalogue de produits et l'IA conversationnelle. Ce guide explique comment la taxonomie mise à jour améliorera nos modèles d'apprentissage automatique et dotera les organisations d'une intelligence artificielle optimisée.

Découvrez notre hiérarchie sémantique

Branche des caractéristiques

La branche des caractéristiques comprend des adjectifs décrivant des êtres vivants, des objets ou des concepts, qu'ils soient concrets ou abstraits, permanents ou non. Ces informations se trouvent généralement dans la structuration sémantique ou les ontologies sous forme d'attributs de classe ou individuels. Outre les catégories très générales concernant la mesure, la qualité ou l'importance, il existe des catégories décrivant des propriétés physiques telles que l'odeur, le goût, le son, la texture, la forme, la couleur et d'autres caractéristiques visuelles. Les caractéristiques humaines (et parfois animales) telles que l'intelligence ou la gentillesse sont également incluses.

Direction de la situation

La branche situation contient des adjectifs indiquant quelque chose ou l'état ou la situation de quelqu'un : manières d'être, caractéristiques spatiales, être lié à quelque chose sans le mentionner expressément (ces adjectifs appartiennent à une autre catégorie), situation relative dans l'espace, le temps ou la hiérarchie, antériorité, postériorité ou simultanéité, ancienneté ou nouveauté, régularité et autres caractéristiques temporelles.

Branche des quantités

La branche des quantités permet d'exprimer des propriétés numériques : nombre, ordre, fraction, multiplication, petite ou grande quantité, total ou partiel.

Branche Feeling

La branche des sentiments est divisée en deux sous-branches. Le premier contient des adjectifs indiquant que le référent éprouve un sentiment ou une émotion. Le second indique que le référent suscite un sentiment ou une émotion chez quelqu'un d'autre. Cette distinction entre les adjectifs qualifiant un patient et ceux qualifiant un agent (au sens linguistique) est essentielle pour structurer correctement les informations et éviter les interprétations erronées.

Branche du goût

La branche gustative se divise également en deux sous-branches. Le premier contient des adjectifs indiquant le fait d'être attiré, repoussé ou indifférent à quelque chose ou à quelqu'un. La seconde exprime le fait d'attirer, de repousser ou de laisser quelqu'un indifférent.

Direction de l'action

La branche action se divise en deux catégories regroupant les adjectifs liés aux actions. Les adjectifs « is_doing » indiquent que le référent effectue une action. Les « likely_to » indiquent la possibilité d'effectuer ou de subir une action.

Direction des relations

Enfin, la catégorie relationnelle est une branche à part entière pour les adjectifs relationnels indiquant une relation avec quelque chose. Il s'agit d'une catégorie d'adjectifs clairement identifiée dans la grammaire contemporaine avec des propriétés syntaxiques très différentes de celles des autres adjectifs.

Want to learn how to build a private ChatGPT using open-source technology?

Download our free white paper →

Quelques remarques sur la taxonomie :

En raison de la polysémie, certains adjectifs peuvent appartenir à plusieurs catégories selon le contexte. Par exemple, sucré peut être dans la catégorie des arômes ou dans la catégorie good_human_characteristics. Le contexte détermine le sens recherché.
Les noms de certaines catégories pourraient faire l'objet de débats. Par exemple, « making_need » dans la branche feeling n'est pas particulièrement transparent. Les noms alternatifs peuvent être « suscitant la convoitise » ou « désirable ». Cependant, les noms ne sont que des étiquettes, alors que l'important, ce sont les concepts et les significations sous-jacents.
Comme les langues ne sont pas mathématiques, il existe des cas limites qui pourraient sans doute appartenir à une catégorie ou à une autre. La catégorisation n'est pas toujours claire ou définitive. Cependant, l'approche consistant à attribuer la catégorie la plus représentative ou la plus centrale en fonction de l'usage et de la signification est pragmatique.
La taxonomie couvre non seulement les adjectifs qualificatifs, mais également les adjectifs relationnels, qui fournissent un mécanisme crucial pour relier des entités ou des concepts. La branche relationnelle est essentielle pour les réseaux sémantiques et les ontologies.

Comment cela affectera-t-il les projets construits avec la Lettonie ?

Si l'on prend les projets d'analyse des sentiments comme exemple clé, la branche « sentiment » élargie fournit une catégorisation plus nuancée des adjectifs véhiculant des émotions. En faisant la distinction entre les adjectifs décrivant les propres sentiments d'un sujet et ceux décrivant les sentiments que le sujet suscite chez les autres, nos modèles peuvent mieux comprendre le sentiment exprimé. La reconnaissance de ces nuances permettra de classer plus précisément les sentiments positifs, négatifs ou neutres.

Pour enrichir le catalogue de produits, les caractéristiques et attributs exprimés par des adjectifs sont essentiels pour saisir les propriétés et les qualités d'un produit. Les catégories « caractéristiques » et « quantité » correspondent directement aux types d'attributs nécessaires pour décrire les produits dans des catégories telles que les vêtements, les aliments et les boissons, les pièces mécaniques, etc. Nos modèles peuvent désormais identifier davantage de types d'attributs à partir des descriptions de produits, ce qui nous permet de suggérer des attributs structurés supplémentaires à inclure dans les catalogues de produits. La branche « relations » permet également d'identifier les liens entre les produits et les composants ou accessoires.

L'ensemble du processus de désambiguïsation et de structuration au sein de la plateforme Lettria a fait l'objet d'une mise à jour majeure grâce à ces dernières améliorations des adjectifs. En enrichissant notre modélisation du sens des adjectifs, la plateforme Lettria continue de repousser les limites de la compréhension automatique du langage. Cette base linguistique améliorée se traduit par de meilleures performances dans les principales applications de NLP pour les entreprises. Notre mission est de développer l'IA avec une véritable intelligence linguistique, et il est essentiel de faire progresser la classification sémantique pour atteindre cet objectif.

Conclusion

Notre taxonomie des adjectifs mise à jour est un cadre pratique pour représenter et comprendre le sens des adjectifs. La catégorisation pourrait continuer à être améliorée et étendue ; toutefois, en tant que base à couverture étendue, elle permet d'atteindre l'objectif de faciliter le traitement du langage naturel, l'interopérabilité sémantique et le développement d'ontologies. La branche relationnelle, en particulier, fournit une structure permettant de relier des entités via des adjectifs qui indiquent des relations. Dans l'ensemble, la taxonomie est un modèle informatif pour la sémantique des adjectifs.

Avec cette mise à jour, nos utilisateurs bénéficient d'un avantage concurrentiel supplémentaire grâce à nos techniques de PNL innovantes et à notre linguistique optimisée en permanence. Testez la mise à jour en créer un compte Lettria dès aujourd'hui, explorez le glossaire mis à jour dans notre documentation et pour en savoir plus sur notre travail linguistique, consultez notre article précédent : Le projet de catégorisation sémantique de Lettria dans le cadre du développement d'une solution de NLP.

Vous êtes curieux de connaître les caractéristiques uniques de Lettria et les techniques de PNL ? Consultez nos pages dédiées sur taxinomie, ontologie, et gestion de dictionnaires.

Édouard Trouillez

Linguiste principal