Comment créer un ChatGPT privé à l'aide d'une technologie open source ? Téléchargez notre livre blanc gratuit.

Le projet de catégorisation sémantique de Lettria dans le cadre du développement d'une solution de NLP

La création de catégories sémantiques participe à la structuration des données, mais permet également de faire face à un problème majeur dans le traitement des langues naturelles, celui de l'ambiguïté.

La plateforme de gestion des données textuelles de Lettria est un outil de traitement du langage naturel (NLP) basé sur plusieurs années de recherche et développement impliquant des algorithmes, la science des données, le génie logiciel et la linguistique. La linguistique est au cœur du travail, les langues naturelles étant la matière première de l'information. Étape essentielle de la formalisation des données textuelles, la catégorisation sémantique vise à identifier le type de sens de chaque mot dans une production linguistique donnée, le mot étant en théorie la plus petite unité signifiante autonome.

La création de catégories sémantiques participe ainsi à la structuration des données, mais permet également de faire face à un problème majeur du traitement des langues naturelles, celui de l'ambiguïté. Ce travail n'est pas sans obstacles. Les phrasèmes en font partie, de même que les particularités syntaxiques et sémantiques des verbes, notamment des verbes pronominaux en français. Tous ces écueils ont amené Lettria à faire des choix décisifs, toujours dans le but d'obtenir les résultats les plus pertinents.

{{line}}

Finalité

Structuration de l'information

La structuration de l'information nécessite l'identification des entités et des événements évoqués dans un texte, ainsi que de leurs propriétés et de leurs relations. Pour ce faire, Lettria a créé plusieurs centaines de catégories sémantiques organisées sous forme de graphes. Les catégories regroupent des mots d'une même partie du discours présentant des caractéristiques sémantiques communes, quelle que soit la langue. Chacun d'eux possède une définition et chaque mot d'un texte doit correspondre à une seule catégorie. Par exemple, la définition de la catégorie avion est « véhicule de transport aérien » et comprend les mots anglais avion et hélicoptère ainsi que les mots français avion et hélicoptère. La définition de la catégorie danger est « chose dangereuse ; ce qui menace quelque chose ou quelqu'un » et inclut les mots anglais danger, péril et risque et les mots français danger, péril et risqué.

En général, les catégories nominales ont les mêmes relations entre elles que les noms entre eux en termes d'hypernymie et d'hyponymie. Howard Jackson définit l'hyponymie comme suit :

« L'hyponymie fait référence à la relation sémantique d'inclusion : la signification d'un lexème (plus spécifique) est incluse dans celle d'un autre lexème (plus général). Ainsi nova est un hyponyme de étoile : étoile est le terme supérieur, et nova est le terme subordonné dans cette relation sémantique. L'hyponymie est souvent importante pour afficher les relations sémantiques entre les éléments d'un champ lexical. » (Howard JACKSON, Les mots et leur signification, p. 92, Routledge, 1988)

L'hyperonymie est donc la relation inverse de l'hyponymie. Ces relations se trouvent dans la structure de nos graphiques : la catégorie mammifère a une signification plus générale que la catégorie carnivore, dont le sens est lui-même plus général que la catégorie chien.

La catégorie maladie de la peau a une signification plus précise que la catégorie maladie.

Il est donc logique que les catégories nominales désignant des entités concrètes soient organisées hiérarchiquement dans un type taxonomique de représentation graphique allant de la plus générale à la plus particulière.

Cette organisation facilite la création et l'utilisation de catégories. Le concept de taxonomie, généralement associé aux tentatives de description du monde vivant, est expliqué par Jacques Ruffié :

« La classification, ou taxonomie, est donc le processus qui consiste à rassembler, à travers des niveaux successifs, des organismes vivants présentant des caractéristiques de plus en plus communes. Ce faisant, nous passons de niveaux de classification supérieurs (phylums, classes) à des niveaux de classification inférieurs (ordres, familles, espèces). » (Jacques RUFFIÉ, De la biologie à la culture, Flammarion, 1976, p. 18)

Ainsi, la catégorie plante, qui contient les mots plante et végétal, comporte plusieurs sous-catégories, notamment arbre qui contient les mots arbre et arbrisseau. Le arbre la catégorie elle-même comporte plusieurs sous-catégories, notamment conifère, qui contient des mots tels que cèdre, mélèze et sapin.

Ce type d'organisation est valable pour d'autres réalités que les êtres vivants, comme l'a analysé le linguiste et lexicographe Alain Rey :

« Ces classes logiques, dont la constitution est étudiée par la taxonomie, se manifestent bien dans le domaine des classifications hiérarchiques et systématiques des sciences naturelles (nomenclatures), mais également dans le domaine des hiérarchies d'objets observés spontanément et nommés au sein d'une culture (taxonomies populaires). » (Alain REY, La Terminologie, p. 35, P.U.F., coll. « Que sais-je », 1979)

Par exemple, dans notre graphique, la catégorie boisson est supérieur à la catégorie boisson_alcoolisée, qui est supérieur à plusieurs catégories, dont vin et bière. Une telle organisation facilite à la fois la création de graphiques et leur consultation. Comme nous le verrons, pour certains noms désignant des entités abstraites et pour des catégories verbales, la hiérarchie repose sur un autre type d'organisation.

Cela pose la question de la granularité des catégories, c'est-à-dire de leur niveau de précision. Lettria a choisi de proposer une représentation générale destinée à couvrir tous les domaines de connaissances sans privilégier aucun d'entre eux, tout en gardant la possibilité de proposer des graphiques complémentaires plus détaillés dans des domaines spécialisés tels que la médecine ou l'agronomie. C'est pourquoi certaines catégories regroupent les hyponymes d'un mot avec ce mot lui-même. Par exemple, la catégorie chien est une catégorie finale — elle n'a pas de sous-catégories — qui contient le mot chien et ses synonymes mutt et bow-wow, mais aussi caniche, lévrier et corgi, bien que ce soient des hyponymes de chien.

De plus, une telle organisation est nécessairement subjective, car un mot peut comporter plusieurs hyperonymes. La classification des êtres vivants elle-même ne fait pas consensus et évolue constamment au rythme des découvertes scientifiques. Ce sont donc les caractéristiques sémantiques les plus saillantes et les représentations les plus communément admises par des locuteurs non spécialistes qui ont été retenues. Mère est généralement considéré comme un hyponyme de femme, mais nous avons préféré l'inclure dans la catégorie membre_de la famille (« personne désignée par sa famille ou ses liens conjugaux ») avec oncle et cousin. Poivron est inclus dans la catégorie légume bien que du point de vue scientifique, il s'agisse d'un fruit. Nous sommes dans une soi-disant naïve ou populaire et une représentation non scientifique du monde, et c'est ce que nous recherchons en formalisant les informations véhiculées par le langage courant, en dehors de tout domaine scientifique.

La base de données de Lettria, qui comprend des milliers de mots associés à leurs catégories possibles, est donc à la fois une base de données linguistique et une base de données encyclopédique qui propose une représentation structurée des réalités et des concepts désignés par les mots. À terme, les catégories seront enrichies de propriétés ontologiques qui permettront, entre autres, de leur attribuer un certain nombre d'attributs (par exemple, une personne a une date de naissance, une ville possède des coordonnées géographiques) mais également de les relier par des relations autres que la hiérarchie taxonomique (une personne ayant une ville de naissance, les catégories correspondantes seront liées par une relation donnée). Cet enrichissement nous permettra non seulement d'affiner notre travail de structuration, mais également d'offrir aux clients de Lettria une base solide pour la création de leurs propres ontologies.

Homonymie

La création de catégories est également très utile dans le travail de désambiguïsation de Lettria. Ambiguïté reçoit la définition suivante :

« L'ambiguïté est une propriété des langues naturelles en raison de l'absence de correspondance univoque entre la forme et le sens. Elle peut être définie de manière sémantique, proche de la perception immédiate : tout énoncé susceptible d'être interprété de plusieurs manières est ambigu. » (Michel ARRIVÉ, Francoise GADET et Michel GALMICHE, La Grammaire d'aujourd'hui, p. 60, Flammarion, 1986)

Au niveau lexical, la désambiguïsation consiste à éliminer l'ambiguïté dans le sens des mots, ce qui concerne à la fois les homographes (tels que cour dans Il fait un mètre de long et Les enfants jouent dans la cour) et des mots polysémiques (les différentes significations de tête dans Il a un chapeau sur la tête et Elle est à la tête du gouvernement, par exemple). Si les êtres humains sont capables de lever les ambiguïtés dans de nombreux cas grâce au contexte, ce n'est pas le cas de la machine si elle n'a pas été entraînée au préalable.

En construisant son modèle NLP, Lettria a choisi de résoudre ce problème grâce à l'apprentissage automatique, un domaine de l'intelligence artificielle qui vise à créer des modèles qui améliorent leurs performances en fonction des données qu'ils traitent. Ainsi, des campagnes d'annotations ont été mises en place. Les équipes de Lettria ont annoté des données textuelles d'origines diverses en attribuant à chaque mot la catégorie appropriée. Après plusieurs mois d'entraînement, la bonne catégorie est la plupart du temps automatiquement reconnue par la machine grâce à l'analyse du contexte.

Notez que l'ambiguïté sémantique concerne également le nom des catégories. Une catégorie est souvent nommée d'après l'un des mots les plus représentatifs de la catégorie en question. L'objectif étant de créer un modèle univoque, il est nécessaire qu'un nom soit utilisé pour une seule catégorie, mais également que chaque nom soit aussi clair que possible, car même si chaque catégorie est accompagnée d'une définition, un nom ambigu peut être source d'erreur lors de l'annotation. Dans ce cas, il est préférable d'utiliser un mot monosémique ou un mot ayant une signification clairement délimitée. Dans certains cas, une paraphrase est également utilisée. La catégorie avec la définition « caractère d'une personne dépourvue de valeurs morales » est ainsi nommée bassesse morale.

{{line}}

Le cas des phrases

Fixation lexicale

L'un des principaux obstacles à la catégorisation sémantique est l'impossibilité d'attribuer un sens à des mots qui apparaissent dans des séquences spécifiques : le sens d'une séquence de mots n'est pas toujours la combinaison des significations des unités qui le composent. Quand il pleut des chats et des chiens, on ne voit pas les animaux tomber. Tirer la jambe d'une personne ne nécessite pas de la toucher. Et quand vous dites « cassez-vous une jambe » à quelqu'un, vous ne lui enjoignez pas de blesser qui que ce soit. À cela s'ajoute l'existence de mots fossiles, qui ne peuvent jamais ou plus être utilisés librement. Pour, dans aller et venir, un autre, dans une mère à part entière, ou le français fourrure en Australie fur et à mesure (« au fur et à mesure ») en sont des exemples typiques.

Il s'agit du phénomène de fixation lexicale : les éléments du discours perdent leur autonomie sémantique au sein de certaines combinaisons. Ces combinaisons sont regroupées sous différents noms, parmi lesquels on retrouve phrases (unités phraséologiques en français), et leur définition varie selon les auteurs, tout comme leur délimitation :

« L'ensemble des expressions fixes est hétérogène et plusieurs types distincts peuvent être observés. » (Rosamund MOON, « Il y a une raison à rôtir des œufs » : examen des expressions fixes dans les dictionnaires de langue maternelle, dans EURALEX '92 : Actes I à II : articles soumis au 5e Congrès international EURALEX sur la lexicographie à Tampere, en Finlande (Studia translatologica), p. 494, Oxford University Press, 1992)

Mais s'il s'agit de mots composés ouverts (salle de jeux) ou expressions figuratives (pour contourner la brousse), le problème est le même pour les linguistes qui ne peuvent pas catégoriser sémantiquement chaque élément. La difficulté est encore plus grande dans le cas de la langue anglaise avec ses nombreux verbes à particule, unités composées d'un verbe et d'un mot grammatical (souvent un adverbe ou une préposition) dont le sens diffère de celui du verbe en usage libre. Pour pleurer, par exemple, est utilisé de manière transitive dans le sens de « louer », un sens qui pleurer n'a pas à elle seule et n'est pas la combinaison des sens de pleurer et vers le haut.

Tokénisation et catégorisation phraséologique

Lettria tente de résoudre ce problème en deux étapes de traitement des données. La première est la tokenisation, qui consiste à segmenter chaque phrase en jetons, c'est-à-dire en unités linguistiques manipulables telles que les mots et les éléments de ponctuation, mais également en entités telles que les noms propres (Statue de la Liberté) ou des dates. À ce stade, un certain nombre de séquences polylexicales sont identifiées comme des unités linguistiques minimales sémantiquement indécomposables. Poivron et de facto, bien que composé de plusieurs séquences de signes séparés par des espaces, sera lemmatisé et traité comme des éléments minimaux et classé comme tel. Mais il ne s'agit que de courtes séquences monosémiques, identifiées comme des mots au sens communément accepté du terme.

Une étape ultérieure permet de reconnaître des phrases situées à un niveau supérieur du discours et précédemment répertoriées par Lettria comme des séquences phraséologiques décomposables mais dont la combinaison a une signification imprévisible. C'est à ce stade que les locutions, les expressions et les verbes à particule sont identifiés, auxquels une ou plusieurs catégories possibles sont associées, car ces séquences peuvent être polysémiques. Lors de la désambiguïsation, les unités répertoriées sont identifiées et classées par la machine de la même manière que les unités monolexiques. Les séquences perdre la vie et pleurer (et toutes leurs formes conjuguées) se verront donc attribuer respectivement les catégories mourir et louange. Lorsque plusieurs catégories sont possibles, la désambiguïsation fonctionne de la même manière que pour les unités monolexiques, grâce à l'analyse contextuelle. Par exemple, le verbe livrer recevra la catégorie donner_ (stug) ou express_ (stug) selon que l'objet désigne quelque chose de matériel ou une information.

Sens littéral contre signification figurative

Mais si certaines phrases peuvent recevoir plusieurs catégories, il existe également des séquences qui peuvent être des phrases ou non : comme les unités monolexiques, les unités polylexicales peuvent avoir un sens littéral et un sens figuré. Morceau de gâteau peut donc être une expression au sens figuré, « quelque chose de facile à faire » (Merriam-Webster.com, 2022), et correspondre ainsi à chose_simple catégorie : L'utilisation de cet appareil est un jeu d'enfant. Mais, bien sûr, il peut aussi être utilisé littéralement : Je vais prendre un morceau de gâteau pour le dessert. Il n'est donc pas possible ici d'attribuer une catégorie à l'ensemble de la séquence dans la mesure où l'unité sémantique se situe au niveau de chaque mot.

La solution préférée est basée sur la fréquence. Lorsque le sens littéral est possible mais a priori beaucoup moins fréquent, le sens figuré est choisi. C'est pourquoi pour donner froid sera considérée comme une phrase recevant la catégorie négligence_ (sthg). Lorsque le sens figuré est moins fréquent ou dans le cas d'une fréquence plus ou moins égale, c'est le sens littéral qui est privilégié, comme pour morceau de gâteau. La séquence est alors considérée comme une combinaison libre d'éléments autonomes qui recevront chacun leur propre catégorie.

{{line}}

Want to learn how to build a private ChatGPT using open-source technology?

Catégorisation des verbes

Une organisation non taxonomique

La catégorisation sémantique des verbes pose plusieurs problèmes, à commencer par leur organisation au sein d'un graphe. Le sens de certains verbes peut être plus précis que d'autres : vieillir pourrait être une sous-catégorie de get_changed par exemple. Mais, dans la grande majorité des cas, les verbes n'ont pas de relations d'hypernymie et d'hyponymie entre eux comme celles des noms. Verbes ayant une signification proche de celle de réfléchir, tels que penser ou remue-méninges, ont des nuances qui ne nécessitent pas un niveau de précision différent. Ainsi, dans le graphique consacré aux catégories verbales, seules les catégories finales, celles sans sous-catégories, peuvent recevoir des significations verbales.

Dans ce graphique, les catégories intermédiaires entre le nœud initial et les différentes catégories finales ont pour fonction d'assurer la cohérence globale et de faciliter la localisation de la bonne catégorie lors de l'annotation, ce qui serait moins possible avec une simple liste. Les branches principales correspondent aux différents types d'actions ou d'états exprimés par les verbes : mouvement, possession, changement, communication, etc. Par exemple, la branche POSSESSING contient les sous-branches HAVE et HAVE_NOT. HAVE contient les catégories have_ (sthg) et obtenir_ (sthg), tandis que HAVE_NOT contient Je n'ai pas_ (sthg) et lose_ (stug).

La structure des arguments

Outre l'organisation thématique, le graphe des catégories verbales et ses catégories elles-mêmes sont créés en fonction de la structure argumentative des prédicats. Pour que le discours soit intelligible, les mots imposent certaines contraintes syntaxiques et/ou sémantiques. Les verbes en sont les représentants les plus typiques. Un verbe conjugué doit être accompagné d'autres unités linguistiques (généralement des phrases nominales) qui indiquent quelles entités participent au processus. Ces unités sont appelées arguments (actants en français).

Les verbes sont donc au cœur de la structuration des données textuelles : ils fournissent des informations non seulement sur les événements et les états qu'ils désignent, mais également sur les entités désignées par d'autres mots dans la phrase. Par exemple, dans Paul a vendu sa voiture à Sarah, nous le savons grâce au verbe vendre que Sarah est propriétaire de la voiture et que Paul n'en est plus propriétaire. Pour que le modèle puisse rapporter ces informations, il est nécessaire de les transmettre à la machine par catégories en tenant compte de deux propriétés liées à la structure des arguments des verbes : la valence verbale et les rôles sémantiques.

Valence verbale

Concept développé par Lucien Tesnière (Structural Syntax Elements, Klincksieck, 1959), la valence verbale est le nombre d'arguments nécessaires pour qu'un verbe ayant un sens donné apparaisse dans le discours. Hormis les verbes impersonnels, ce nombre varie de un à trois. Les verbes avec un argument sont des verbes intransitifs (Je dors) : le seul argument est le sujet. Les verbes à deux arguments sont des verbes transitifs avec un seul objet, qu'il s'agisse d'un objet direct (Je mange une pomme) ou un objet indirect (Ce pull appartient à Paul) : le premier argument est le sujet et le second est l'objet direct ou indirect. Les verbes à trois arguments sont des verbes transitifs à deux objets (Je lui ai donné un livre ou Je lui ai donné un livre), qui sont respectivement les deuxième et troisième arguments.

Cependant, de nombreux verbes alternent entre une valence à un argument et une valence à deux arguments. Pour bouger, par exemple, peut être utilisé comme verbe intransitif et comme verbe transitif : Je me déplace lentement/Je déplace la chaise. Dans le premier cas, c'est le sujet qui subit l'action tandis que dans le second c'est l'objet qui est déplacé. Bien qu'il s'agisse du même verbe, les informations concernant les arguments sont totalement différentes selon la valence et cela doit être pris en compte dans la représentation de l'information.

C'est pourquoi ce graphique comporte une première division entre une branche ACT et une branche INTERACT. D'une manière générale, on trouve du côté ACT des verbes à un argument et du côté INTERACT des verbes à deux arguments. C'est le cas des verbes de mouvement et des verbes de changement. (Les pages sont devenues jaunes/Le soleil a fait jaunir les pages), ce qui crée des catégories parallèles dans les deux parties du graphique. Pour certains types de verbes, la différence se situe entre deux et trois arguments, respectivement du côté ACT et du côté INTERACT. C'est le cas pour les verbes de possession : ville (Paul possède une voiture) est du côté ACT alors que donner (Paul donne sa voiture à Sarah) se trouve du côté INTERACT.

Certains verbes peuvent avoir plusieurs valences possibles sans que le sens soit vraiment différent, notamment les verbes qui peuvent être utilisés de manière absolue, c'est-à-dire ceux dont l'objet peut être omis sans que la phrase soit agrammaticale. C'est le cas de écriture dans Tom écrit son nom et dans Tom écrit mal ou mangeant dans Sarah mange une pomme et dans Sarah mange trop vite. Dans ce cas, il n'est pas nécessaire de les séparer en différentes catégories : le sens du verbe est le même et il n'y a aucune différence dans les informations sur le sujet.

Rôles sémantiques

Outre la valence verbale, il y a la question des rôles sémantiques attribués aux arguments. Le rôle sémantique est le rôle joué par chaque argument dans le processus exprimé par le verbe. Un nom ayant une certaine fonction grammaticale (sujet ou objet) peut avoir différents rôles sémantiques selon le verbe qui le régit : agent, patient, bénéficiaire, objectif, lieu, etc. La liste n'est pas exhaustive et varie selon l'approche.

Cependant, dans le même champ sémantique, et donc dans la même branche du graphe, deux verbes de valence identique peuvent ne pas attribuer les mêmes rôles aux arguments. Parmi les verbes de possession, prenons le cas des verbes offrir dans Ils ont offert un casque de protection à l'équipe et équiper dans Ils ont équipé l'équipe d'un casque de protection. Dans la première phrase, le bénéficiaire est l'objet indirect, tandis que dans la deuxième phrase, le bénéficiaire est l'objet direct. Il est donc nécessaire d'attribuer différentes catégories à ces verbes qui génèrent des structures sémantiques différentes : cela a des conséquences sur la structuration de l'information. Ainsi, offrir se trouve dans la catégorie donner_ (stug) tandis que équiper se trouve dans fourni_ (corps). Nous remarquons que les noms de ces catégories soulignent cette différence, l'objet direct étant le plus souvent une chose dans le premier cas et un être humain dans le second.

Ce phénomène peut également exister pour le même verbe. C'est le cas de approvisionnement : Ce producteur fournit du vin aux restaurants locaux/Ce producteur fournit du vin aux restaurants locaux. Dans le premier exemple, le bénéficiaire est l'objet direct et dans le second cas, c'est l'objet indirect. Le verbe fourniture se retrouve donc dans les deux catégories, fourni_ (corps) et donner_ (stug).

Prononominaux français

Forme transitive contre forme pronominale

Le français présente une difficulté particulière dans la catégorisation des verbes pronominaux, qui sont traditionnellement divisés en trois groupes dont les propriétés entraîneront des différences d'annotation. Usages essentiellement pronominaux (parfois appelés en français) pronominaux lexicalisés, (« pronominaux lexicalisés »), qui n'acceptent qu'un objet pronominal chez la même personne que le sujet, ne posent généralement pas de problème. C'est le cas pour les verbes qui n'existent que sous la forme pronominale, tels que s'abstenir (« s'abstenir »), s'évanouir (« s'évanouir ») ou se repentir (« se repentir »), ou pour certaines significations verbales qui peuvent également être utilisées de manière non pronominale. Ainsi, dans la phrase Je m'attends à ce qu'il pleuve demain (« Je pense qu'il pleuvra demain »), s'attendre ne correspond à aucune utilisation transitive de attendre. Le pronom se est considéré comme sémantiquement vide et n'a aucun rôle sémantique. Cette dernière utilisation appartient donc à la catégorie attendue avec les verbes non pronominaux tels que présenter et pronostiquer.

Lorsqu'un verbe transitif est utilisé sous la forme pronominale sans changement de sens, il appartient à la même catégorie. Dans les exemples Elle maquille sa sœur et Elle se maquille, le patient est toujours l'objet : sa sœur dans la première phrase et le pronom se dans le second. Mais certains cas sont plus problématiques. Dans la phrase Je me déplace lentement, devons-nous considérer que déplacer appartient à la catégorie déplacer_dans_l'espace (« aller ailleurs ») avec des verbes intransitifs tels que marcheur (« marcher ») ou faut-il l'intégrer à la catégorie déplacer_ (sthg) _dans_espace comme l'utilisation transitive de déplacer (Je déplace lentement la chaise)? La deuxième option a été choisie, étant donné que le sujet (Je) agit sur lui-même (moi) comme dans l'exemple précédent.

Deux critères sont donc essentiels pour juger qu'une forme pronominale est similaire à une forme transitive. Tout d'abord, nous devons nous assurer que le verbe existe avec la même signification dans la forme transitive. Cela n'a pas été le cas avec s'attendre : on ne peut pas dire *I attends mon frère à ce qu'il pleuve demain. En revanche, c'est le cas de déplacer dans notre dernier exemple : Je déplace lentement le fauteuil. Il est nécessaire que le sujet soit l'agent de l'action. C'est le cas dans Je me déplace lentement, mais ce n'est pas le cas dans une phrase comme La pièce s'est réchauffée rapidement (« La pièce s'est réchauffée rapidement »). Se réchauffer trouvera donc sa place dans get_hot catégorie et non dans heat_ (sthg). Nous constatons que l'analyse lexicographique habituelle corrobore notre choix, car se réchauffer a sa propre définition dans les dictionnaires : « Devenir plus chaud. La temperature se réchauffe.« (« Pour se réchauffer. La température s'échauffe.«, Le Petit Robert de la langue française, édition numérique, Éditions Le Robert, 2022).

Pronominaux passifs accidentels

Ce dernier cas, parfois considéré comme un pronominal passif, doit être distingué de ce que nous appellerons des pronominaux passifs accidentels. Dans les phrases Les robes vertes se vendent beaucoup cette année (« Les robes vertes se vendent beaucoup cette année ») et Cette machine se pilote facilement (« Cette machine est facilement contrôlable »), les verbes ne répondent pas aux critères nécessaires pour être inclus dans la même catégorie que leur forme transitive. Cependant, ils sont sémantiquement différents de l'exemple précédent. Dans La pièce s'est réchauffée rapidement, il est difficile de modifier l'énoncé à donner la pièce la fonction objet sans modifier légèrement le sens de la phrase : On a réchauffé la pièce rapidement implique qu'un agent effectue une action volontaire. Ce n'était pas le cas avec la forme pronominale. Cependant, cela fonctionne avec les deux autres exemples. On vend beaucoup de robes vertes cette année et On pilote facilement cette machine ne changez pas le sens des phrases initiales qui impliquaient déjà l'existence d'un agent agissant volontairement : les personnes ou les organisations qui vendent des robes vertes en vendent beaucoup cette année et quiconque conduit cette machine la conduit facilement.

Ceci est similaire à la voix passive avec omission de l'agent : Les robes vertes sont beaucoup vendues cette année ; This machine is easily pilotée. Une telle transformation n'est pas encore possible avec le premier exemple : La pièce a été rapidement réchauffée implique un agent que la phrase initiale n'implique pas. De plus, dans le cas de pronominaux passifs accidentels, on peut facilement exprimer la même idée avec une tournure de phrase impersonnelle : Il se vend beaucoup de robes vertes cette année ; Il est facile de piloter cette machine. Encore une fois, la même tentative avec le premier exemple implique nécessairement un agent et change le sens de la phrase : Il a été rapide de chauffer la pièce.

Dans les phrases avec vendre et pilote, nous classerons donc les verbes dans les mêmes catégories que leurs utilisations transitives, contrairement à l'exemple donné avec réchauffeur. Les tentatives de transformations présentées ci-dessus sont toutes des critères permettant de catégoriser correctement un verbe pronominal à valeur passive. Et le résultat correspond à nos besoins de structuration : dans le cas des pronominaux passifs accidentels, nous pouvons formaliser l'action d'une entité sur une autre, alors que dans l'autre cas il n'y a qu'une seule entité impliquée et elle subit un changement d'état.

Les problèmes propres à la création de catégories sémantiques et, plus généralement, à la structuration des données textuelles nécessitent donc une connaissance et une analyse approfondies des langues naturelles et des caractéristiques spécifiques de chacune d'entre elles. C'est une nécessité que Lettria prend pleinement en compte dans la construction de ses modèles, dans un souci constant d'efficacité et avec un seul objectif en tête : proposer à ses clients la solution la plus performante possible afin d'extraire de leurs données les informations pertinentes pour le bon fonctionnement et le développement de leur activité.

Callout

Créez votre pipeline NLP gratuitement
Commencez ->