11 minutes de lecture
Outil de traitement automatique des langues (TAL), la plateforme de gestion de données textuelles proposée par Lettria est fondée sur plusieurs années de recherche et de développement mettant en jeu l’algorithmique, la data science (science des données), le génie logiciel et la linguistique. Cette dernière discipline est au cœur des travaux, les langues naturelles constituant la matière première porteuse d’information. Étape essentielle de la formalisation du discours, la catégorisation sémantique vise à identifier le type de sens de chaque mot dans une production langagière donnée, le mot étant en théorie la plus petite unité signifiante autonome.
La création de catégories sémantiques participe ainsi à la structuration des données mais permet également d’aborder un problème majeur dans le traitement des langues naturelles, celui de l’ambiguïté. Ce travail de catégorisation n’est pas sans présenter quelques obstacles. Le figement de certains syntagmes en fait partie, tout comme les particularités syntaxico-sémantiques des verbes, et notamment des verbes pronominaux en français. Autant d'écueils qui ont amené Lettria à faire des choix déterminants, avec toujours pour objectif d’obtenir les résultats les plus pertinents.
Objectif
Structuration de l'information
Structurer l’information nécessite d’identifier les entités et les évènements évoqués dans un texte ainsi que les propriétés qui leur appartiennent et les relations qu’ils entretiennent. Pour ce faire, Lettria a notamment créé plusieurs centaines de catégories sémantiques appelées catégories et organisées au sein de graphes. Les catégories regroupent des mots de même catégories grammaticale ayant des traits sémantiques communs, quelle que soit la langue. Chacune d’elles possède une définition et à chaque mot d’un texte doit correspondre une seule catégorie. Par exemple, la catégorie aircraft a pour définition « Véhicule de transport par les airs » et comprend les mots français avion et helicopter ainsi que les mots français avion et hélicoptère. La catégorie danger a pour définition « chose dangereuse ; ce qui menace qqch. ou qqn » et contient notamment les mots français danger, péril et risque et les mots anglais danger, péril et risque.
Généralement, les catégories nominales ont entre elles des liens identiques aux relations d’hyperonymie et d’hyponymie qu’entretiennent les substantifs. Howard Jackson définit l’hyponymie en ces termes :
"L’hyponymie désigne une relation sémantique d’inclusion : le sens d’un lexème (plus spécifique) est inclus dans le sens d’un autre lexème (plus général). Ainsi, nova est un hyponyme de étoile : étoile est le terme générique, et nova est le terme spécifique de cette relation sémantique. L’hyponymie est souvent importante pour établir les relations sémantiques entre les items d’un champ sémantique." (Howard JACKSON, Words and their Meaning, p. 92, Routledge, 1988)
L’hyperonymie est donc la relation inverse de l’hyponymie. Ces relations se retrouvent dans la structure de nos graphes : la catégorie mammal (« mammifère ») a un sens plus général que celui de la catégorie carnivore, dont le sens est lui-même plus général que celui de la catégorie dog.

La catégorie skin_illness (« maladie de peau ») a un sens plus précis que celui de la catégorie illness (« maladie »).

C’est donc en toute logique que les catégorie nominales désignant des entités concrètes sont hiérarchisées entre elles dans une représentation graphique de type taxonomique (ou taxinomique) allant du plus général au plus particulier.
Le concept de taxonomie, typiquement associé aux tentatives de description du monde vivant, est ainsi expliqué par Jacques Ruffié :
"La classification, ou taxonomie, revient donc à rassembler, selon des niveaux successifs, les vivants qui ont de plus en plus de caractères communs. Ce faisant, on passe des niveaux classificatoires supérieurs (embranchements, classes) aux niveaux classificatoires inférieurs (ordres, familles, espèces)." (Jacques RUFFIÉ, De la biologie à la culture, p. 18, Flammarion, 1976)
Ainsi, la catégorie plant(« plante »), qui contient les mots plante et végétal, a plusieurs sous-catégorie dont tree (« arbre ») qui contient les mots arbre et arbuste. La catégorie arbre a elle-même plusieurs sous-catégories dont celle des conifères, qui contient des mots comme cèdre, mélèze et sapin.

Ce type d’organisation est valable pour d’autres réalités que les êtres vivants, comme l’a analysé le linguiste et lexicographe Alain Rey :
"Ces classes logiques, dont la constitution est étudiée par la taxinomie (anglais taxonomy), se manifestent bien dans le domaine des classifications hiérarchisées et systématiques des sciences naturelles (nomenclatures), mais aussi dans le domaine des hiérarchies d'objets spontanément observés et dénommés à l'intérieur d'une culture (folk taxonomies : taxinomies populaires)." (Alain REY, La Terminologie, p. 35, P. U. F., coll. "Que sais-je", 1979)
Par exemple, dans notre graphe des noms, la catégorie boisson est supérieure à la catégorie boisson_alcoolique, qui est supérieure à plusieurs catégories dont le vin et la bière. Une telle organisation facilite à la fois la création des graphes et leur consultation. Comme nous allons le voir, pour certains noms désignant des entités abstraites et pour les catégories verbales, la hiérarchie repose sur un autre type d'organisation.

Se pose alors la question de la granularité des catégories, c’est-à-dire de leur niveau de précision. Lettria fait le choix de proposer une représentation générale destinée à couvrir l’ensemble des domaines de connaissances sans en privilégier aucun, tout en gardant la possibilité de proposer des graphes complémentaires plus détaillés dans des domaines spécialisés tels que la médecine ou l’agronomie. C’est pourquoi certaines catégories regroupent les hyponymes d’un mot avec ce mot lui-même. Par exemple, la catégorie dog est une catégorie finale - elle n'a pas de sous-catégories - qui contient le mot chien et ses synonymes clébard et toutou, mais aussi caniche, dalmatien et pitbull, bien que ceux-ci soient des hyponymes de chien.
De plus, une telle organisation contient une part de subjectivité, un mot pouvant avoir plusieurs hyperonymes. La classification des être vivants elle-même ne fait pas consensus et continue d’évoluer au rythme des découvertes scientifiques. Ce sont alors les traits sémantiques les plus saillants et les représentations les plus communément admises par les locuteurs non spécialistes qui ont été retenues. Mère est généralement considéré comme un hyponyme de femme, mais nous avons préféré l'inclure dans la catégorie family_member ("personne désignée par sa relation familiale ou conjugale") avecpère et tante. Le poivron est inclus dans la catégorie vegetable alors que du point de vue scientifique c'est un fruit. Nous sommes dans une représentation du monde dite naïve ou populaire et non scientifique du monde, et c’est bien ce que nous recherchons en formalisant les informations véhiculées par la langue courante, hors de tout domaine de spécialité.
La base de données de Lettria, contenant des milliers de mots répartis selon leurs catégosens possibles, constitue donc à la fois une base de données linguistique, mais aussi une base de données encyclopédique qui offre une représentation structurée des réalités et des concepts désignés par les mots. À terme, les catégosens seront enrichies de propriétés de nature ontologique qui permettront notamment d’assigner un certain nombre d’attributs à chaque catégosens (par exemple, une personne a une date de naissance, une ville a des coordonnées géographiques) mais aussi de les lier par des relations autres que la hiérarchie taxonomique (une personne ayant une ville de naissance, les catégosens correspondantes seront liées par une relation déterminée). Cet enrichissement permettra non seulement d’affiner les travaux de structuration, mais aussi de proposer aux clients de Lettria une base solide pour la création de leurs propres ontologies.
Désambiguïsation
La création des catégories est aussi d’une grande utilité dans le cadre des travaux de désambiguïsation menés par Lettria. Ambiguïté reçoit la définition suivante :
Propriété des langues naturelles tenant à l’absence de correspondance biunivoque entre forme et sens, l’ambiguïté peut recevoir une définition sémantique, proche de la perception immédiate : est ambigu tout énoncé susceptible de recevoir plusieurs interprétations." (Michel ARRIVÉ, Françoise GADET & Michel GALMICHE, La Grammaire d'aujourd'hui, p. 60, Flammarion, 1986)
Au niveau lexical, la désambiguïsation est la tâche qui consiste à lever l’ambiguïté du sens des mots, qui concerne autant les homographes (comme avocat dans Mon frère est avocat et Je mange un avocat) que les mots polysémiques (les différents sens de piquer dans Le froid me pique la peau et n m’a piqué mon sac, par exemple). Si l’être humain est capable de désambiguïser dans de nombreux cas grâce au contexte, il n’en est rien pour la machine si elle n’a pas été entraînée préalablement.
Dans la construction de son modèle de NLP, Lettria a choisi de s’attaquer à ce problème avec le machine learning (apprentissage automatique), domaine de l’intelligence artificielle qui se propose de créer des modèles qui améliorent leurs performances en fonction des données qu’ils traitent. Ainsi, ont été mises en place des campagnes d’annotation au cours desquelles les équipes de Lettria annotent des données textuelles d’origine variée en attribuant à chaque mot la catégorie qui convient. Après plusieurs mois d’entraînement, la machine reconnaît la bonne catégorie dans de nombreux cas grâce à l’analyse du contexte.
Notons que le problème de l’ambiguïté sémantique concerne également le nom des catégosens. Une catégosens a souvent pour nom l’un des mots les plus représentatifs de la catégorie en question. Puisqu’il s’agit de créer un modèle univoque, il est nécessaire qu’un nom soit utilisé pour une seule catégosens, mais aussi que chaque nom soit le moins ambigu possible, car même si chaque catégosens est accompagnée d’une définition, un nom de catégosens ambigu peut être source d’erreur lors de l’annotation. On privilégie alors un mot monosémique ou dont le sens concerné est clairement délimité. Dans certains cas, on a aussi recours à une paraphrase. La catégosens ayant pour définition « Caractère d’une personne qui manque de valeurs morales » est ainsi nommée moral_lowness (« bassesse morale »).
Le cas des phrases
Le figement lexical
Un obstacle majeur dans la catégorisation sémantique est l’impossibilité d’attribuer un sens aux mots qui apparaissent dans certaines séquences déterminées. En effet, le sens d’une suite de mots n’est pas toujours la combinaison des sens des unités qui les composent. Une pomme de terre n’est pas le fruit d’un pommier souterrain. Mettre quelqu’un au courant ne nécessite pas de brancher cette personne sur le secteur. Et lorsque l’on mène quelqu’un par le bout du nez, il n’est pas question de déplacer qui que ce soit en tirant sur son appendice nasal. De plus, certains mots ne s’emploient pas ou plus de manière indépendante. Fur, dans fur et à mesure, franquette, dans à la bonne franquette, ou l'anglais fro dans to and fro (« de long en large ») en sont des exemples typiques.
Ce phénomène est celui du figement : les éléments du discours perdent leur autonomie sémantique au sein de certaines combinaisons. Ces combinaisons sont regroupées sous différentes appellationsparmi lesquelles on trouve unités phraséologiques (phrases en anglais), et leur définition varie selon les auteurs, tout comme leur délimitation.
"l’ensemble des expressions figées est hétérogène, et plusieurs types distincts peuvent être observés". (Rosamund MOON, 'There is reason in the roasting of eggs' : a consideration of fixed expressions in native-speaker dictionaries, in EURALEX '92 : Proceedings I-II : papers submitted to the 5th EURALEX International Congress on lexicography in Tampere, Finland (Studia translatologica), p. 494, Oxford University Press, 1992)
Mais qu’il s’agisse de mots composés (rec room) ou de locutions figées (au fur et à mesure), le problème est le même pour les linguistes qui ne peuvent en catégoriser sémantiquement chaque élément. La difficulté est encore plus grande dans le cas de la langue anglaise avec ses nombreux verbes à particule (phrasal verbs), unités composées d’un verbe et d’un mot grammatical (souvent adverbe ou préposition) et dont le ou les sens diffèrent de celui ou de ceux du verbe en emploi libre. Cry up, par exemple, s’emploie de manière transitive au sens de « vanter », sens que n’a pas cry employé seul et qui n’est pas la combinaison des sens de cry et up.
Tokenisation et catégorisation phraséologique
Lettria s’efforce de résoudre ce problème lors de deux étapes du traitement des données. La première est celle de la tokenisation, qui consiste à segmenter chaque phrase en tokens, c’est-à-dire en unités linguistiques manipulables telles que les mots et les éléments de ponctuation, mais aussi des entités comme les noms propres (tour Eiffel) Dès cette étape, un certain nombre de séquences polylexicales sont identifiées comme des unités linguistiques minimales, donc indécomposables sur le plan sémantique. Ainsi, pomme de terre et grosso modo, bien que composés de plusieurs suites de signes séparés par des espaces, seront lemmatisés et traités comme des éléments minimaux et catégorisés en tant que tels. Mais il ne s’agit ici que de séquences monosémiques courtes, identifiées comme des mots au sens communément admis du terme.
Une étape postérieure permet de reconnaître des unités figées au niveau supérieur dans le discours et préalablement répertoriées par Lettria en tant que séquences phraséologiques décomposables mais dont la combinaison possède un sens non prédictible. C’est à ce stade que sont identifiés des locutions, des expressions et des verbes à particules anglais auxquels sont associées une ou plusieurs catégosens possibles, ces séquences pouvant être polysémiques. Lors de la désambiguïsation, les unités répertoriées sont identifiées et catégorisées par la machine comme le sont les unités monolexicales. C’est donc à l’ensemble des séquences perdre la vie et plier bagage ( et toutes leurs formes conjuguées) se verront donc attribuer respectivement les catégories die (« mourir ») et leave(« partir »). Quand plusieurs catégosens sont en concurrence, la désambiguïsation fonctionne de la même manière que pour toute autre unité de la langue, grâce à l’analyse du contexte. Par exemple, partir en vrille recevra la catégorie act_badly (« mal agir ») ou get_worse (« empirer ») selon que le sujet est humain ou non.
L’alternance sens propre/sens figuré
Mais si certaines séquences plus ou moins figées peuvent recevoir plusieurs catégosens, il existe aussi des séquences qui peuvent être figées ou non. C’est typiquement le cas de l’alternance entre sens propre (ou sens littéral) et sens figuré portant ici sur des ensembles de plusieurs mots. Envoyer des fleurs à quelqu’un peut ainsi être une expression figurée ayant pour sens « complimenter quelqu’un » et correspondre ainsi à la catégosens congratulate : L’opposition n’a pas pour habitude d’envoyer des fleurs aux pouvoirs publics. Mais elle peut aussi s’employer de manière littérale : Notre réseau de fleuristes vous permet d’envoyer des fleurs à vos proches partout dans le monde. Il n’est donc pas possible ici d’attribuer une catégosens à l’ensemble de la séquence dans la mesure où l’unité sémantique peut se trouver au niveau de ses éléments.
La solution privilégiée est fondée sur la fréquence d’usage. Quand l’emploi littéral est possible mais a priori nettement moins fréquent, c’est le sens figuré qui est choisi. C’est pourquoi ne pas lever le petit doigt sera considéré comme une expression recevant la catégorie abstain (« ne pas agir »). Lorsque le sens figuré est moins fréquent ou dans le cas d’une fréquence plus ou moins égale, c’est le sens littéral qui est privilégié, comme dans le cas de envoyer des fleurs. La séquence est alors considérée comme une combinaison libre d’éléments autonomes qui recevront chacun leur propre catégorie.
Le cas des verbes
Une organisation non taxonomique
La catégorisation sémantique des verbes pose plusieurs problèmes particuliers, à commencer par celui de leur organisation au sein d’un graphe. Certains sens de verbes peuvent être considérés comme plus précis que d’autres : get_old (« devenir vieux ») pourrait être une sous-catégosens de get_changed (« changer, devenir différent ») par exemple. Mais, dans la grande majorité des cas, les verbes n’entretiennent pas entre eux de relations d’hyperonymie et d’hyponymie comme celles des noms. Les verbes de sens proche de celui de réfléchir, comme penser ou brainstormer, ont des nuances de sens qui ne relèvent pas d’un niveau de précision différent. De ce fait, dans le graphe consacré aux catégosens verbales, seules les catégories finales, celles qui n’ont pas de sous-catégories, sont des catégosens pouvant recevoir des sens verbaux.
Les catégories intermédiaires entre le nœud initial et les différentes catégosens finales ont ici pour fonction de s’assurer de la cohérence d’ensemble et de faciliter le repérage de la catégosens adéquate, ce que permettrait moins une simple liste. Les branches principales correspondent donc aux différents types d’actions ou d’états exprimés par les verbes : le mouvement, la possession, le changement, la communication, etc. Par exemple, la branche de possession POSSESSING contient les sous-branches HAVE (« avoir ») et HAVE_NOT (« ne pas avoir »). HAVE regroupe les catégosens have_(sthg) (avec des verbes comme avoir, détenir, posséder) et obtain_(sthg) (acquérir, obtenir, recevoir), tandis que HAVE_NOT contient have_not_(sthg) (manquer) et lose_(sthg) (perdre, paumer).

La structure argumentale
En plus de l’organisation thématique, le graphe des catégosens verbales et ses catégosens elles-mêmes sont créés en fonction de la structure argumentale des prédicats. Pour que le discours soit intelligible, l’usage d’un mot impose certaines contraintes syntaxiques et/ou sémantiques. Les verbes sont les représentants les plus typiques de cet état de fait. Un verbe conjugué doit être accompagné d’autres unités linguistiques (généralement des groupes nominaux) qui indiquent quelles sont les entités qui participent au procès exprimé. On appelle ces unités actants ou arguments.
Les verbes sont donc au cœur de la structuration de données textuelles : ils fournissent non seulement des informations sur les évènements et les états qu'ils désignent, mais aussi sur les entités désignées par d’autres mots de la phrase. Par exemple, dans la phrase Paul a vendu sa voiture à Sarah, on sait grâce au verbe vendre que Sarah possède la voiture et que Paul ne la possède plus. Pour que le modèle fasse état de ces informations, il est nécessaire que les catégosens les transmettent en tenant compte de deux propriétés liées à la structure argumentale des verbes : la valence verbale et les rôles sémantiques.
Valence verbale
Notion développée par Lucien Tesnière en même temps que celle d’actance, la valence verbale est le nombre d’actants nécessaire pour qu’un verbe avec un sens donné puisse se réaliser dans le discours. Les verbes impersonnels mis à part, ce nombre varie de un à trois. Les verbes à un actant sont les verbes intransitifs (Je dors) : l’actant unique est le sujet. Les verbes à deux actants sont les verbes transitifs directs à un seul complément (Je mange une pomme) et les verbes transitifs indirects (Ce pull appartient à Paul) : le premier actant est le sujet et le deuxième est le complément direct ou indirect. Les verbes à trois actants sont les verbes transitifs à deux compléments, typiquement un complément direct et un complément indirect en français (Je donne le livre à Luc), qui sont respectivement le deuxième et le troisième actant.
Or, de nombreux verbes présentent une alternance entre une valence à un actant et une valence à deux actants. Avancer, par exemple, peut s’employer en tant que verbe intransitif et en tant que verbe transitif : J’avance lentement / J’avance le fauteuil. Dans le premier cas, c’est le sujet qui est déplacé tandis que dans le second c’est le complément que l’on déplace. Bien qu’il s’agisse du même verbe, l’information concernant les actants est totalement différente selon la valence et il faut en tenir compte dans la représentation de l’information.
C’est pourquoi le graphe des catégosens verbales présente une première division entre les branches ACT et INTERACT. D’une manière générale, on trouve du côté ACT les verbes à un actant et du côté INTERACT les verbes à deux actants. C’est le cas des verbes de mouvement et des verbes de changement (Les pages ont jauni / Le soleil a jauni les pages), ce qui crée des catégories parallèles dans chacune des deux parties du graphe. Pour certains types de verbes, l’alternance se fait entre des valances à deux et trois actants, respectivement du côté ACT et du côté INTERACT. C’est le cas des verbes de possession : posséder (Paul possède une voiture) est du côté ACT tandis que donner (Paul donne sa voiture à Sarah) est du côté INTERACT.
Certains verbes peuvent avoir plusieurs valences possibles sans que le sens soit réellement différent, notamment les verbes que l’on peut employer absolument, c’est-à-dire ceux dont on peut omettre le complément sans que la phrase soit agrammaticale. C’est le cas de écrire dans Tom écrit son nom et dans Tom écrit mal ou de manger dans Sarah mange une pomme et dans Sarah mange trop vite. Dans ce cas, il n’est pas nécessaire de les séparer dans des catégosens différentes : le sens du verbe est le même et il n’y aucune différence quant aux informations portant sur le sujet.
Rôles sémantiques
Par ailleurs, à la valence verbale s’ajoute la question des rôles sémantiques attribués aux actants. Le rôle sémantique est le rôle joué par chaque actant dans le procès exprimé par le verbe. Un substantif ayant un certaine fonction grammaticale (sujet ou complément) peut avoir différents rôles sémantiques selon le verbe qui le régit : agent, patient, bénéficiaire, but, lieu, etc. La liste n’est pas exhaustive et varie selon les approches.
Toujours est-il que dans un même champ sémantique – et donc dans une même branche du graphe –, deux verbes de valence identique peuvent ne pas assigner les mêmes rôles aux actants. Parmi les verbes de possession, prenons le cas de attribuer dans On a attribué aux salariés un équipement neuf et de doter dans On a doté les salariés d’un équipement neuf. Dans la première phrase, le bénéficiaire est le complément indirect alors que dans la seconde le bénéficiaire est le complément d’objet direct. Il est donc nécessaire d’attribuer des catégosens différentes à ces verbes qui génèrent des structures sémantiques différentes, ce qui a des conséquences sur la structuration de l’information. Ainsi, attribuer se trouve dans la catégosens give_(sthg) (« donner ») tandis que doter se trouve dans provide_(sbody) (« munir, pourvoir »). On note d’ailleurs que le nom de ces catégosens met en valeur cette différence, le complément direct étant plus souvent un objet dans le premier cas et un être humain dans le second.
Cette alternance peut aussi exister pour un même verbe. C’est le cas de fournir : Ce producteur fournit les restaurants locaux en vin / Ce producteur fournit du vin aux restaurants locaux. Dans le premier cas le bénéficiaire est le COD et dans le second cas c’est le COI. Le verbe fournir se trouve donc dans les deux catégosens, provide_(sbody) et give_(sthg).
Les pronominaux
L’alternance forme transitive/forme pronominale
Le français présente une difficulté particulière quant à la catégorisation des verbes pronominaux, lesquels sont traditionnellement répartis en trois groupes dont les propriétés entraîneront des différences d’annotation. Les emplois exclusivement pronominaux, dits pronominaux lexicalisés, qui n’acceptent qu’un complément pronominal à la même personne que le sujet ne sont généralement pas problématiques. C’est le cas de verbes qui n’existent qu’à la forme pronominale, comme s’abstenir, s’évanouir ou se repentir, ou de certains sens de verbes qui peuvent aussi s’employer de manière non pronominale. Ainsi, dans la phrase Je m’attends à ce qu’il pleuve demain, s’attendre ne correspond pas à aucun emploi transitif de attendre. On considère alors que le pronom se est sémantiquement vide et qu’aucun rôle sémantique ne lui est attribué. Ce dernier emploi trouve donc sa place dans la catégosens expect avec des verbes non pronominaux tels que pressentir et pronostiquer.
Lorsqu’un verbe transitif est employé pronominalement sans changement de sens, il appartient à la même catégosens. Dans les exemples Elle maquille sa sœur et Elle se maquille, le patient est toujours le COD, en l’occurrence le pronom se dans la seconde phrase. Mais certains cas sont plus problématiques. Dans la phrase Je me déplace lentement, faut-il considérer que se déplacer appartient à la catégosens move_in_space (« changer de place ») avec des verbes intransitifs tels que marcher ou faut-il l’intégrer à la catégosens move_(sthg)_in_space (« faire changer de place ») tout comme l’emploi transitif de déplacer (Je déplace le meuble lentement) ? C’est cette seconde option qui a été retenue, en considérant que le sujet (Je) agit sur lui-même (me) comme dans l’exemple précédent.
Deux critères sont donc essentiels pour juger qu’un emploi pronominal est similaire à un emploi transitif. Il faut d’abord s’assurer que le verbe existe avec le même sens à la forme transitive. Ce n’était pas le cas de s’attendre : on ne peut pas dire *J’attends mon frère à ce qu’il pleuve demain. En revanche, c’est bien le cas de déplacer dans notre dernier exemple : Je déplace le meuble lentement. Il est ensuite nécessaire que le sujet soit bien agent de l’action. C’est le cas dans Je me déplace lentement, mais ce n’est pas le cas dans une phrase telle que La pièce s’est réchauffée rapidement. Se réchauffer trouvera donc sa place dans la catégosens get_hot et non dans heat_(sthg). On note d’ailleurs que l’analyse lexicographique habituelle corrobore notre choix, se réchauffer faisant l’objet d’une définition à part entière dans les dictionnaires : « Devenir plus chaud. La température se réchauffe ».
Les pronominaux à valeur passive accidentels
Il convient de distinguer ce dernier cas, parfois considéré comme un pronominal à sens passif, de ce que nous appellerons les pronominaux passifs accidentels. Dans les phrases Les robes vertes se vendent beaucoup cette année et Cette machine se pilote facilement, les verbes ne remplissent a priori pas les critères nécessaires à leur intégration dans les mêmes catégosens que leur forme transitive. Pourtant, ils se distinguent de l’exemple précédent sur le plan sémantique. Dans La pièce s’est réchauffée rapidement, il est difficile de modifier l’énoncé pour donner à la pièce la fonction COD sans modifier légèrement le sens de la phrase : On a réchauffé la pièce rapidement implique un agent effectuant une action volontaire. Ce n’était pas le cas de la forme pronominale. En revanche, cela fonctionne avec les deux autres exemples. On vend beaucoup de robes vertes cette année et On pilote facilement cette machine ne modifient pas le sens des phrases initiales qui impliquaient déjà l’existence d’un agent agissant volontairement : les personnes ou organismes qui vendent des robes vertes en vendent beaucoup cette année et toute personne qui pilote cette machine la pilote facilement.
Il s’agit ici d'un phénomène proche de celui de la voix passive avec omission du complément d’agent : Les robes vertes sont beaucoup vendues cette année ; Cette machine est facilement pilotée. Une telle transformation n’est encore une fois pas possible avec le premier exemple : La pièce a été rapidement réchauffée implique un agent que n’implique pas la phrase initiale. De plus, dans le cas des pronominaux passifs accidentels, on peut aisément exprimer la même idée avec une tournure impersonnelle : Il se vend beaucoup de robes vertes cette année ; Il est facile de piloter cette machine. Là encore, la même tentative avec le premier exemple implique obligatoirement un agent et change le sens de la phrase : Il a été rapide de réchauffer la pièce.
Dans les phrases avec vendre et piloter, on classera donc les verbes dans les mêmes catégosens que leurs emplois transitifs, contrairement à l’exemple donné avec réchauffer. Les tentatives de transformations montrées précédemment sont autant de critères permettant de catégoriser correctement un verbe pronominal à valeur passive. Et le résultat correspond aux besoins en matière de structuration : dans le cas du pronominal passif accidentel, on peut formaliser l’action d’une entité sur une autre tandis que dans l’autre cas il n’y a qu’une seule entité qui est en jeu et qui subit un changement d’état.
Les problèmes posés par la création de catégories sémantiques et plus généralement de structuration des données textuelles requièrent donc une connaissance et une analyse pointues des langues naturelles et des particularités propres à chacune d’entre elles. Une nécessité dont Lettria tient pleinement compte dans la construction de ses modèles, dans un souci permanent d’efficacité et avec un seul but : proposer à ses clients la solution la plus aboutie possible afin d’extraire de leurs données les informations pertinentes pour la bonne marche et le développement de leur activité.
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat. Aenean faucibus nibh et justo cursus id rutrum lorem imperdiet. Nunc ut sem vitae risus tristique posuere.