NLP ou NLU pour le RGPD : quels outils sont les plus adaptés

Dans cet article, nous allons vous présenter les principaux concepts du traitement linguistique et la manière dont il est utilisé pour aider les entreprises à se conformer aux nouvelles réglementations de l'UE.

Maxime Jaillet

Jan 15, 2024

Get a quick demo ->

La PNL, la NLU et la conformité au RGPD, quel est le problème ?

NLP : traitement du langage naturel
NLU : Compréhension du langage naturel

Les deux termes sont parfois confondus, mais ils recouvrent des processus différents. Un Chaîne de traitement de la PNL correspond à l'analyse morphologique, syntaxique et sémantique du document afin d'en obtenir une compréhension littérale. Il séparera les mots, les étiquetera grammaticalement et détectera les balises clés de la langue. À s'appuyer sur ce premier niveau de compréhension, la PNL est enrichie par des briques complémentaires. Il devient alors NLU (Compréhension du langage naturel), terme qui englobe tous les efforts déployés pour comprendre les données saisies dans votre contexte utilisateur et pour donner un sens à vos phrases.

Analyse morphologique, syntaxique et sémantique des données

Imaginons qu'un responsable des ressources humaines décide de renseigner le dossier personnel de l'un des employés de votre entreprise. Pour ce faire, ils saisissent des informations dans une zone de commentaires gratuits prévue dans le SIRH.

Pour que la machine puisse traiter ce texte, il faut segmenter chaque phrase en unités élémentaires et détailler leurs caractéristiques. L'approche PNL repose donc sur trois niveaux d'analyse :

morphologique: chaque phrase est décomposée en balises élémentaires, ou jetons, comprenant un mot ou un ensemble de deux ou trois mots. Chaque ensemble est étiqueté en fonction de sa classe grammaticale (préposition, verbe, nom commun, etc.) via un processus de balisage (ou balise Part of Speech) ;
syntaxique: l'analyse met en évidence les liens de dépendance entre chaque composante d'une phrase (entre un complément d'objet direct et le sujet de la phrase, par exemple) ;
sémantique: une fois l'analyse morpho-syntaxique terminée, l'accent est mis sur la compréhension du sens de la phrase.

Cette analyse est essentielle pour le traitement des données qui ne sont pas initialement structurées (e-mail, publication sur les réseaux sociaux, etc.). Il s'agit de l'étape préliminaire pour analyse automatique de la conformité des commentaires gratuits au RGPD, les données non structurées par excellence. La syntaxe utilisée peut être incorrecte. De plus, il n'existe souvent aucune standardisation interne sur la manière de rédiger de tels commentaires. La PNL est donc la méthode privilégiée pour aborder un contenu aussi complexe, le normaliser et le décomposer en balises interprétables.

Want to learn how to build a private ChatGPT using open-source technology?

Download our free white paper →

Classification automatique du texte - Catégorisez les commentaires pour vous conformer au RGPD

Dans de nombreux cas, une approche basée sur la PNL ne suffit pas. La signification d'une expression idiomatique ne peut pas être comprise par une simple analyse syntaxique et sémantique. C'est ici Le NLU est très pratique. Un modèle de classification automatique des textes et des documents peut prendre le relais des analyses précédentes afin d'attribuer une catégorie pour des commentaires gratuits.

Les données non structurées peuvent être classées en fonction de la nature du document : contrat, e-mail, spécifications du produit ;
L'attribut peut également être lié à d'autres facteurs : le niveau de priorité pour le traitement d'un e-mail ; le statut de conformité au RGPD d'un commentaire gratuit, etc. La classification est une étape importante car la catégorie attribuée peut déterminer une action à mettre en œuvre de manière informatisée ;
rejeter le spam ;
bloquer l'entrée d'un commentaire gratuit insultant ;
alerte lorsqu'un commentaire gratuit non conforme au RGPD ou contenant des données sensibles est saisi.

Reconnaissance des entités nommées - Identifiez les données soumises au RGPD

Reconnaissance d'entités nommées (NER) consiste à extraire des informations à partir de données non structurées et à les classer dans des catégories prédéfinies. Pour ce faire, Lettria applique une liste de expressions régulières (regexes) et en utilisant apprentissage automatique. La machine peut ainsi détecter qu'un commentaire donné mentionne par exemple :

des volumes ;
des dattes ;
nom et prénom ;
adresses e-mail ou numéros de téléphone ;
un numéro de sécurité sociale ou une adresse IP.

La détection d'une entité nommée peut entraîner l'application automatique d'une action.

Vous minimisez la collecte de données via des champs de forme libre en vous assurant de ne collecter que ce qui est nécessaire. Un conseiller qui traite une réclamation n'a pas besoin de saisir le numéro de sécurité sociale du client. Une fenêtre contextuelle peut les en avertir au moment de la saisie des données.
Vos équipes CRM peuvent également tirer parti des informations utiles contenues dans les commentaires en format libre. Par exemple, si le conseiller clientèle collecte une nouvelle adresse postale, il peut être invité à la saisir dans la fiche client.

Analyse des sentiments

Analyse des sentiments consiste à rechercher des données linguistiques et en le classant selon son ton neutre, positif ou négatif. La détection d'une telle polarité facilite ensuite le classement du commentaire capté selon une typologie connue : opinion, sentiment, émotion, information. L'analyse des sentiments permet de surveiller son e-réputation. Par exemple, un e-commerçant peut vouloir savoir comment ses clients perçoivent sa marque ou ses produits grâce aux avis qu'ils publient en ligne.

Conclusion : NLP et NLU automatisent l'analyse de vos zones de commentaires gratuits

La PNL et la NLU sont combinées. Ils vous permettent déléguer à la machine la tâche fastidieuse d'examiner tous les commentaires libres d'une base de données donnée pour identifier ceux qui posent problème. Une partie de votre Conformité au RGPD peuvent ainsi être automatisés.

La machine met en œuvre ce processus avec une logique d'auto-apprentissage, en s'appuyant sur l'intelligence artificielle. Cela augmente considérablement sa capacité à identifier les données personnelles dans un commentaire, qu'il s'agisse uniquement de coordonnées ou d'informations sensibles. Ces phases d'analyse et de catégorisation conduiront naturellement à l'activation du blocage des commentaires, et à une campagne de sensibilisation que vous devrez mener au sein de votre organisation.

Maxime Jaillet

Expert en RGPD