NLP vs. NLU pour le RGPD : Quels sont les outils les plus adaptés ?

Dans cet article, nous vous présentons les principaux concepts du traitement du langage et la manière dont il est utilisé pour aider les entreprises à se conformer aux nouvelles réglementations européennes.

DANS CET ARTICLE

Prêt à extraire l'or de vos données ?

Le saviez-vous : NLP peut garantir la conformité de votre organisation au RGPD en modérant automatiquement vos sections de commentaires ?

Si vous n'avez pas compris cette affirmation, ne vous inquiétez pas ! Cet article vous présentera les principaux concepts du traitement du langage et la manière dont il est utilisé pour aider les entreprises à se conformer aux nouvelles réglementations européennes.

NLP versus NLU et conformité au RGPD, quel est le problème ?

  • NLP: Traitement du langage naturel
  • NLU : Compréhension du langage naturel

Ces deux termes sont parfois confondus, mais ils recouvrent des processus différents. Une chaîne de traitementNLP correspond à l'analyse morphologique, syntaxique et sémantique du document afin d'en recueillir une compréhension littérale. Elle va séparer les mots, les étiqueter grammaticalement et détecter les balises clés de la langue. Pour s'appuyer sur ce premier niveau de compréhension, NLP s'enrichit de briques complémentaires. Il devient alors NLU (Natural Language Understanding), un terme qui englobe tous les efforts déployés pour comprendre les données saisies dans votre contexte d'utilisateur et pour donner du sens à vos phrases.

Analyse morphologique, syntaxique et sémantique des données

Imaginons qu'un responsable des ressources humaines décide de compléter le dossier personnel d'un des employés de votre entreprise. Pour ce faire, il saisit des informations dans une zone de commentaire libre prévue dans le SIRH.

Pour que la machine puisse traiter ce texte, il faut segmenter chaque phrase en unités élémentaires et détailler leurs caractéristiques. L'approche de NLP repose donc sur trois niveaux d'analyse :

  • morphologique: chaque phrase est décomposée en balises élémentaires, ou tokens, comprenant un mot ou un ensemble de deux ou trois mots. Chaque ensemble est étiqueté en fonction de sa classe grammaticale (préposition, verbe, nom commun, etc.) via un processus d'étiquetage (ou Part of Speech Tag) ;
  • syntaxique: l'analyse met en évidence les liens de dépendance entre chaque composant d'une phrase (entre un complément d'objet direct et le sujet de la phrase, par exemple) ;
  • sémantique: une fois l'analyse morpho-syntaxique terminée, l'accent est mis sur la compréhension du sens de la phrase.

Cette analyse est indispensable pour traiter des données qui ne sont pas initialement structurées (e- mail ; post sur les réseaux sociaux, etc.). C'est l'étape préalable à l'analyse automatique de la conformité au RGPD des commentaires libres, données non structurées par excellence. La syntaxe utilisée peut être mauvaise. De plus, il n'y a souvent pas de standardisation interne sur la manière de rédiger ces commentaires. NLP est donc un moyen privilégié d'aborder ces contenus complexes, de les normaliser et de les décomposer en balises interprétables.

Classification automatique du texte - Catégorisation des commentaires pour la conformité au RGPD

Dans de nombreux cas, une approche basée sur NLP n'est pas suffisante. Le sens d'une expression idiomatique ne peut être compris par une simple analyse syntaxique et sémantique. C'est là que l 'UAL s'avère utile. Un modèle de classification automatique de textes et de documents peut prendre le relais des analyses précédentes afin d'attribuer une catégorie aux commentaires libres.

  • Les données non structurées peuvent être classées en fonction de la nature du document : contrat, courriel, spécifications du produit ;
  • L'attribut peut également concerner d'autres facteurs : le niveau de priorité pour le traitement d'un courriel ; le statut de conformité au RGPD d'un commentaire libre, etc. La classification est une étape importante car la catégorie attribuée peut déterminer une action à mettre en œuvre de manière informatisée ;
  • rejeter le spam ;
  • bloquer l'entrée d'un commentaire libre insultant ;
  • alerte lors de la saisie d'un commentaire libre non conforme au RGPD ou contenant des données sensibles.

Reconnaissance d'entités nommées - Identifier les données concernées par le RGPD

La reconnaissance d'entités nommées (NER) consiste à extraire des informations de données non structurées et à les classer dans des catégories prédéfinies. Pour ce faire, Lettria applique une liste d'expressions régulières (regexes ) et utilise Machine Learning. La machine peut ainsi détecter qu'un commentaire donné mentionne par exemple :

  • volumes ;
  • dates ;
  • le nom et le prénom ;
  • les adresses électroniques ou les numéros de téléphone ;
  • les numéros de sécurité sociale ou une adresse IP.

La détection d'une entité nommée peut conduire à une action appliquée automatiquement.

  • Vous minimisez la collecte de données via les champs libres en vous assurant de ne collecter que ce qui est nécessaire. Un conseiller qui traite un sinistre n'a pas besoin de saisir le numéro de sécurité sociale du client. Une fenêtre contextuelle peut l'en avertir au moment de la saisie des données.
  • Vos équipes de CRM peuvent également tirer parti des informations utiles contenues dans les commentaires en format libre. Par exemple, si le conseiller clientèle recueille une nouvelle adresse postale, il peut être invité à la saisir dans la fiche client.

Analyse des sentiments

L'analyse des sentiments consiste à rechercher des données linguistiques et à les catégoriser en fonction de leur tonalité neutre, positive ou négative. La détection d'une telle polarité facilite ensuite la classification du commentaire saisi selon une typologie connue : opinion, sentiment, émotion, information. L'analyse des sentiments permet de surveiller sa propre e-réputation. Par exemple, un e-commerçant peut vouloir savoir comment ses clients perçoivent sa marque ou ses produits à travers les avis qu'ils postent en ligne.

Conclusion : NLP et NLU automatisent l'analyse de vos zones de commentaires libres

NLP et NLU sont combinés. Ils vous permettent de déléguer à la machine la tâche fastidieuse d'examiner tous les commentaires libres d'une base de données donnée pour identifier ceux qui posent problème. Une partie de votre mise en conformité RGPD peut ainsi être automatisée.

La machine met en œuvre ce processus avec une logique d'auto-apprentissage, en s'appuyant sur l'intelligence artificielle. Cela augmente considérablement sa capacité à identifier les données personnelles dans un commentaire, qu'il s'agisse seulement d'un détail de contact ou d'une information sensible. Ces phases d'analyse et de catégorisation vont naturellement conduire à l'activation du blocage des commentaires, et à une campagne de sensibilisation que vous devez mener au sein de votre organisation.

Callout

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat. Aenean faucibus nibh et justo cursus id rutrum lorem imperdiet. Nunc ut sem vitae risus tristique posuere.

This is some text inside of a div block.
This is some text inside of a div block.
This is some text inside of a div block.
This is some text inside of a div block.

Continuer à lire

Voir tous les articles ->
Créez votre pipeline NLP gratuitement
Démarrez ->