Solutions

NLP, NLU et GDPR - Quelles technologies pour quels usages ?

Date: 2020-07-13

Le saviez-vous : le NLP peut garantir la conformité RGPD de votre organisation en modérant automatiquement les ZCL.

Si vous n'avez pas compris cette affirmation, pas d'inquiétude! Cet article vous permettra d'aborder les grands concepts du traitement du langage, et de découvrir comment il est utilisé pour aider les sociétés à se conformer aux nouvelles réglementations européennes.

NLP vs NLU et conformité RGPD, kézako ?

  • NLU : Natural Language Understanding
  • NLP : Natural Language Processing

Si les deux termes sont parfois confondus, ils recouvrent une réalité différente. Un chaîne de traitement NLP correspond aux analyses morphologique, syntaxique et sémantique du document pour en recueillir une compréhension littérale. Elle permettra de séparer les mots, les labelliser grammaticalement et détecter les balises clés du langage. Pour augmenter ce premier niveau de compréhension, le NLP sera enrichi via des briques complémentaires. Il devient alors NLU (Natural Language Understanding), ce terme regroupant tous les efforts opérés afin de replacer les données saisies dans votre contexte utilisateur et de donner un sens à vos phrases. On aboutit à une compréhension du langage naturel que vous utilisez pour faire émerger une intention derrière la requête formulée.

Analyse morphologique, syntaxique, sémantique des données

Imaginons qu’un responsable des ressources humaines décide de compléter le dossier du personnel d’un des salariés de votre entreprise. Pour cela, il saisit des informations dans une zone de commentaires libres mise à disposition au sein du SIRH. Pour que la machine puisse comprendre ce texte, elle doit segmenter chaque phrase en unités élémentaires et en détailler les caractéristiques. La démarche NLP repose alors sur trois niveaux d'analyse :

  • morphologique : chaque phrase est découpée en balises élémentaires, ou tokens, comprenant un mot ou un ensemble de deux ou trois mots. Chaque ensemble est labellisé selon sa classe grammaticale (préposition, verbe, nom commun…) via une démarche de taggage (ou Part of Speech Tag) ;
  • syntaxique : l’analyse fait ressortir les liens de dépendance entre chaque composante d’une phrase (entre un complément d’objet direct et le sujet de la phrase, par exemple) ;
  • sémantique : passée l’analyse morpho-syntaxique, place à la compréhension du sens de la phrase.

Cette analyse est indispensable pour structurer une donnée qui ne l’est pas au départ (e- mail ; post de réseau social…). C’est le préliminaire pour mener une analyse automatisée de la conformité RGPD des commentaires libres, donnée non structurée par excellence. La syntaxe utilisée peut être mauvaise. Il n’y a en outre souvent aucune standardisation en interne quant à la manière de rédiger de tels commentaires. Le NLP est donc une manière privilégiée d’aborder un tel contenu complexe, de le normaliser et de le fragmenter en balises interprétables.

Classification de texte automatique – Catégorisez la conformité RGPD des commentaires

Dans de nombreux cas, une approche basée sur le NLP n’est pas suffisante. Le sens d’une expression idiomatique ne peut ainsi pas se comprendre par une simple analyse syntaxique et sémantique. Là réside l’utilité du NLU. Un modèle de classement automatique des textes et des documents permet de prendre le relai des analyses précédentes dans le but d’attribuer aux commentaires libres une catégorie.

  • Des données non structurées peuvent être catégorisées en fonction de la nature du document : contrat, courrier, e-mail, contenu UGC…
  • L’attribut peut aussi porter sur d’autres facteurs : le niveau de priorité pour le traitement d’un e-mail ; le statut de conformité RGPD d’un commentaire libre... La classification est une étape importante car la catégorie attribuée peut déterminer une action à mettre en œuvre de manière informatisée.
  • rejeter un spam ;
  • bloquer la saisie d’un commentaire libre injurieux ;
  • alerter lors de la saisie d’un commentaire libre non conforme au RGPD ou contenant des données sensibles ;
  • etc.

Reconnaissance d’entités nommées – Identifiez les données soumises au RGPD

La détection d’entités nommées (ou NER – Named Entity Recognition en anglais) consiste à extraire des informations d’une donnée non structurée et à les classer dans des catégories pré-définies. Lettria effectue cette démarche en appliquant une liste d’expressions régulières (regex) et en ayant recours au machine learning. La machine peut ainsi détecter qu’un commentaire donné mentionne par exemple :

  • des volumes ;
  • des dates ;
  • des nom-prénoms ;
  • des adresses e-mail ou des numéros de téléphone ;
  • un numéro de sécurité sociale ou une adresse IP ;
  • etc.

La détection d’une entité nommée peut conduire à appliquer automatiquement une action.

  • Vous minimisez la collecte de données via les champs libres en vous assurant de ne collecter que le strict nécessaire. Un conseiller gérant une réclamation n’a pas besoin de saisir le numéro de sécurité sociale du client. Une popup pourra l’alerter en ce sens au moment même de saisir les données.
  • Vos équipes CRM pourront en outre tirer parti des informations utiles contenues dans des commentaires libres. Par exemple, si le conseiller client recueille une nouvelle adresse postale, il pourra être invité à la renseigner dans la fiche client.

Analyse de sentiments

L’analyse de sentiments consiste à rechercher des données langagières et les catégoriser en fonction de leur tonalité neutre, positive ou négative. La détection d’une telle polarité facilite ensuite la classification du commentaire saisi selon une typologie connue : opinion, sentiment, émotion, information. L’analyse de sentiments permet par exemple de monitorer sa e-réputation. Par exemple, un e-commerçant peut souhaiter connaître la perception que ses clients ont de sa marque ou de ses produits au travers des avis qu’ils publient en ligne.

Conclusion : Le NLP et NLU pour automatiser l’analyse de vos zones de commentaires libres

Le TALN (traitement automatique du langage naturel) combine NLP et NLU. Il permet de déléguer à la machine la fastidieuse tâche d’examiner l’ensemble des commentaires libres d’une base donnée pour identifier ceux posant problème. Une partie de la conformité RGPD peut ainsi être automatisée.

La machine met en œuvre cette démarche dans le cadre d’une logique auto-apprenante, s’appuyant en cela sur l’intelligence artificielle. Cela augmente grandement sa capacité à identifier des données personnelles dans un commentaire, qu’elles soient courantes ou sensibles. Ces phases d’analyse et de catégorisation entraîneront naturellement l’activation de tâches de blocage, de sensibilisation ou d’alerte automatique avant toute modération humaine.

Auteur : Maxime Jaillet

Temps de lecture : 7 minutes

Prêt à extraire l'or dans vos données ?

Vous souhaitez en savoir plus sur le NLP ? Envoyez-nous un message ou inscrivez-vous gratuitement sur la plateforme Lettria pour vous lancer.

S'inscrire

S'inscrire à notre newsletter

Recevez tous les mois les actualités de Lettria.