Ademe : comment utiliser NLP pour clarifier des termes, des expressions et des concepts

DANS CET ARTICLE

Prêt à extraire l'or de vos données ?

Analyses linguistiques & statistiques pour mieux communiquer sur l'économie circulaire

La multiplicité des thèmes que l'économie circulaire englobe rend la communication difficile, y compris pour l'un de ses principaux défenseur : l'ADEME. Pour l'aider dans sa mission, Lettria a mis à disposition son expertise du langage et ses savoir-faire en NLP pour mesurer la compréhension des citoyens des enjeux liés à l'économie circulaire.

Quelques mots sur l'ADEME

L’agence de la Transition Energétique (anciennement Agence de l’Environnement et de la Maîtrise de l’Energie ou ADEME) participe à la mise en œuvre des politiques publiques dans les domaines de l'environnement, de l’énergie et du développement durable. Afin de leur permettre de progresser dans leur démarche environnementale, l’agence met à disposition des entreprises, des collectivités locales, des pouvoirs publics et du grand public, ses capacités d’expertise et de conseil. Elle aide en outre au financement de projets, de la recherche à la mise en œuvre et ce, dans les domaines suivants : la gestion des déchets, la préservation des sols, l’efficacité énergétique et les énergies renouvelables, la qualité de l’air et la lutte contre le bruit.

L’ADEME est un établissement public sous la tutelle du ministère de l’écologie, du développement durable et de l’énergie et du ministère de l’enseignement supérieur et de la recherche.

https://www.youtube.com/watch?v=CEy2xzvSzZA

Où et comment mesurer la connaissance de l'économie circulaire parmi les citoyens ?

En tant qu’acteur de référence sur l’économie circulaire, l’ADEME a un pouvoir d’influence certain sur le rayonnement de l’économie circulaire auprès des multiples parties prenantes impliquées, dont le grand public. Pour sécuriser la bonne compréhension des messages qu’elle diffuse, l'agence a souhaité améliorer la clarté des termes, expressions et concepts liés à l'économie circulaire. La mission nécessitait de passer par trois étapes :

  • Evaluer les raisons pour lesquelles certains termes, expressions et concepts peuvent être source de confusion et/ou d’incompréhension pour les cibles des actions de communication de l’ADEME.
  • Explorer les alternatives possibles en s’inspirant des termes, expressions et concepts utilisés à l’étranger, en réfléchissant avec les citoyens, en sollicitant des entreprises et associations dans une réflexion commune.
  • Préconiser des évolutions sémantiques à réaliser pour améliorer la bonne perception des messages, à travers un nouveau lexique permettant la bonne adhésion du public cible aux actions et objectifs affichés par l’ADEME.

La collecte et l'analyse d'un corpus de texte pour mesurer la compréhension des enjeux.

Grâce aux technologie d'open data, nos équipes ont pu mener leur recherches sur un corpus de textes varié composé de presse spécialisée, articles généraux et de réseau social. Une fois la donnée collectée auprès de diverses sources sur plusieurs années, nous avons du passer par un traitement lourd de ces données avant de mener une analyse sémantique poussée. Ces travaux visant donc à mettre en évidence les mots / expressions liés à l'économie circulaire pour lesquels un travail de clarification est nécessaire.

Les sciences du langage et la linguistique au service de l’analyse sémantique

L'objectif des travaux a été de parvenir à mesurer un degré de complexité de 58 termes utilisés de manière non seulement à en évaluer le caractère plus ou moins terminologique mais également à en faciliter l'utilisation par une meilleure compréhension des usages.

Suite à la concertation de l'équipe projet, nous avons commencé par constituer un corpus de textes sur lequel travailler mener nos recherches. Parmi les sources concernées par l'étude, nous avons veillé à sélectionner des médias spécialistes et grand public (Journal de l'Environnement, 20 Minutes) mais aussi les réseaux sociaux (Twitter) et des bases documentaires (Wikipedia).

Plus de 300 000 articles ont ensuite été analysés par la machine, comptabilisant par mois plus de 36 millions de mots.

Puis différentes étapes se sont alors succédées pour étudier ces corpus :

  • Afin d'appliquer certaines méthodes de traitement du langage naturel (NLP) et de faciliter son exploitation, notamment l'étude de l'occurrence des lemmes (forme canonique d'un mot), nous avons d'abord nettoyé le texte brut. Le résultat final est un texte peu lisible par un lecteur humain, mais rend le traitement beaucoup plus efficace par les modèles de langage.
  • Les occurrences des mots-clés au sein des corpus pour en mesurer l'adoption par la population.
  • Vectorisation de mots et analyse de similarité pour faire ressortir les synonymes de chaque mot clef afin de déterminer si le contexte d'utilisation est bien celui de l'économie circulaire. Typiquement dans certaines sources, il ressort que le mot "sobriété" (figurant parmi les termes à étudier) ne se rapportait généralement pas au thème de l'économie similaire et requiert donc d'être vigilant dans l'observation de son occurrence.
  • L'étude contextuelle pour expliquer les diverses utilisations des mots clés (la distance sémantique d'un corpus à l'autre, mais aussi au sein d'un même corpus et entre un et plusieurs mots clefs), à compléter par une analyse de la distance contextuelle des mots-clés et de leur variabilité sémantique.
  • Lettria a ensuite compléter ces analyse par une étude similaire sur le réseau social Twitter (comptage des mots, analyse sentimentale,..) afin d'avoir une vision plus poussée de l'adoption des termes de l'économie circulaire par le grand public au fil des ans.

La concaténation de ces analyses a permis de donner un score d'adoption de chacun des mots clefs de la liste et ainsi fournir une métrique de compréhension pour prioriser les mots à étudier. Plus les scores sont bas, plus il sera important de clarifier la définition de ces termes et/ou d’utiliser des mots différents pour mieux signifier les enjeux clés associés et ainsi mieux communiquer sur le sujet de l’économie circulaire avec le grand public.

LES PROCHAINES ÉTAPE DE NOTRE COLLABORATION

Après cette première phase d'analyse assuré par Lettria, l'ADEME a pu orienter ses travaux pour procéder à une comparaison internationale des meilleures pratiques, une enquête terrain auprès des citoyens, avant de formaliser un lexique de tous les nouveaux termes recommandés et de les intégrer dans sa stratégie de communication

Callout

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat. Aenean faucibus nibh et justo cursus id rutrum lorem imperdiet. Nunc ut sem vitae risus tristique posuere.

Il s'agit d'un texte à l'intérieur d'un bloc div.
Il s'agit d'un texte à l'intérieur d'un bloc div.
Il s'agit d'un texte à l'intérieur d'un bloc div.
Il s'agit d'un texte à l'intérieur d'un bloc div.

Ademe : comment utiliser NLP pour clarifier des termes, des expressions et des concepts

Intitulé
Il s'agit d'un texte à l'intérieur d'un bloc div.
Ademe : comment utiliser NLP pour clarifier des termes, des expressions et des concepts

Analyses linguistiques & statistiques pour mieux communiquer sur l'économie circulaire

La multiplicité des thèmes que l'économie circulaire englobe rend la communication difficile, y compris pour l'un de ses principaux défenseur : l'ADEME. Pour l'aider dans sa mission, Lettria a mis à disposition son expertise du langage et ses savoir-faire en NLP pour mesurer la compréhension des citoyens des enjeux liés à l'économie circulaire.

Quelques mots sur l'ADEME

L’agence de la Transition Energétique (anciennement Agence de l’Environnement et de la Maîtrise de l’Energie ou ADEME) participe à la mise en œuvre des politiques publiques dans les domaines de l'environnement, de l’énergie et du développement durable. Afin de leur permettre de progresser dans leur démarche environnementale, l’agence met à disposition des entreprises, des collectivités locales, des pouvoirs publics et du grand public, ses capacités d’expertise et de conseil. Elle aide en outre au financement de projets, de la recherche à la mise en œuvre et ce, dans les domaines suivants : la gestion des déchets, la préservation des sols, l’efficacité énergétique et les énergies renouvelables, la qualité de l’air et la lutte contre le bruit.

L’ADEME est un établissement public sous la tutelle du ministère de l’écologie, du développement durable et de l’énergie et du ministère de l’enseignement supérieur et de la recherche.

https://www.youtube.com/watch?v=CEy2xzvSzZA

Où et comment mesurer la connaissance de l'économie circulaire parmi les citoyens ?

En tant qu’acteur de référence sur l’économie circulaire, l’ADEME a un pouvoir d’influence certain sur le rayonnement de l’économie circulaire auprès des multiples parties prenantes impliquées, dont le grand public. Pour sécuriser la bonne compréhension des messages qu’elle diffuse, l'agence a souhaité améliorer la clarté des termes, expressions et concepts liés à l'économie circulaire. La mission nécessitait de passer par trois étapes :

  • Evaluer les raisons pour lesquelles certains termes, expressions et concepts peuvent être source de confusion et/ou d’incompréhension pour les cibles des actions de communication de l’ADEME.
  • Explorer les alternatives possibles en s’inspirant des termes, expressions et concepts utilisés à l’étranger, en réfléchissant avec les citoyens, en sollicitant des entreprises et associations dans une réflexion commune.
  • Préconiser des évolutions sémantiques à réaliser pour améliorer la bonne perception des messages, à travers un nouveau lexique permettant la bonne adhésion du public cible aux actions et objectifs affichés par l’ADEME.

La collecte et l'analyse d'un corpus de texte pour mesurer la compréhension des enjeux.

Grâce aux technologie d'open data, nos équipes ont pu mener leur recherches sur un corpus de textes varié composé de presse spécialisée, articles généraux et de réseau social. Une fois la donnée collectée auprès de diverses sources sur plusieurs années, nous avons du passer par un traitement lourd de ces données avant de mener une analyse sémantique poussée. Ces travaux visant donc à mettre en évidence les mots / expressions liés à l'économie circulaire pour lesquels un travail de clarification est nécessaire.

Les sciences du langage et la linguistique au service de l’analyse sémantique

L'objectif des travaux a été de parvenir à mesurer un degré de complexité de 58 termes utilisés de manière non seulement à en évaluer le caractère plus ou moins terminologique mais également à en faciliter l'utilisation par une meilleure compréhension des usages.

Suite à la concertation de l'équipe projet, nous avons commencé par constituer un corpus de textes sur lequel travailler mener nos recherches. Parmi les sources concernées par l'étude, nous avons veillé à sélectionner des médias spécialistes et grand public (Journal de l'Environnement, 20 Minutes) mais aussi les réseaux sociaux (Twitter) et des bases documentaires (Wikipedia).

Plus de 300 000 articles ont ensuite été analysés par la machine, comptabilisant par mois plus de 36 millions de mots.

Puis différentes étapes se sont alors succédées pour étudier ces corpus :

  • Afin d'appliquer certaines méthodes de traitement du langage naturel (NLP) et de faciliter son exploitation, notamment l'étude de l'occurrence des lemmes (forme canonique d'un mot), nous avons d'abord nettoyé le texte brut. Le résultat final est un texte peu lisible par un lecteur humain, mais rend le traitement beaucoup plus efficace par les modèles de langage.
  • Les occurrences des mots-clés au sein des corpus pour en mesurer l'adoption par la population.
  • Vectorisation de mots et analyse de similarité pour faire ressortir les synonymes de chaque mot clef afin de déterminer si le contexte d'utilisation est bien celui de l'économie circulaire. Typiquement dans certaines sources, il ressort que le mot "sobriété" (figurant parmi les termes à étudier) ne se rapportait généralement pas au thème de l'économie similaire et requiert donc d'être vigilant dans l'observation de son occurrence.
  • L'étude contextuelle pour expliquer les diverses utilisations des mots clés (la distance sémantique d'un corpus à l'autre, mais aussi au sein d'un même corpus et entre un et plusieurs mots clefs), à compléter par une analyse de la distance contextuelle des mots-clés et de leur variabilité sémantique.
  • Lettria a ensuite compléter ces analyse par une étude similaire sur le réseau social Twitter (comptage des mots, analyse sentimentale,..) afin d'avoir une vision plus poussée de l'adoption des termes de l'économie circulaire par le grand public au fil des ans.

La concaténation de ces analyses a permis de donner un score d'adoption de chacun des mots clefs de la liste et ainsi fournir une métrique de compréhension pour prioriser les mots à étudier. Plus les scores sont bas, plus il sera important de clarifier la définition de ces termes et/ou d’utiliser des mots différents pour mieux signifier les enjeux clés associés et ainsi mieux communiquer sur le sujet de l’économie circulaire avec le grand public.

LES PROCHAINES ÉTAPE DE NOTRE COLLABORATION

Après cette première phase d'analyse assuré par Lettria, l'ADEME a pu orienter ses travaux pour procéder à une comparaison internationale des meilleures pratiques, une enquête terrain auprès des citoyens, avant de formaliser un lexique de tous les nouveaux termes recommandés et de les intégrer dans sa stratégie de communication

x min lecture

Prêt à extraire l'or de vos données ?
Créez votre pipeline NLP gratuitement
Démarrez ->