dictionnaire

La vérité sur notre méthode d’analyse du langage

Article rédigé avec la complicité de Clémentine Chardon 🍊 Product Owner @bluenove

 

Le saviez-vous ? 

Un adulte moyen lit autour de 250 mots par minute. Et encore ! A cette vitesse, son taux de compréhension atteint péniblement les 60% du texte ainsi englouti.  

Dans l’une de nos consultations les plus récentes (démarche sur la raison d’être d’un acteur majeur de la grande distribution), nous avons collecté près de 350 000 contributions libres. Les contributions libres sont des réponses librement rédigées aux questions ouvertes, ou des propos collectés à l’occasion de débats (fils de discussion) sur l’une des thématiques de la conversation. Avec 350 000 verbatims, on obtient facilement plus de 3 000 000 de mots.

 

"Mais savez-vous déjà ce que ça fait 1 million Larmina ?"
« Mais savez-vous déjà ce que ça fait 1 million Larmina ? » – Hubert Bonisseur de La Bath, alias OSS 117

 

3 000 000 de mots, c’est l’équivalent de 6 fois Les Misérables, le plus long roman de la langue française ! Et plus de 200 heures de lecture assidue et ininterrompue à vitesse de lecture moyenne.  

Et pourtant, nous nous engageons systématiquement à analyser toutes les contributions sans exception. Dans de nombreux cas, un défi supplémentaire consiste à analyser l’ensemble des contributions et à produire une synthèse dans des délais très courts (de quelques jours à 2 semaines).  

Grâce à notre méthode et à nos outils d’analyse du langage, nous sommes capables de respecter les délais tout en fournissant des restitutions rigoureuses et exhaustives. Vous ne croyez que ce que vous voyez ? Un exemple de restitution par ici avec la consultation “Francophonie de l’avenir”! 

 

Notre outil permet de retracer toutes les contributions, question par question, catégorie de répondant par catégorie de répondant. Ici, un exemple avec la consultation « Reprendre la parole »

 

Les coulisses d’Assembl Flash, notre outil d’analyse du langage naturel  

Aujourd’hui, on soulève le capot pour vous révéler notre mécanique à travers un exercice pratique !

Voici une question tirée d’une consultation publique d’Apprentis d’Auteuil à destination des jeunes en difficulté.  

« Qu’est-ce que tu trouves sur les réseaux sociaux que tu ne trouves pas ailleurs ? » 

Et voici une sélection de réponses apportées à cette question :  

  1. Communication avec des amis et de la famille en France et à l’étranger, c’est gratuit et ça reste possible même quand j’ai plus de forfait 
  2. Par exemple, une vidéo d’un évènement tournée en Russie ou ailleurs de l’autre côté de la planète, que l’on peut voir dans la minute suivante, partout, par des milliers de personnes
  3. Nous pouvons joindre nos amie(s) quand on veut on peut les voir en appel et ça peut jouer sur notre moral
  4. De la culture, des images, de la musique accessible gratuitement et facilement »
  5. On a beaucoup de problèmes avec les réseaux sociaux qu’on n’a pas ailleurs ! 

 

Assembl Flash classe automatiquement les contributions (ou verbatims) dans les groupes sémantiques adéquats.

 

D’abord, notre outil Assembl Flash va reconnaître les mots utilisés. Il va ensuite évaluer leur fréquence d’apparition dans le corpus et les mots avec qui ils sont souvent utilisés. Les termes « amis » et « famille » seront ainsi rapprochés. On parle de co-occurence. Et les contributions qui comportent ces termes seront automatiquement classées dans le même groupe sémantique. Dans notre exemple, l’algorithme classe les contributions de la façon suivante :  

Groupe A – Communiquer avec ses proches  

  1. Communication avec des amis et de la famille en France et à l’étranger, c’est gratuit et ça reste possible même quand j’ai plus de forfait
  2. Nous pouvons joindre nos amie(s) quand on veut on peut les voir en appel et ça peut jouer sur notre moral

Groupe B – Consulter du contenu divertissant 

  1. De la culture, des images, de la musique accessible gratuitement et facilement
  2. Par exemple, une vidéo d’un évènement tournée en Russie ou ailleurs de l’autre côté de la planète, que l’on peut voir dans la minute suivante, partout, par des milliers de personnes

Groupe C – Autres  

  1. On a beaucoup de problèmes avec les réseaux sociaux qu’on n’a pas ailleurs 

 

Notre outil nous permet de reclasser manuellement les contributions mal orientées. 

 

Pour contrôler la proposition de l’algorithme, notre équipe va réviser une à une les classifications proposées et corriger manuellement les erreurs commises par l’algorithme. Cette révision systématique est nécessaire pour les premières injections traitées automatiquement dans chacune des questions (les 200-300 premières contributions). 

Cette relecture permet à l’algorithme d’améliorer son traitement du corpus et l’intervention humaine va s’avérer de moins en moins utile au fur et à mesure de l’analyse.

 

Dis donc Jamy, c’est quoi le traitement automatique du langage ?

Notre technologie Assembl Flash utilise un modèle d’analyse du langage simple et intuitif. Et notre Jamy à nous s’appelle Eric De La Clergerie ! Chercheur à l’INRIA et directeur de la R&D chez bluenove, il nous a tout expliqué lors d’une des formations régulièrement organisées en interne à destination des collaborateurs.

« Assembl Flash évalue les propriétés de chaque mot dans l’ensemble des contributions. Combien de fois apparaît ce mot ? Avec quels autres mots a-t-il tendance à apparaître le plus souvent ? Assembl Flash peut ainsi rassembler les contributions qui contiennent des mots et des groupes de mots proches (amis, famille, proches, etc). Ceci lui permet de dégager les thématiques principales d’un corpus en le découpant en plusieurs groupements de contributions. Notre algorithme comprend également que les mots particulièrement utilisés dans un corpus ne permettent pas vraiment de dégager des thématiques pertinentes. Par exemple, le mot « jeune » dans une concertation sur les jeunes sera sur-représenté mais n’apportera pas de sens ou d’enseignement en soi. »

 

Si c’est Jamy Gourmaud qui le dit…


Toutefois, nous disposons encore d’une vaste marge de manoeuvre pour perfectionner notre algorithme et maximiser l’automatisation du traitement des contributions et la pertinence des analyses. Vivement les synthèses instantanées, automatiques et dynamiques ! N’est-ce pas, Eric 😉 ?

 

Notre outil d’analyse du langage naturel est-il un cyborg ?

Mi-automatique, mi-humaine, l’analyse du langage façon bluenove est bicéphale.

Cerveau gauche, rationnel et catégorique. Notre algorithme automatise une majeure partie du travail et analyse d’importantes quantités de contributions dans un temps limité. L’outil de suivi garantit une traçabilité totale et nous permet de visualiser et de comparer facilement plusieurs segments de population.

Cerveau droit, plus sensible, plus intuitif. Nos équipes guident l’analyse, apportent de la nuance et interprètent la donnée. Pour donner à voir la richesse et la variété des enseignement collectés, ils sélectionnent et éditent le format de visualisation le plus adapté pour la synthèse finale : diagramme, mindmap, arbre de connaissance (toujours avec notre partenaire favori Cognito),…

Mais si vous aimez puiser votre inspiration chez les autres avant de vous forger votre conviction, sachez que vous n’avez plus besoin d’attendre la diffusion de la restitution. Vous pouvez désormais consulter l’analyse des réponses de vos camarades de consultation directement pendant la complétion du questionnaire ! 

Vous avez la possibilité d’activer le partage des contributions classifiées et quantifiées pour instruire et inspirer les nouveaux participants !

 

Le charme discret du traitement automatique du langage  

Grâce aux fonctionnalités intuitives et à la puissance de traitement d’Assembl Flash, l’analyse en devient presque « un jeu d’enfant », à croire les propos de nos clients.

Nous avons récemment eu le plaisir de former nos partenaires d’Apprentis d’Auteuil à manipuler la partie Administrateur de l’outil, ce jardin secret habituellement réservé aux équipes de bluenove. Après 45 minutes top chrono de formation, ils ont pu contribuer à l’analyse des contenus collectés lors de la consultation des collaborateurs et des donateurs de la fondation. Résultat des courses : un traitement deux fois plus rapide et des partenaires bien plus imprégnés des résultats de leur consultation !

« Je trouve ça passionnant. Pour vous, ça n’a peut-être plus le goût de la nouveauté, mais pour nous c’est épatant. »
Louis Costa de Beauregard, directeur de cabinet du Directeur Général d’Apprentis d’Auteuil.

C’est cette expérience de partage inédite qui nous a permis de reprendre conscience des charmes de notre outil Assembl Flash et qui nous a donné envie de vous en révéler les premiers atours. Merci Les Apprentis d’Auteuil !

Vous souhaitez en savoir plus ? Former vos équipes à l’analyse sémantique ?

 

Contactez-nous !