Le Natural Language Processing (NLP) est une branche de l'intelligence artificielle, qui vise à rendre l'usage des technologies plus simple et plus agréable. Pour ce faire, il est intégré aux programmes informatiques afin de leur permettre de comprendre le langage humain. Ainsi, il est utilisé quotidiennement à travers de nombreux outils. Traducteurs automatiques, moteurs de recherche, interfaces vocales, il est partout.

>> Téléchargez ce kit gratuit et réalisez une étude de marché approfondie. 


Qu'est-ce que le Natural Language Processing (NLP) ?

Natural Language Processing (NLP) signifie « Traitement automatique du langage naturel » (TALN) en français. Il s'agit de programmes informatiques développés dans le but de comprendre le langage tel qu'il est écrit ou parlé par les humains. Les algorithmes concernés par le NLP sont capables d'analyser le sens des mots. Cette technologie anime aussi bien les traducteurs automatiques que les assistants virtuels. 

Le NLP est une branche de l'intelligence artificielle (IA). L'utilisation de réseaux de neurones artificiels fait avancer à grands pas la recherche dans ce domaine. En effet, ce processus de compréhension du langage humain allie connaissances linguistiques, informatiques, mathématiques et deep learning.

Pour fonctionner, le langage informatique a besoin d'un langage de programmation balisé, précis et sans équivoque. Le langage dit « naturel » est bien plus complexe à travers ses sous-entendus, ses traits d'humour ou encore ses métaphores. Par conséquent, le NLP et l'IA apprennent à structurer et à interpréter les différentes langues humaines pour générer du langage informatique.

 

Comment le Natural Language Processing s'est-il développé ?

Dans les années 1960 et 1970, les premières expériences de Natural Language Processing concernent la traduction automatique. De nos jours, les traducteurs en ligne et les correcteurs d'orthographe sont des exemples aboutis de ces premiers travaux de recherche.

Parallèlement aux recherches en traduction automatique, le premier robot conversationnel de l'histoire voit le jour aux États-Unis : ELIZA est créé par Joseph Weizenbaum en 1964.

Dans les années 1980, l'augmentation des capacités de traitement informatique donne un nouvel essor au NLP. Ce progrès s'accompagne de l'introduction des algorithmes de machine learning. Les machines deviennent alors capables de créer leurs propres règles à travers l'apprentissage à partir de textes.

Comment lancer votre prochaine étude de marché ?

Téléchargez ce kit gratuit et planifiez facilement votre prochaine étude de marché

 

C'est dans les années 1990 que le premier système basé sur des réseaux de neurones artificiels voit le jour. Cette avancée décisive permet la mise au point du premier système de lecture des chèques bancaires.

Dans l'histoire du développement du TALN, les progrès plus récents sont aussi les plus impressionnants. Le traitement automatique du langage existe depuis longtemps, mais les grandes industries du numérique ont développé des outils de pointe.

Parmi les principaux modèles de TALN, il existe :

  • L'algorithme BERT de Google.
  • ALBERT de Google, qui utilise 89 % de paramètres en moins que le modèle BERT.
  • Le programme RoBERTa, un modèle dérivé créé par Facebook.
  • Le programme DeBERTa qui, lui aussi, est un modèle dérivé mis au point par Microsoft.
  • UniLM de Microsoft, un modèle alternatif.
  • Reformer de Google, également un programme alternatif.

 

Intérêt et exemples d'utilisation du Natural Language Processing

 

Quel est l'intérêt du NLP ?

L'intérêt du traitement informatique du langage est d'aider les hommes et les machines à parler le même langage. Les ordinateurs analysent le langage pour le convertir en données brutes. L'information ainsi produite permet de générer des interactions avec les utilisateurs pour créer des conversations intelligentes.

Le NLP est toujours en plein essor puisque toutes les conditions sont réunies pour favoriser son développement :

  • Amélioration continue du deep learning.
  • Puissance de calcul exponentielle des ordinateurs.
  • Augmentation massive des données disponibles libres de droits.

 

3 exemples concrets d'utilisation du NLP

1 - Les assistants vocaux

Ce sont des interfaces entre utilisateurs et fournisseurs de contenus (ou de services). Les enceintes connectées font partie de ces assistants personnels qui facilitent le quotidien.

2 - Les agents conversationnels ou chatbots

Ces programmes informatiques simulent une conversation humaine. Ils permettent d'interagir pour obtenir les réponses aux questions posées par un utilisateur.

3 - La traduction automatique

Ces services instantanés traduisent les contenus écrits dans diverses langues. Le plus souvent, les textes sont différents en fonction du traducteur utilisé. Cela est dû au fait que la traduction automatique requiert de nombreuses connaissances, qui concernent autant la langue source que la langue cible (syntaxe, sémantique).

 

Comment fonctionne le Natural Language Processing ?

Cette discipline de l'IA devient de plus en plus apte à comprendre et à parler le langage naturel humain. Pour réussir ce tour de force, plusieurs niveaux de traitement du langage sont nécessaires. Les méthodes divergent d'un programme à un autre ; toutefois, les étapes préalables restent souvent les mêmes.

Les techniques de traitement automatique du langage naturel utilisent :

  • L'analyse lexicale.
  • L'analyse syntaxique.
  • L'analyse sémantique.
  • L'analyse pragmatique.

 

L'analyse lexicale

L'analyse lexicale est souvent le point d'entrée de nombreuses compilations de données en NLP. Elle consiste à extraire des mots et des parties de texte pour essayer d'en comprendre le sens avec plus de précision. L'analyse lexicale peut prendre de nombreuses formes.

Elle interprète le contexte, une aptitude dont les êtres humains disposent naturellement, mais dont ne sont pas dotés les ordinateurs. Elle tente également de comprendre les relations qui s'établissent entre les mots.

Les mots et groupes de mots sont étiquetés selon leurs catégories grammaticales. Ce classement dans différents groupes (articles, verbes, noms, etc.) s'appelle la segmentation en unités lexicales ou « tokenisation ». 

Il est également possible d'interpréter les mots en fonction de leur racine lexicale selon un procédé de « racinisation » ou encore de prendre la forme canonique des mots pour les classer. Ce traitement lexical s'appelle la « lemmatisation ».

 

L'analyse syntaxique

L'analyse syntaxique, aussi connue sous son nom anglais « parsing », étudie la structure des phrases. L'objectif est de comprendre les relations existantes entre les mots en prenant en compte à la fois le vocabulaire et les règles de la syntaxe. Ces relations sont étudiées et organisées à l'intérieur d'arbres syntaxiques. Cette analyse a permis, entre autres, la création des correcteurs grammaticaux.

 

L'analyse sémantique

L'analyse sémantique se concentre sur la signification des mots et des phrases. C'est une tâche complexe en raison de l'ambiguïté naturelle du langage humain.

En effet, un mot peut avoir plusieurs sens et il en va de même pour une phrase. Voici deux exemples concrets :

  • Le mot « souris » fait référence soit à l'animal, soit à l'outil informatique.
  • Le mot « fraise » fait référence soit au fruit, soit à l'outil du dentiste, soit à l'élément de costume qui se porte autour du cou.

L'analyse sémantique cherche les relations entre des mots selon les différents concepts et représentations possibles. Elle est soutenue dans cette quête de sens par l'analyse pragmatique.

 

L'analyse pragmatique

L'analyse pragmatique analyse les mots et phrases qui sont proches les uns des autres. Cette étape permet un ancrage du sens en corroborant les résultats sémantiques préalablement obtenus.

Des éléments plus larges sont pris en considération comme l'univers de référence de l'énonciateur et l'univers des connaissances du groupe humain auquel il appartient.

Le rôle de l'analyse pragmatique est aussi de déduire et d'interpréter ce qui n'est pas explicitement dit. Par exemple, si une personne dit : « Je ne sais pas quoi offrir à ma famille cette année », il est sous-entendu qu'elle parle de la période des fêtes de fin d'année.

 

Quel est l'avenir du NLP ?

Finalement, même si les progrès du TALN sont considérables, les mystères du langage dit « naturel » sont encore loin d'être percés. Cela ne retire pas à cette technologie sa forte utilité dans la vie de tous les jours pour des questions d'ordre pragmatique. Pour autant, il faudra encore attendre un peu avant de pouvoir avoir une conversation aussi élaborée avec un ordinateur qu'avec un être humain.

Toutefois, l'utilisation de réseaux de neurones artificiels qui permettent aux machines d'apprendre par elles-mêmes laisse entrevoir de nombreuses possibilités, dont celle où les machines seront un jour capables de comprendre les êtres humains parfaitement.

Communauté HubSpot


Pour aller plus loin, téléchargez ce kit gratuit pour planifier facilement votre prochaine étude de marché.Bottom-CTA : Kit d'étude de marché

Publication originale le 24 janvier 2022, mise à jour le 07 mars 2022

Sujet(s):

Business intelligence