Langage naturel
Un langage naturel<ref name="GDT">Modèle:GDT.</ref>, ou langage ordinaire, est une langue « normale » parlée par un être humain. Il s'oppose au langage formel, tel que le langage informatique, ainsi qu'aux langues construites.
Histoire
Modèle:Article détaillé On désigne par langage naturel le langage parlé par les humains, apparu entre Modèle:Nombre et Modèle:Nombre avant notre ère. Après 2 millions d'années de gestation par l’Homo erectus, qui a pris la suite de l'Homo habilis, l’homme moderne, appelé Homo sapiens, est apparu par la conjonction de nombreux facteurs :
- La maîtrise du feu (environ Modèle:Nombre avant notre ère), qui a permis d'alimenter un cerveau de taille croissante (au-dessus de Modèle:Unité)<ref name="LES08">Cécile Lestienne, Ghislain Dehanne, Laurent Sagart, Pascal Picq, La Plus Belle Histoire du langage, Seuil, 2008.</ref> ;
- L’altricialité secondaire, qui a permis au nourrisson de passer de 60 % du cerveau à la naissance à moins de 25 % et d'atteindre, après Modèle:Nombre de maturation, des volumes de cerveau de Modèle:Unité et plus ;
- La préexistence d’une protolangue chantée par l'un des prédécesseurs de cette race, l'homme de Néandertal (Modèle:Langue<ref name="HUB05" group="AOdledl">Jean-Jacques Hubelin, La Langue des premiers hommes.</ref>), né il y a environ Modèle:Nombre<ref name="HUB05" group="AOdledl" />, et qui, d'après les connaissances actuelles, ne possédait pas de syntaxe ;
- une mutation génétique de plusieurs gènes dominants, qui ont développé la capacité cognitive<ref group="Notes">Voir à ce sujet les recherches des généticiens de l'Institut Max Planck. En juillet 2006, l'Institut et 454 Life Sciences ont annoncé qu'elles entreprenaient le séquençage du génome de l'homme de Néandertal. Composé de trois milliards de paires de base, le génome de l'homme de Néandertal est à peu près de la taille du génome humain et a probablement de nombreux gènes identiques. On pense que la comparaison du génome de l'homme de Néandertal et du génome humain permettra de mieux connaître cette espèce disparue, ainsi que l'évolution de l'homme et du cerveau humain. Institut Max-Planck d'anthropologie évolutionniste.</ref>, dont celui dit de la parole FOXP2<ref name="VER05" group="AOdledl">Philippe Vernier, Évolution du cerveau et émergence du langage.</ref>. Le gène FOXP2 prend des formes variables selon les espèces<ref name="ALM03">{{#invoke:Langue|indicationDeLangue}} Alec MacAndrew, Modèle:Langue.</ref>. Ce gène, dans la forme humaine, a donné la capacité à l’homme de passer des mots à la syntaxe (ce facteur n’est pas suffisant en lui-même, car il existe chez d’autres espèces sans donner naissance à la parole. Nous ne savons pas si les différentes formes de gène sont identiques). Il faut mentionner que ces gènes seraient à l’origine de la maturation de l’aire de Broca et de l’aire de Wernicke<ref group="Notes">Ces zones ont été identifiées à la fin du Modèle:S mini- siècleModèle:Vérification siècle et aucune preuve d'activation de ces zones n'est donnée pour d'autres espèces d’Homo que l’Homo sapiens</ref> (voir à ce sujet la théorie de Jean Pierre Changeux<ref name="CHA83">Jean-Pierre Changeux, L'Homme neuronal, Fayard, Paris, 1983.</ref>,<ref name="CHA79">Jean-Pierre Changeux, Propriété des ensembles neuronaux dans Théories du langage et théories de l'apprentissage, Édition du seuil, Paris, 1979.</ref>) ;
- l’augmentation continue de la masse de l’encéphale<ref name="VER05" group="AOdledl"/> depuis l’Homo habilis jusqu'à l’Homo sapiens ;
- le redressement du pharynx<ref name="COU05b" group="AOdledl">Christophe Coupé, À la Recherche des indices du langage articulé.</ref>, qui a permis la vocalisation plus poussée de la parole.
Il y a deux scénarios d’apparition de l’Homo sapiens : le scénario « Out of Africa » et le scénario pluri-centripète (polygenèse). Les recherches récentes<ref group="Notes">Modèle:Lien web.</ref>,<ref name="COU05a" group="AOdledl">Christophe Coupé, L’Impossible Quête de la Langue Mère.</ref> en paléolinguistique ont identifié au début du Modèle:S mini- siècleModèle:Vérification siècle un fond de Modèle:Nobr, communs à la racine de toutes les langues terrestres écrites, ce qui pousse à favoriser le scénario « Modèle:Langue » (monogenèse). En effet, plusieurs sources n’auraient pas eu de raison d’adopter la même protolangue de départ.
Ultérieurement, l’Homo sapiens s'est imposé au sein de l'espèce humaine, soit du fait de l’hypothèse productiviste<ref name="DON80">Joseph Donato, La Variation linguistique dans Linguistique sous la direction de Fréderic François, PUF, 1980.</ref>, soit du fait de l’hypothèse sociologique<ref name="VIC05" group="AOdledl">Bernard Victorri, Les Mystères de l’émergence du langage.</ref>.
Depuis environ Modèle:Unité, ce langage a pris une forme écrite dans un certain nombre de langues, qui se sont alors imposées comme les langues dominantes. Principalement de ce fait, 6 000 langues sont en danger d’extinction à l'heure actuelle.
On notera que la langue des signes est également une langue naturelle.
Les langages informatiques
En informatique, le langage naturel s'oppose au langage informatique :
- langages machine : directement interprétables par le processeur d'un ordinateur, mais peu lisibles aux yeux du programmeur ;
- langages de programmation : compréhensibles par le programmeur et aisément traduisibles (compilables) en langage machine ;
- langages formels : définis à partir d'un alphabet et d'un certain nombre de règles formelles.
Le défi que souhaitent relever les éditeurs de moteurs de recherche est de pouvoir donner des résultats pertinents à une requête formulée en langage naturel.
Alan Turing, mathématicien britannique de la première moitié du Modèle:S mini- siècleModèle:Vérification siècle, a par ailleurs conjecturé qu'une intelligence artificielle pouvait tellement bien donner l'impression de « parler » qu'elle serait difficile à discerner d'un être humain. On appelle tests de Turing les tests d’intelligence artificielle ayant la faculté d’imiter la conversation humaine.
Cohérence du langage naturel
Si la cohérence d’un texte est la propriété d’un texte qui ne demande pas de déduction pour passer d’un élément documentaire au suivant, nous utiliserons l’exemple de Florian Wolf Modèle:Et al.<ref name="WOL06">Fabien Wolf et Edward Gibson, Modèle:Langue dans Modèle:Langue, Modèle:Langue, 2006.</ref> pour illustrer cette propriété :
- Le temps établi sur le site de lancement spatial de Kourou hier était beau.
- De ce fait, le lancement du nouveau lanceur Ariane s’est effectué conformément au planning.
- Et le lanceur a mis deux satellites sur orbite.
Les inférences à faire pour comprendre le texte sont ici triviales, respectant le principe de pertinence dans la transmission d’information. Elles sont progressives. Il faut du beau temps pour lancer une fusée, et le lanceur Ariane peut lancer deux satellites. Encore faut-il caractériser ces inférences : « le temps était beau et de ce fait » explicite la première inférence, et « le lanceur Ariane […] a mis deux satellites sur orbite » explicite la deuxième inférence. On ne sait pas si le lanceur peut lancer quatre satellites, mais ce n’est pas le sujet. Il faut être conscient de la nécessité de tous les mots dans ce texte.
En outre la progression est respectée : on parle du temps qu’il fait, puis du lancement de la fusée et enfin de ce qui est lancé.
Retirez de ce texte l'adjectif spatial accolé au nom centre et nous ne savons plus justifier sa cohérence. Il faut alors faire une inférence moins explicite : le centre de Kourou est un centre spatial. Il faut pour ce faire se pencher sur la théorie de la pragmatique pour évaluer le coût de cette inférence. Il faut noter que le principe de pertinence évolue fortement qu'on soit dans un langage écrit où les préétablis sont faibles ou dans le langage oral où le préétabli est important sachant que l'auteur connaît une part des connaissances de son auditeur.
Il faut reconnaître que de nombreux textes ne satisfont pas cette propriété : ainsi Michel Charolles<ref name="CHA02">Michel Charolles, Cohérence, pertinence et intégration conceptuelle, université de Paris III, 2002.</ref> consacre de nombreux documents à inventorier ces situations d’ambiguïté dans les textes :
- dans le texte « On sonne. Je suis dans mon bain. », il y a de nombreuses connexions à établir pour arriver à la cohérence ;
- quant au texte « Le studio de Marc donnait sur une place très fréquentée. Le bruit était épouvantable. Paul passa la soirée sur un banc au bord de l’océan. Le vent soufflait. Il allait pleuvoir. », il est donné comme un exemple d’ambiguïté : soumis a un panel de lecteurs, les interprétations vont de « il y a un appartement bruyant et « bizarrement » un certain Paul passe une soirée au bord de la mer » à « Paul, seul occupant du studio, est triste de devoir y aller le lendemain à cause du mauvais temps ».
Ces exemples mettent en exergue la notion de profondeur du traitement implicite que ces textes demandent pour atteindre la cohérence.
Aspects lexicaux
On définira la conformité typographique comme la propriété des textes à respecter l’orthographe et la typographie dans la rédaction. S'il est acceptable de considérer que « Lift-Gate » constitue une entité nommée et que « lift-gate » est un nom commun, la traduction littérale du mot « Lift-Gate » en entité nommée introduit un bruit inutile dans les traitements sémantiques. Il est souhaitable de filtrer ces manifestations dans les traitements morphologiques.
La conformité lexicale consiste à choisir le bon terme pour un concept : ainsi « Tailgate » est un mot composé explicite, le « tail gate » se traduisant en français par « hayon arrière », même si en français, ce terme est redondant car « hayon » suffit.
L’usage d’un dictionnaire est satisfaisant pour autant qu’on recherche non seulement les mots rencontrés mais les parties des mots (lexèmes) susceptibles de constituer des mots.
C’est ainsi que le choix, dans les deux premiers documents du corpus, de remplacer « decklid » par « boot lid » qui signifie « couvercle de la malle arrière » s’est imposé. Nous désignerons ce type d’erreur par erreur lexicale relevant de l’analyse des mots composés.
Il faut au-delà se tourner vers la levée des ambiguïtés des expressions. Il ne faut pas s’arrêter aux lemmes racines des mots composés.
Aspects génériques
Les qualités de stylistique qui concourent à une meilleure cohérence. Les documents génériques gagnent à être écrits au présent générique, en normalisant autant que possible les formes négatives. Ainsi une exigence adopte la forme active et s’écrit au présent générique, et la transformation des formes passives en formes actives suffisent à la satisfaction du besoin. Il peut être également utile d’utiliser une transformation pour traiter les textes négatifs.
Aspects discursifs
Les qualités des documents se qualifient principalement au regard des composants du cœur de la cohérence <ref group="Notes">Enhancing coherency of specification documents from automotive industry, Jean Noël Martin 2012, Braga Portugal slate 2012 - Juin 2012 http://drops.dagstuhl.de/portals/oasics/index.php?semnr=12004</ref> :
- Cohésion et progressivité : la cohésion et la progression sont les propriétés d’un texte qui permettent d’établir la continuité de la progression du texte ; cette propriété rend compte de la capacité du texte à être cohérent du point de vue chronologique.
- Cohérence logique : nous définirons la cohérence logique comme l'absence de contradictions exprimées par le texte.
- Consistance : nous définirons la consistance comme la propriété d’une proposition ou d’un groupe de propositions de signifier quelque chose de façon limpide. Cette qualité inclut la clarté de la rédaction.
- Plausibilité : la plausibilité d'un fait est sa capacité à paraître possible ; dans le domaine du langage naturel, nous considèrerons comme une phrase plausible une phrase que l’on n’est pas étonné d’entendre [LFL07]. Opérationnellement nous envisageons la théorie de Dempster et Shaffer, qui permet d’allouer deux valeurs, crédibilité et confiance, à un prédicat tel que : Crédibilité de (P) = 1 – Confiance de (Non P).
- Explicitation des connaissances : une connaissance est explicite si elle permet de comprendre un texte sans en connaître le contexte local. Elle s’appuie sur le principe de pertinence appliqué aux éléments oubliés par l’auteur dans la documentation.
- Absence de sur-information : il arrive que l’on trouve dans un texte deux fragments qui signifient exactement la même chose. Dans le domaine des spécifications on utilise le terme d’absence de sur-spécification.
Notes et références
Notes
Références
Bibliographie
Les références sont entre autres issues de l’ouvrage Aux Origines des langues et du langage, sous la direction de Jean-Marie Hombert, Fayard, 2005<references group="AOdledl"/>