mercredi 16 mars 2011

Analyse lexicale quantitative. Etat ou marché ? Google a tranché…

Dis-moi quels mots tu emploies et je te dirai ce que tu penses ! En décembre dernier, les informaticiens de Google ont lancé un service permettant de vérifier cet adage à une nouvelle échelle : Ngrams.

On sait que le géant californien a numérisé plusieurs millions de livres édités au cours des quatre derniers siècles, en de nombreuses langues. La solution Ngrams consiste à détecter la fréquence annuelle de mots dans ce vaste corpus numérique.

Pascale-Marie Deschamps en a donné un exemple amusant dans la dernière livraison du supplément Enjeux-Les-Echos : elle a comparé les occurrences du mot « marché » et du mot « État » dans le corpus français de 1650 à 2000. Il en ressort que le premier connaît une croissance assez lente et régulière, tandis que le second a des variations décennales et séculaires d’usage bien plus marquées. Au final, ils arrivent presque à égalité dans la période contemporaine. Il est intéressant de voir que les pics d’usage du mot « État » correspondent à la deuxième moitié du XVIIIe siècle (période intense de théories politiques des Lumières) et aux trente glorieuses (période d’économie mixte avec forte intervention de l’État). En fin de courbe, les années 1980 et 1990 de déréglementation coïncident avec une plongée du mot État et une hausse du mot marché. Il serait fort intéressant de baisser le niveau de résolution de l’analyse, et d’observer mensuellement comment les mots État et marché se porte depuis la crise de 2007-2008.

Les technologies numériques permettent ainsi des analyses de langage impossibles voici encore une ou deux décennies. Nous ne sommes qu’au début du phénomène. Bien sûr, la simple estimation quantitative d’un mot n’est qu’une étape préliminaire : elle permet de dessiner des tendances, d’autant plus représentative (ou statistiquement robuste) que le corpus analysé est volumineux. Toute la difficulté est d’estimer ensuite le contexte d’usage de ce mot, qui va lui donner son sens réel. La démarche est alors bien plus fine : les outils de traitement automatique du langage (TAL) permettent de produire certaines interprétations, mais l’intervention humaine reste toujours nécessaire. La « Machine de Turing » intelligente n’a pas encore été inventée !

Référence : Deschamps P-M (2011), En France l’État a longtemps dominé le marché, Enjeux-Les Echos, 277, 69.
Lien : Ngrams, http://ngrams.googlelabs.com/
Share |

Aucun commentaire:

Enregistrer un commentaire