Le Web sera-t-il polyglotte ?

Revue La Recherche Scientifique

SAVOIRS

savoirs – par Marina Julienne dans mensuel n°480 daté septembre 2013 à la page 62 (1376 mots) | Gratuit

Le World Wide Web semble un paradis du multilinguisme. On peut ainsi y surfer sur des textes de poésie grecque ou de philosophie indienne, accéder à des pages Facebook en eton, langue parlée au Cameroun par à peine 250 000 personnes. Pourtant, les chercheurs spécialistes des logiciels de traitement automatique du langage rassemblés dans le réseau Meta-Net* (acronyme anglais pour réseau d’alliance technologique pour une Europe multilingue) sont inquiets. En 2012, ils ont publié une série de livres blancs sur les langues européennes à l’ère du numérique qui alertent sur le risque d’extinction numérique de nombreuses langues, dont certaines sont pourtant largement parlées [1].

« Bien sûr, on peut écrire et parler toutes les langues sur Internet, et le réseau constitue une formidable opportunité pour mettre à disposition de tous de l’information, et leur permettre de communiquer, relève Joseph Mariani, directeur de l’Institut des technologies multilingues et multimédias de l’information, à Orsay, et coordinateur du livre blanc consacré au français [2]Mais cette profusion est relative, puisqu’en pratique seulement 5 % des quelque 6 500 langues parlées dans le monde se trouvent sur le cyberespace. » Et seulement 1 % de ces langues sont équipées de technologies de la langue, comme les correcteurs orthographiques, les outils de recherche d’information, les systèmes de traduction automatique, de reconnaissance ou de synthèse vocale, devenues indispensables pour rechercher des informations sur le Web, rédiger un courrier, acheter un billet d’avion en ligne ou suivre les instructions parlées d’un GPS.

Inventaire

Plus précisément, les experts du réseau Meta-Net ont pour la première fois inventorié les technologies existantes pour 30 des quelque 80 langues européennes dans quatre domaines : la traduction automatique, l’interaction vocale, l’analyse textuelle et les ressources linguistiques (dictionnaires électroniques par exemple). Les langues ont été classées sur une échelle de quatre niveaux de soutien, de « faible ou inexistant » à « bon », selon qu’elles bénéficient de ressources logicielles plus ou moins développées qualitativement et quantitativement. Par exemple, pour la qualité des technologies de traduction automatique, ont été pris en compte le nombre de paires de langues couvertes, la couverture des domaines linguistiques, la qualité et la taille des corpus parallèles existants (ensembles de textes dont l’un est la traduction de l’autre), le nombre et la variété des applications (grand public ou professionnelles, généralistes ou pour un domaine de spécialité) de traduction automatique.

Au total, 21 des 30 langues (soit 70 %) se trouvent dans la catégorie la plus basse (soutien « faible ou inexistant ») dans au moins un de ces quatre domaines. Dix-huit langues, parmi lesquelles le roumain, le bulgare, le danois, le grec et le serbe, ne dépassent le soutien « marginal » dans aucune catégorie, ce qui les place dans la catégorie des langues en danger. Dans quatre cas (l’islandais, le letton, le lituanien et le maltais), le score minimal a même été attribué pour les quatre domaines [fig. 1].

Au niveau mondial, la situation est encore plus inquiétante. « Le moteur de recherche le plus utilisé et le plus développé en matière d’outils linguistiques, Google, n’offrait la reconnaissance linguistique que pour une cinquantaine de langues au mois de juin 2013. Parmi elles, on trouve une trentaine de langues d’origine européenne, mais à peine une langue africaine et aucune langue d’origine américaine ou océanienne ! », précise Daniel Prado, secrétaire exécutif du réseau mondial Maaya, dont l’objectif est de promouvoir la diversité linguistique.

Si vous entrez par exemple un mot en quechua, première langue d’origine américaine, parlée par 10 millions de personnes, Google le trouvera éventuellement dans une page écrite en quechua. Mais les caractéristiques linguistiques, phonétiques et grammaticales de cette langue n’ayant pas été saisies, vous ne pourrez pas accéder à un service de traduction automatique. Et aucune correction ne vous sera proposée si vous faites une faute de frappe.

« Bien que la présence relative de l’anglais diminue sur Internet par rapport aux autres langues, il demeure la langue de programmation, de balisage, de codage, de communication entre serveurs », remarque Daniel Prado. C’est ainsi qu’une application comme Siri, interface vocale d’Apple, ne fonctionne pour l’instant que pour 9 langues et 19 variantes de langues. Et que la plupart des systèmes de traduction automatique, pour ne prendre que cet exemple, utilisent la langue anglaise comme langue pivot, ou ne fonctionnent en direct qu’entre une petite dizaine de grandes langues de communication (français, chinois, espagnol, allemand, japonais, russe, etc.). Techniquement, les systèmes de traduction automatique dépendent largement des corpus de données disponibles. Sont donc privilégiées les langues massivement présentes sur la Toile.

Pas question d’être fataliste. « On se souvient des efforts incessants qu’il a fallu déployer avec l’arrivée de l’informatique pour que les claviers, puis les systèmes de traitement de texte, de courrier électronique et enfin les noms de domaines acceptent les graphies et les caractères de toutes les langues,souligne Joseph Mariani. Les langues minoritaires ne sont pas condamnées à disparaître si une volonté politique se manifeste pour les soutenir. »

Ainsi, le gouvernement indien a-t-il lancé un programme de développement de technologies (traduction automatique, synthèse à partir du texte, reconnaissance vocale, moteurs de recherche, etc.) pour les 22 langues officielles du pays. Un programme comparable est mis en place en Afrique du Sud pour le traitement automatique des 11 langues nationales. Selon les chercheurs du réseau Meta-Net, il est urgent que l’Europe fasse de même. Ils ont ainsi présenté début 2013 à la Commission européenne un « Agenda stratégique de recherche pour une Europe multilingue », qui préconise un investissement massif dans ces technologies de la langue [3].

Rôle des locuteurs

La solution pourrait venir aussi des locuteurs eux-mêmes. Ainsi le swahili, langue officielle de l’Union africaine et parlée par 50 millions de locuteurs de différents pays d’Afrique de l’Est, n’était pas reconnu par Google avant 2005. Cette langue dispose désormais de plus de 25 000 articles sur Wikipedia, en particulier grâce à un concours sponsorisé par Google en 2009 [4].

L’encyclopédie participative en ligne serait-elle un outil privilégié au service du multilinguisme ? En France, c’est l’avis de la Délégation générale à la langue française et aux langues de France (DGLFLF), rattachée au ministère de la Culture. Elle a décidé d’inciter des personnes qui ont peu l’habitude d’écrire dans leur langue à entrer du contenu sur la Toile. De l’alsacien au breton en passant par l’occitan, les 28 langues canaques et les différents créoles, 75 langues régionales sont parlées en France, dont une majorité dans les territoires d’outre-mer. « Mais, bien que le créole réunionnais par exemple soit parlé par un million de locuteurs, autant que l’estonien, il est totalement absent de Wikipedia, constate Thibault Grouas, chef de la mission des langues et du numérique à la DGLFLF. Nous prévoyons donc d’organiser, en partenariat avec l’association Wikimédia France, des ateliers pour former 3 ou 4 locuteurs de ces différentes langues à y créer puis à y rédiger des articles. »

Par ailleurs, pour les langues régionales françaises présentes sur Wikipedia (il existe 70 000 pages en breton et autant en occitan par exemple), le projet Sémanticpedia, mené avec l’Institut national de recherche en informatique et en automatique et Wikimédia France, vise à relier des données publiées sur un même thème ou mot clé dans les différentes versions linguistiques de l’encyclopédie en ligne. « Vous avez toutes les chances de trouver par exemple sur les Wikipedia occitan et breton un article sur la Joconde, parmi des dizaines d’articles sur la peinture française au XVIe siècle, explique Thibault Grouas. En indexant les titres, les résumés d’articles et les images se référant à la Joconde que l’on trouve sur Wikipedia, on peut récupérer quantité de données dans chacune de ces langues sur ce même sujet. Et offrir aux locuteurs des différentes langues tous les articles déjà écrits sur ce tableau dans de nombreuses langues. »

On peut multiplier les exemples d’initiatives issues de la société civile qui permettent aux langues d’exister sur le Net. Ainsi, Global Voices Online, fondation à but non lucratif, lancée en 2004 à la faculté de droit de Harvard, aux États-Unis, rassemble plus de 1 000 auteurs et traducteurs répartis à travers le monde [5]. Ceux-ci proposent une veille quotidienne sur les blogs et les réseaux sociaux du monde entier, traduite dans une trentaine de langues. Encore une raison d’être optimiste quant à l’avènement du plurilinguisme sur le Net.

Par Marina Julienne

http://www.magazine-litteraire.com/critique/poesie

Publicités