CMLF 2008 Préface

CMLF 2008 : Préface

La linguistique française d'aujourd'hui : maintenant !

Linguistique française 2008 : un état des lieux

La linguistique française est notablement éparpillée. Fait défaut une manifestation "globale" permettant de connaître "en temps réel" les avancées, les points d'ombre. L'Institut de linguistique française (ILF — présenté en annexe à cette introduction des actes) a donc organisé en juillet 2008 à Paris la première "édition" d'une telle manifestation, le Congrès Mondial de Linguistique Française (CMLF'08).

Ce premier congrès mondial de linguistique française présente un état de la recherche en linguistique française sous la forme de 8 conférences transversales invitées et de 150 communications orales réparties en douze thématiques. Chaque session thématique est conclue par une table ronde qui présente une synthèse des travaux ainsi que des prolongements et des éclairages complémentaires.

Un balayage thématique international

Les douze thématiques retenues ont été fixées comme des découpages commodes pour le panorama "en largeur" de la linguistique française. L'examen des propositions de communication reçues et des demandes d'inscription dans plusieurs thématiques montre que le nombre et l'intitulé des thématiques seraient probablement à revoir dans une prochaine édition. Deux aspects ont été considérés comme des "facettes" plutôt que des thématiques : le recours à des corpus voire le rattachement aux linguistiques de corpus d'une part, le traitement automatique des langues d'autre part.

Le ou la vice-président(e) de chaque thématique a été choisi(e) hors France pour obtenir une vue plus complète du sous-domaine concerné.

Le CMLF'08 a été appuyé par de nombreuses organisations partenaires, en France, en Europe, comme dans le reste du monde.

Un état des lieux et des perspectives disponibles immédiatement et de manière pérenne

En sciences du langage, comme d'ailleurs dans la plupart des sciences humaines et sociales, les actes de colloques sont de plus en plus difficiles à publier. Quels que soient la qualité des auteurs et le travail éditorial effectué, les actes ne rencontrent pas de marché suffisant. Les éditeurs privés se refusent le plus souvent à en produire. Les éditeurs institutionnels, comme les presses universitaires ou CNRS Éditions, y rechignent également de plus en plus. D'où la multiplication des "à paraître" dans les articles ou les dossiers, qui, pour une part déjà importante et probablement croissante, resteront des promesses malheureuses. Si la vie intellectuelle, c'est, outre la parole vive, le partage de textes et le rebond — en critique ou en prolongement — à partir de ce qu'on peut lire, les sciences du langage vivent une circulation des idées raréfiée. L'accès à ces communications hors de France est singulièrement difficile.

Pour contribuer à remédier à cette pénurie intellectuelle, en profitant des ouvertures offertes par le paradigme du document numérique, l'intégralité des actes est disponible "en temps réel", dès l'ouverture du congrès et le demeurera. Toutes les communications, les conférences invitées ainsi que la plupart des contributions aux tables rondes sont en effet publiées sous la forme d'un article de 10 à 12 pages dans les actes du colloque (dans ce CD-ROM) et maintenues, sous forme électronique, sur le site du colloque (http://www.linguistiquefrancaise.org/) et accessibles également via HAL (http://halshs.archives-ouvertes.fr/), les "archives ouvertes" mises en place par le CNRS.

Les prestataires qui créent les actes électroniques assurent l'ajout d'un identifiant unique (ou DOI, Document Object Identifier, http://www.doi.org/) qui est l'équivalent pour un article d'un ISSN (http://www.issn.org/fr) pour les revues ou d'un ISBN (http://www.isbn-international.org/fr/index.html) pour les livres. L'identifiant unique permet de disposer d'une référence stable pour les articles en ligne, alors que les URL ne sont pas pérennes.

Pour rendre le plus visible possible chacune des contributions, les différents composants des actes (communications, conférences invitées, contributions préparatoires aux tables rondes) sont par ailleurs automatiquement versés dans HAL.

Pour un contributeur, la présence de sa communication dans les actes lui laisse néanmoins toute latitude pour en proposer une version modifiée pour d'autres publications. La communication scientifique immédiate ne fige donc pas la réflexion, son évolution et le choix d'autres supports complémentaires appropriés.

"Outiller" la publication scientifique

Quand on s'interroge sur la publication d'actes et leur coût, on s'en tient très généralement aux coûts d'impression et de diffusion (et aux subventions qui peuvent permettre d'y faire face). La "fabrication" matérielle est "invisible". Curieux métier tout de même que celui d'(enseignant-)chercheur où, à ne pas savoir ce que coûte le temps donné sans compter, on ne sait pas vraiment très clairement ce que vaut ce que l'on fait.

L'ILF a souhaité pour le CMLF'08 avoir recours à une plateforme logicielle permettant de gérer explicitement la sélection des communications, la fabrication matérielle et les facilitant : réception en ligne des propositions de communication, organisation du circuit de relecture, mise en forme présentationnelle des contributions acceptées, préparation des fichiers nécessaires, production du CD-ROM des actes et du site correspondant, etc. L'ILF a choisi la solution commerciale (Accélérateur de congrès — http://congres.intellagence.eu/) de la société Intellagence (http://congres.intellagence.eu/apropos). D'autres solutions existent, développées de manière communautaire (par exemple celle utilisée par les JADT'08, les Journées d'Analyse des Données Textuelles — http://jadt2008.ens-lsh.fr/). Le choix d'une solution commerciale était motivé par le souhait de disposer effectivement d'une assistance à l'utilisation de ce type d'environnement pendant le congrès. Un autre article dans les actes fait le bilan de l'appel à une telle plateforme.

L'éditeur de revues et de livres en sciences dures EDP Sciences (http://www.edpsciences.org/) a assuré, à partir des données fournies par le logiciel d'Intellagence, la production du site, du CD-ROM et du livret des résumés, ainsi que l'obtention d'un identifiant unique pour les contributions.

En tout état de cause, tant les revues que les colloques et rencontres en sciences du langage doivent probablement se doter dans les années à venir de telles plateformes, pour diminuer les "coûts cachés" que sont leur production et pour, surtout, rendre leurs apports plus immédiatement et plus largement accessibles. Le CNRS, par le biais de CLEO (http://cleo.cnrs.fr/), unité qui aide à la production de revues électroniques en ligne, travaille à la mise en place de telles plateformes. En sciences du langage, CLEO édite par exemple les revues Corpus (http://corpus.revues.org/), Lidil (http://lidil.revues.org/), MOTS (http://mots.revues.org/) et Revue linguistique de Vincennes (http://rlv.revues.org/).

Préfigurer les transformations des publications

La place des publications dans la vie des (enseignants-)chercheurs et dans celle des laboratoires est en train de changer très fortement. Que l'on se réjouisse ou que l'on s'afflige de la recherche d'"indicateurs" en sciences, les démarches d'évaluation incluent désormais une "pondération" des publications.

Au niveau européen, l'ERIH (European Reference Index for the Humanities) de l'ESF (European Science Foundation — http://www.esf.org/) produit, discipline par discipline, une classification des revues en fonction des critères suivants :

A: category (expected: 5-20% of all titles): high ranking, international level publication, very strong reputation among researchers in the field;
B: standard international level publication, good reputation among researchers;
C: important local/regional level publication, occasionally cited outside the publication country, only European publication considered.

En France, l'Agence d'évaluation de la recherche et de l'enseignement supérieur (AERES — http://www.aeres-evaluation.fr/) s'inscrit dans cette démarche et s'inspire des listes de l'ERIH pour mettre au point des classements de supports de publication discipline par discipline.

Les actes de colloques mais également les recueils de contribution ou les monographies n'entrent pas dans l'immédiat dans les publications reconnues, alors même qu'ils jouent un grand rôle en sciences du langage. Une des questions sous-jacentes est celle du processus de validation des contributions.

Dans l'optique d'une évaluation par les pairs aussi précise et "claire" que possible, l'ILF a opéré les choix suivants :

propositions de communication sous la forme de textes "complets" de dix à douze pages et non de résumés (même "longs" : 3 à 5 pages) ;
double anonymat de la relecture : les relecteurs évaluent sans connaître le nom de l'auteur de la communication ; l'auteur reçoit des rapports de relecture anonymes.

Un dialogue intellectuel sur des propositions de communication détaillées

La sélection de propositions de communication à un colloque, en sciences du langage, s'effectue assez souvent sur la base de résumés relativement courts. Ce fonctionnement ne facilite pas forcément la compréhension fine des intentions et des apports de l'auteur. Il peut compliquer par voie de conséquence la formulation, par le relecteur, de propositions d'amélioration.

L'ILF a fait le choix, pour le CMLF'08, de propositions longues pour rendre plus fructueux le travail de relecture tant pour l'auteur que pour les relecteurs. Les relecteurs devaient suivre une grille précise de relecture pour les commentaires destinés au comité de programme. Les commentaires destinés à l'auteur n'étaient par contre pas structurés à l'avance. Les relecteurs pouvaient également intervenir directement sur le fichier déposé par l'auteur pour faire des remarques au fil du texte, dans un commentaire critique plus serré.

Notre souhait était que soient mis au plus vite à la disposition de la communauté intellectuelle les contributions sous une forme permettant de s'en servir (lire, citer, diffuser). C'est le fait de demander des propositions déjà très précises pour l'étape initiale de sélection qui aura permis de disposer dès l'ouverture du congrès d'actes complets et définitifs et de les mettre en ligne de manière pérenne. Nous avons essayé de laisser près de deux mois aux auteurs pour fournir la version qu'ils jugaient satisfaisante pour ces actes et tenant compte des propositions et remarques des relecteurs.

Vers une mise en perspective régulière en linguistique française

L'ILF souhaite que cette première rencontre donne l'élan et suscite la reprise, dans deux ou trois ans, par d'autres acteurs, en Europe ou ailleurs, dans la continuité des choix pour l'"édition" de 2008 : sélection sur propositions longues ; balayage des thématiques de la linguistique française et de leurs évolution ; double anonymat de la relecture ; disponibilité des actes dès l'ouverture du congrès ; pérennité des actes, etc.

Pendant le CMLF'08, une réunion aura lieu avec les associations partenaires qui avaient indiqué vouloir faire partie d'un comité destiné à préparer une deuxième "édition" de la manifestation, en 2010 ou 2011, ailleurs qu'en France.

Jacques Durand (CLLE & université Toulouse-le-Mirail),
Benoît Habert (ILF ; ICAR & ENS LSH),
Bernarld Laks (Modyco & université Paris X — Nanterre)

Annexe

L'Institut de linguistique française (ILF) est une Fédération de recherche (FR 2393) du CNRS. C'est donc une structure qui a pour fonction de contribuer à la structuration des sciences du langage. Le domaine des sciences du langage a d'ailleurs donné lieu à la création de deux fédérations. Parallèlement à l'ILF, a été mise en place la fédération TUL (Typologie et Universaux Linguistiques — FR 2559), dirigée par Séphane Robert.

La création de l'ILF en 2001 répondait au souhait de mettre en réseau des unités travaillant sur un objet commun, la langue française, de valoriser leurs réalisations, et de leur permettre de s'allier en vue de réalisations menées en commun. Cette volonté de mise en réseau est allée de pair avec l'objectif d'instrumenter les recherches en linguistique française, en alliant la constitution, la préservation, la valorisation de corpus et l'emploi, le développement d'outils ou d'instruments de traitement des données langagières (étiqueteurs, environnements d'annotation, analyseurs syntaxiques, etc.).

En ce sens, l'ILF prolonge et diversifie le travail effectué par l'Institut national de la linguistique française (INALF, dont le nom initial était... Institut de la langue française, soit également ILF), qui a permis la réalisation de la base textuelle Frantext et du Trésor de la langue française, désormais également en ligne et disponible sur support numérique. La diversification opérée porte tant sur les corpus mis en place que sur les méthodes et instruments de traitement.

L'ILF regroupe actuellement dix unités du CNRS, réparties sur l'ensemble du territoire (un petit tiers — 3 en région parisienne). L'ILF s'est associé de plus trois équipes en vue d'élargir son action pour la constitution et l'utilisation de ressources linguistiques. Bernard Cerquiglini a été directeur de 2001 à 2002, Christiane Marchello-Nizia de 2002 à 2006. Benoît Habert est directeur depuis juillet 2006.

Les trois membres associés de l'ILF sont le CORAL, l'Institut Gaspard Monge et le groupe LIR du LIMSI.

Le CORAL (Centre Orléanais de Recherches en Anthropologie et Linguistique), dirigé par Gabriel Bergounioux à l'université d'Orléans, a entrepris en particulier la reprise, le nettoyage et la mise à disposition progressive de la communauté du corpus ESLO. Cette enquête socio-linguistique des années 70 effectuée dans la région orléanaise constitue une base de données importante pour l'analyse du français oral. Le CORAL est en train de la compléter par une nouvelle enquête, aux dimensions et à la méthodologie similaires, qui permettra des comparaisons à une génération de distance.

Unités constituantes de l'ILF	Responsable	Site web
MODYCO : Modèles, Dynamiques, Corpus — UMR 7114	Bernard Laks	http://www.modyco.fr/
ATILF : Analyse et Traitement Informatique de la Langue Française — UMR 7118	Jean-Marie Pierrel	http://www.atilf.fr/
BCL : Bases, Corpus, Langage — UMR 6039	Tobias Scheer	http://www.unice.fr/bcl/index2.php
CRISCO : Centre de Recherches Inter-langues sur la Signification en Contexte — FRE 2805	Jacques François	http://www.crisco.unicaen.fr/
LDI : Lexiques, Dictionnaires et Informatique — UMR 7187	Salah Mejri	http://www-lli.univ-paris13.fr/
CLLE : Cognition, Langues, Langage, Ergonomie — UMR 5263	Jacques Durand	http://clle.univ-tlse2.fr/
ICAR : Interactions, Corpus, Apprentissages, Représentations — UMR 5191	Lorenza Mondada	http://icar.univ-lyon2.fr/
LPL : Laboratoire Parole et Langage — UMR 6057	Philippe Blache	http://www.lpl.univ-aix.fr/
LATTICE : Langues, Textes, Traitement Informatique, Cognition — UMR 8094	Laurence Danlos	http://www.lattice.cnrs.fr/
STL : Savoirs, Textes, Langages — UMR 8163	Fabienne Blaise	http://stl.recherche.univ-lille3.fr/

L'Institut Gaspard Monge de l'université de Marne-la-Vallée, représenté par Eric Laporte, hérite de la tradition des lexiques-grammaires de Maurice Gross. Il développe et met à disposition le logiciel Unitex qui comprend, en particulier pour le français, les lexiques-grammaires de mots simples et de "mots en plusieurs mots" et les outils de traitements associés (automates, environnement de développement et d'utilisation d'automates).

Le groupe LIR (Langues, Information, Représentations), dirigé par Anne Vilnat, au sein du département Communication Homme Machine du LIMSI (Laboratoire d'Informatique et de Mécanique pour les sciences de l'ingénieur — UPR 3251), travaille sur l'analyse automatique du langage écrit (système de question/réponse, segmentation thématique, analyse syntaxique automatique), son évaluation et l'acquisition de ressources linguistiques. Le lien avec le LIMSI a permis en particulier la mise en place d'une coopération CORAL-LIMSI en 2007 soutenue par l'ILF pour l'utilisation des outils de reconnaissance automatique de la parole développés au LIMSI dans le groupe TLP (Traitement de la Parole) pour produire des "brouillons de transcription" facilitant le travail de mise au point de transcriptions manuelles fines.