11 – Ressources et outils pour l’analyse linguistique

Présidente : Delphine Battistelli (Université Paris Nanterre)

Vice-présidents /coordonnateurs : Damon Mayaffre (CNRS, BCL, Université de Nice-Sophia Antipolis) et Céline Poudat (Université de Nice-Sophia Antipolis)

Autres membres du comité : Olivier Baude (Université Paris Nanterre), Michael Beisswenger (Université de Duisburg-Essen, Allemagne), Marie Candito (Université Paris Diderot), Anne Condamines (CNRS, CLLE, Université Jean Jaurès Toulouse), Serge Heiden (ENS de Lyon), Michel Jacobson (CNRS, LACITO), Olivier Kraif (Université Grenoble Alpes), Frédéric Landragin (CNRS, LATTICE), Éric Laporte (Université Paris-Est, Marne-la-Vallée), Dominique Longrée (LASLA – Université de Liège, Belgique), Christophe Parisse (INSERM, Université Paris Nanterre), Ludovic Tanguy (Université Jean Jaurès Toulouse), Agnès Tutin (Université Grenoble Alpes)

Présentation

On le sait, la mise à disposition de grands corpus électroniques (oraux, écrits, gestes) qui peuvent êtreannotés à des niveaux divers (phonétique, phonologique, morphologique, syntaxique, sémantique, discursif) ouvre la voie à des travaux qui interrogent les approches classiques des Sciences du Langage. Parmi les questions qui émergent, il y a tout d’abord la question de la mutualisation et de la capitalisation des ressources. Celle-ci constitue maintenant un enjeu majeur pour l’ensemble de la communauté, soulevant des problématiques d’interopérabilité, de normalisation mais aussi d’ordre juridique ou éthique. Parmi les initiatives internationales prises (généralement soutenues par les instances), il y a par exemple le « Web de données linguistiques » (LLOD), mais aussi divers projets de constitution de « grands » corpus et de groupes de travail d’annotation, ou encore des laboratoires et des équipements d’excellence dédiés (tels que l’Equipex ORTOLANG, les consortium de la TGIR HumaNum, l’European Research Infrastructure Consortium DARIAH, etc.). Une autre question majeure concerne l’utilisation et l’apport des outils de traitement informatique à l’analyse linguistique, que ce soit pour faire émerger des hypothèses ou pour les valider, avec une difficulté de plus en plus prégnante qui est celle de l’évaluation, à la fois des outils mais aussi des données annotées (et donc des ressources). Il existe en tout cas actuellement un nombre important d’outils qui modifient profondément le rapport du linguiste aux données langagières. Ces outils sont associés à diverses tâches : la collecte de données langagières, l’aide à la transcription, l’annotation manuelle, l’annotation automatique – elle-même fondée sur des traitements symboliques et/ou statistiques ou encore sur des méthodes par apprentissage, etc. Avec une démarche différente des colloques internationaux spécialisés dans le Traitement Automatique des Langues (TAL), cette session du CMLF 20 18 voudrait ouvrir un espace d’échanges scientifiques entre différentes approches, sans exclusive de cadres théoriques, de méthodologies ou de pratiques axées sur la théorie et/ou l’empirisme. Cette session sera l’occasion de mettre en relief tout aussi bi en des recherches émergentes que des travaux qui consolideraient des approches existantes. La session « Ressources et outils pour l’analyse linguistique » invite à soumettre des propositions d’articles originaux dont l’objet est de construire ou d’exploit er des ressources mais aussi de développer ou d’évaluer des outils ou des ressources dans tous les domaines de la linguistique française (oral, écrit, gestes) et à tous les niveaux d’analyse (phonétique, phonologique, morphologique, syntaxique, sémantique, discursif).

Retour