Opérations

5. SEMANTIQUE ET CORPUS

Responsable : BOURIGAULT

Participants :

Emmanuel BELLENGIER
Andrée BORILLO
Didier BOURIGAULT
Richard CARTER
Patrick CAUDAL
Francis CORBLIN
Martine CORNUEJOLS
Anne LE DRAOULEC
Alda MARI
Yannick MATHIEU
Laurent PRéVOT
Céline RAYNAL
Susanne SALMON-ALT


Thème de recherche:

Comme d'autres secteurs de la linguistique, la sémantique est intéressée par l'usage des banques de données textuelles, tout particulièrement pour la communauté française par les projets d'enrichissement des banques de données constituées par l'INALF entreprise par l'ATILF. L'objectif de cette opération thématique est de créer des liens avec l'ATILF et l'ILF pour étudier les évolutions des bases et de leur environnement de manière à valider des modélisations, ou à recueillir des données pertinentes. Cette collaboration devrait être d'autant plus féconde, qu'un des thèmes centraux du GDR est la modélisation de données de discours, et que les pistes à exploiter se dégagent très naturellement : connecteurs, informations temporelles, relations de discours, contextes des lexicalisations de variables, des quantificateurs. L'opération pourrait ici être structurée sur la base d'un groupe de liaison avec l'ATILF, qui centralise les demandes, organise des formations pour les chercheurs du projet, l'organisation des journées d'étude avec les responsables de la base, des mise en relation de chercheurs avec des ingénieurs de l'ATILF.

En quelques années, la plus grande disponibilité des textes sur support électronique et le développement d'outils d'analyse textuelle ont entraîné un foisonnement des recherches linguistiques ayant recours aux corpus. Toutes les spécialités traditionnelles de la linguistique (sémantique, syntaxe, morphologie, phonologie, lexicologie, discours) sont touchées par cette évolution. Confrontés à une masse de données attestées interrogeables, les linguistes voient leurs méthodes et leurs hypothèses renouvelées. La sémantique est un des domaines dans lequel se pose de façon cruciale le rôle du corpus. Confrontées aux données des corpus, les questions fondamentales de la sémantique (polysémie, classification, paraphrase, relations sémantiques, études des structures lexico-syntaxiques) reçoivent un éclairage nouveau. Aux extrêmes, deux approches tendent à s'opposer :

- Dans une approche hypothético-déductive, le corpus est utilisé comme lieu de validation de descriptions sémantiques construites par introspection. Il s'agit de tester sur du texte tout-venant des hypothèses construites a priori.

- A l'autre extrême, dans une approche inductive, le fonctionnement sémantique est étudié à l'intérieur du cadre du corpus. Les résultats ne prétendent pas à la généralisation, ils ne sont déclarés valides que pour ce corpus.

C'est essentiellement selon cette seconde approche que se développent les recherches dans l'opération "Sémantique et corpus" de l'ERSS Toulouse. Chacune de ces approches pose question. D'un côté l'approche hypothético-déductive se heurte à la variabilité en corpus, peu prise en compte par les hypothèses " générales " sur la langue construites hors contexte ; la confrontation avec le corpus fait nécessairement émerger de nouvelles hypothèses. D'un autre côté, une approche strictement inductive n'est pas satisfaisante, car dans une approche scientifique le problème de la variation et du particulier ne peut être abordé indépendamment de celui de la généralisation. La confrontation de ces deux approches, dans le cadre d'une structure de type GDR, favoriserait la problématisation de ces questions et plus précisément l'étude des complémentarités entre prise en compte de la variation et généralisation. Par ailleurs, le problème des outils d'accès aux (grands) corpus textuels pour l'analyse sémantique est tout aussi important pour les deux approches, mais il est probable que les réponses diffèrent. Il convient alors de s'interroger sur les outils les plus pertinents et sur leur mode d'utilisation. Enfin, le problème de la modélisation et de la formalisation lui-même change : alors que dans une perspective de sémantique formelle, on peut cherche à formaliser un modèle de la faculté de compréhension, l'approche inductive vise à produire sous la forme de modèles formels, aptes à être exploités par des systèmes informatiques, des descriptions sémantiques construites à partir de corpus particuliers et censées refléter les structures lexicales à l’œuvre dans ces corpus (problématiques des ontologies).