Thème de recherche:
Groupe de travail sur le dialogue
Récapitulatif "Corpus de dialogue"
Ce récapitulatif est issu de la réunion du 28 septembre. Les mises à jour peuvent être faites directement sur le site (voir avec David Nicolas pour l'accès) ou être envoyées à Laurent Prévot.
Gros corpus composites
ACI Jeune chercheur
- Contact: Elisabeth.Roussarie@wanadoo.fr
- Web : ***
- Commentaires :
Il s’agit d’un corpus de 120 000 mots entièrement transcrits orthographiquement, avec la transcription alignée sur le signal. Ce corpus comprend trois types de données : - des entretiens entre un locuteur et un enquêteur (type entretien sociolinguistique), dans lesquels il n'y a pas de conflits, vu le genre de dialogue. Le tout est de environ 8 heures. - des monologues (intervention dans des conférences, présentation des cursus). - des lectures de textes (deux textes extraits de la Presse écrite et un extrait de L.F Céline). L'ensemble de ce corpus sera rendu accessible à la communauté scientifique très rapidement. Certains passages audio doivent être filtrés afin de préserver l'anonymat des locuteurs. Si nécessaire, Elisabeth peut fournir les transcriptions orthographiques. Le corpus est entièrement documenté et les convenitions choisies sont celles du consortium européen EAGLES.
CRFP (Corpus de Référence du Français Parlé)
- Contact: Jose.Deulofeu@up.univ-mrs.fr et (normalement) Sandrine Caddéo.
- Auteur(s) : Etudiants (Université d'Aix)
- Web : CRFP
- Commentaires :
Il s'agit d'un corpus de 1 M de mots environ, non échantillonné, constitué d'interviews de 10 à 30 minutes, effectués par des étudiants de Licence et Maîtrise . Le français parlé du sud-est est évidemment sur-représenté, mais il n'y a pas eu de recherche de régionalisme. Il y a surtout des monologues. On trouve : récits, explications, argumentations, mais on ne peut trier facilement ce corpus. On peut essentiellement faire des concordances avec un outil intégré (Corpaix) à syntaxe semi évoluée. Le corpus n'est pas taggé.
Corpus de Langues Parlées en Interaction
- Contact: Christian.Plantin@univ-lyon2.fr
- Auteur(s) : voir site web
- Web : CLAPI
- Commentaires :
Il s'agit d'un ensemble de corpus de conversations en situations naturelles (non expérimentales). La durée totale d'enregistrement est de 582 heures. Une partie des corpus sont "vidéo". Un certain nombre de corpus sont disponibles sur CD-ROM. Pour accéder à ces derniers il faut signer une convention.
ELICOP (Louvain)
- Contact: Piet.Mertens@arts.kuleuven.ac.be, Veerle.Brosens@arts.kuleuven.ac.be, Mark.Debrock@arts.kuleuven.ac.be
- Auteur(s) : voir page web
- Web : ELICOP
- Commentaires :
Le site d'ELICOP est détaillé, il précise les conventions de transcrption et fournit de nombreuses informations sur les corpus du projet. La masse totale des données est considérable (plus de 500 heures), une grande partie de ces données sont transcites orthographiquement et un fragment moins important est transcrit phonétiquement. Les contextes proposés lors des recherches dans le corpus (à partir du site) sont "larges" (en comparaison de ceux du CRFP d'Aix). Les corpus sont libres de droits.
En ce qui concerne le contenu, il s'agit majoritairement d'entretiens pour des études sociologiques. Mais il ya aussi dans conversations informelles dans des contextes de travail et des jeux de rôle (voir le site pour les détails).
Corpus spécifiques
Corpus AIR FRANCE, Paris III - Centre de Linguistique Française
- Contact : Suzanne Salmon-Alt
- Auteur(s) : Paris III - Centre de Linguistique Française
- Web : Acessible sur ASILA, plus de renseignements sur ANANAS
- Commentaires :
Le corpus est composé de 73 dialogues (environ 54000 mots) (réservation de billets et renseignements). Le corpus est disponible en brut et en XML au format TEI P4 (par Laurent Romary et Nadia Viscogliosi, LORIA).
Corpus CIO
- Contact : Suzanne Salmon-Alt
- Auteur(s) : ****
- Web : Accessible sur ASILA, plus de renseignement sur ANANAS
- Commentaires :
Peu de renseignements pour ce corpus de dialogues de renseignement dans un centre d'information et d'orientation à l'université.
Corpus GOCAD
- Contact : Suzanne Salmon-Alt
- Auteur(s) : ****
- Web : Accessible sur ASILA
- Commentaires :
Il s'agit de dialogues (multi-modaux) issu d'une expérience "Magicien d'Oz". Ils visent a réaliser une tâche précise en coordination avec le "système" simulé. Le corpus a été codé en TEI P4 par Nadia Viscogliosi.
Corpus Itinéraire (IRIT)
- Contact: Philippe Muller et Laurent Prévot
- Auteur(s) : Laurent Prévot et Philippe Muller (IRIT)
- Web : Explication d'itinéraire
- Commentaires :
Il s'agit d'explications d'itinéraires par téléphone et sans support papier. Le sujet "fournisseur" tentent d'expliquer à son partenaire comment se rendre d'un point à un autre dans le contexte "réel" de la ville de Toulouse.
Le corpus est composé de 21 dialogues pour une durée approximative d'une heure. Il est transcrit orthographiquement et annoté "en actes". Les fichiers "son" sont disponibles mais de mauvaise qualité.
MapTask Français
- Contact: brechtje.post@phonetics.oxford.ac.uk
- Auteur(s) : Brechtje Post (Oxford)
- Web : ***
- Commentaires :
Le corpus est composé
des fichiers audio du corpus MapTask fait par Brechtje Post
dans le cadre de sa thèse sur l'intonation du français. Elisabeth Delais-Roussarie a aligné ces
données sous PRAAT. Le corpus est donc maintenant transcrit et aligné.
Mais, pour le diffuser, les intéressés doivent contacter d'abord
Brechtje Post qui est 'l'auteur' du corpus.
MapTask Français (Geneviève Caelen, Aix)
- Contact : Geneviève Caelen
- Auteur : Geneviève Caelen
- Web : ***
- Commentaires :
Ce corpus a été présenté dans son exposé lors de la conférence "Prosody and
Pragmatics" à Preston. Le contact avec Geneviève Caelen n'est pas encore établi au sein du GDR.
Microfusées
- Contact: Suzanne Salmon-Alt
- Auteur(s): GRIC (CNRS, Lyon 2), équipe COAST
- Web : ASILA
- Commentaires:
Les dialogues de ce petit corpus (30 minutes pour 3 dialogues et un monologue) ont pour contexte une journée d'initiation à la fabrication de microfusées. Sur le site ASILA, seul un codage TEI en SGML est proposé par Nadia Viscogiosi (Langue et Dialogue, Nancy).
OZKAN
- Contact: Suzanne Salmon-Alt
- Auteur(s) : Nadine Ozkan et Jean Caelen
- Web : Accessible sur ASILA, plus de renseignement sur ANANAS
- Commentaires:
Ce corpus de dialogues orientés tâche est composé de 33 dialogues (pour environ 11500 mots). Il a été codé en TEI par Suzanne et annnoté pour étudier la référence. Il est libre de droits.
Renault (LIMSI)
- Contact: Suzanne Salmon-Alt
- Auteur(s) : Dominique Martini, Agnès Gryl et Xavier Briffault (LIMSI)
- Web : ASILA
- Commentaires:
27 dialogues transcrits et codé en TEI par Laurence Kbida (Langue et Dialogue, Nancy).
SNCF
- Contact: Suzanne Salmon-Alt
- Auteur(s) : ***
- Web : ASILA, plus de renseignement sur ANANAS
- Commentaires:
61 dialogues de réservation transcrits.
PIC
- Contact: Suzanne Salmon-Alt
- Auteur(s) : Anne Nicole, Laboratoire GREYC (université de Caen), LPI-GRC (université Nancy 2), LPCP (université de Caen)
- Web : ASILA
- Commentaires:
1 dialogue de réservation transcrit et codé en TEI par Nadia Viscogliosi et Laurence Kbida (Langue et Dialogue) .
Projet Zilla
- Contact: Jean-paul.Sansonnet@limsi.fr
- Auteur(s) : LIMSI
- Web : Projet Zilla
- Commentaires :
Le corpus (de langue anglaise) est composé des échanges (par lis) qui ont lieu lors du déboguage de Mozilla.
Autres corpus (manque d'informations)
Corpus "Michel De Fornel"
- Contact: Jean-Marie Marandin
- Auteur(s) : Michel De Fornel (EHESS)
- Web : ***
- Commentaires :
Ces corpus devraient être rendus accessibles dans le futur. Mais un travail pour
rendre anonyme certains extraits est nécessaire. Si besoin est, Elisabeth est
prête à aider pour faire cela car elle a des outils pour cela.
|