Groupe de travail 1: Bases de données de parole pour l'étude de la convergence phonétique
Cinq bases de données sont utilisées
pour examiner les caractéristiques phonétiques et prosodiques
de l'imitation dans les échanges conversationnels entre adultes et
entre enfants. Deux d'entre elles (le CID et CLAPI) existent déjà
alors que les deux autres sont en cours d'enregistrement dans le cadre du
projet.
La base de données CID (Corpus of Interactional Data)
La base de données CID (Corpus of interactional data, Bertrand et al.,
2006) rassemble aujourd'hui huit dialogues d'une heure chacun. Pour chaque
dialogue, les partenaires sont du même sexe, se connaissent l'un l'autre
et ont pour consigne d'échanger à propos de deux sujets (sujet
insolite et conflits professionnels). Cette base de données a été
entièrement annotée au niveau orthographique, morphosyntaxique,
prosodique et phonémique et segmentée en mots et en phonèmes.
Les analyses conduites dans le cadre de ce projet ont déjà conduit
au développement d'un outil de détection automatique des hétéro-répétitions
(le fait pour un locuteur de répéter un fragment de ce que son
interlocuteur a dit auparavant).
La base de données CLAPI :
CLAPI est une banque de données outillée de corpus
de langue parlée en interaction enregistrée en situation réelle
dans des contextes variés. Dix heures de transcriptions vidéo
et audio sont disponibles. Un important travail a été réalisé
pour le choix des corpus, l'identification et la sélection des données,
la délimitation des phénomènes pertinents pour l'étude
des répétitions.
La base de données "voix manipulées":
L'objectif est de mettre en évidence de possibles effets de convergence
entre locuteurs relatifs à la hauteur de la voix. Dans le dispositif
expérimental que nous avons mis en place, les deux locuteurs ne se
voient pas et chacun communique avec l'autre par l'intermédiaire d'un
micro et d'un casque audio. La hauteur de la voix de chacun des locuteurs
est manipulée en temps réel par l'intermédiaire d'un
système que nous avons développé.
La base de données GMUP (Group' em up!"):
GMUP est un jeu interactif conduisant deux participants à produire
de manière répétée un ensemble de noms propres
inventés, et qui se prononcent différemment en français
méridional et en français non-méridional. Ce protocole
offre la possibilité d'étudier les effets de convergence entre
accents régionaux.
La base de données Map Task enfant:
Cette base de données contient des enregistrements de corpus
d'enfants qui ont été recueillis à partir d'une version
française de la Map Task. Dans ce type de tâche deux
participants sont assis l'un en face de l'autre et l'un des participants a
sous les yeux une carte géographique que l'autre ne peut pas voir.
Les deux participants doivent collaborer verbalement pour retracer le chemin
que le détenteur de la Map Task a sous les yeux. Nous avons mis en
place une version de cette tâche adaptée au 7-10 ans. Cela suppose
l'utilisation d'un nombre limité de dénominations et la construction
de carte simplifiées.