Document sans titre

Groupe de travail 1: Bases de données de parole pour l'étude de la convergence phonétique

Cinq bases de données sont utilisées pour examiner les caractéristiques phonétiques et prosodiques de l'imitation dans les échanges conversationnels entre adultes et entre enfants. Deux d'entre elles (le CID et CLAPI) existent déjà alors que les deux autres sont en cours d'enregistrement dans le cadre du projet.

La base de données CID (Corpus of Interactional Data)

La base de données CID (Corpus of interactional data, Bertrand et al., 2006) rassemble aujourd'hui huit dialogues d'une heure chacun. Pour chaque dialogue, les partenaires sont du même sexe, se connaissent l'un l'autre et ont pour consigne d'échanger à propos de deux sujets (sujet insolite et conflits professionnels). Cette base de données a été entièrement annotée au niveau orthographique, morphosyntaxique, prosodique et phonémique et segmentée en mots et en phonèmes. Les analyses conduites dans le cadre de ce projet ont déjà conduit au développement d'un outil de détection automatique des hétéro-répétitions (le fait pour un locuteur de répéter un fragment de ce que son interlocuteur a dit auparavant).

La base de données CLAPI :

CLAPI est une banque de données outillée de corpus de langue parlée en interaction enregistrée en situation réelle dans des contextes variés. Dix heures de transcriptions vidéo et audio sont disponibles. Un important travail a été réalisé pour le choix des corpus, l'identification et la sélection des données, la délimitation des phénomènes pertinents pour l'étude des répétitions.

La base de données "voix manipulées":

L'objectif est de mettre en évidence de possibles effets de convergence entre locuteurs relatifs à la hauteur de la voix. Dans le dispositif expérimental que nous avons mis en place, les deux locuteurs ne se voient pas et chacun communique avec l'autre par l'intermédiaire d'un micro et d'un casque audio. La hauteur de la voix de chacun des locuteurs est manipulée en temps réel par l'intermédiaire d'un système que nous avons développé.

La base de données GMUP (Group' em up!"):

GMUP est un jeu interactif conduisant deux participants à produire de manière répétée un ensemble de noms propres inventés, et qui se prononcent différemment en français méridional et en français non-méridional. Ce protocole offre la possibilité d'étudier les effets de convergence entre accents régionaux.

La base de données Map Task enfant:

Cette base de données contient des enregistrements de corpus d'enfants qui ont été recueillis à partir d'une version française de la Map Task. Dans ce type de tâche deux participants sont assis l'un en face de l'autre et l'un des participants a sous les yeux une carte géographique que l'autre ne peut pas voir. Les deux participants doivent collaborer verbalement pour retracer le chemin que le détenteur de la Map Task a sous les yeux. Nous avons mis en place une version de cette tâche adaptée au 7-10 ans. Cela suppose l'utilisation d'un nombre limité de dénominations et la construction de carte simplifiées.