L'échelle OME (Octave-MEdiane) : une échelle naturelle pour la mélodie de la parole. Céline De Looze, Daniel Hirst Laboratoire Parole et Langage, CNRS UMR 6057 Université de Provence, Aix-en-Provence {celine.delooze, daniel.hirst}@lpl-aix.fr http://www.lpl.univ-aix.fr ABSTRACT Fundamental frequency, the primary acoustic correlate of speech melody, is generally analysed and displayed using a linear scale (in Hertz) or a logarithmic one (usually in semitones), generally offset to an arbitrary reference level. In this paper we argue that a more natural scale for analysing speech is the OME (Octave-MEdian) scale, using the octave (8ve) as the basic unit, centred on the median of the speaker's range. We present results showing that a reasonable estimate of a speaker's pitch range can be obtained directly from the median. Keywords: prosodie, mélodie, échelle naturelle, octave 1. INTRODUCTION Bien qu'on puisse observer une certaine non-linéarité dans la perception de la hauteur des sons de la parole, la fréquence fondamentale reste néanmoins le corrélat acoustique principal de cette hauteur. Des échelles psycho-acoustiques propres à l'étude de la parole ont été proposées, en particulier les échelles Mel, Bark et ERB. La pertinence relative de ces échelles, cependant, reste à établir. Une étude récente [16] montre, par exemple, que dans des tâches de réplication de contours, entre voix d'hommes et voix de femmes, une échelle logarithmique rend mieux compte de la performance des locuteurs qu'une échelle linéaire ou qu'une échelle psycho-acoustique. L'échelle physique en Hertz (cycles par seconde) est souvent transformée dans des études sur la prosodie en une échelle logarithmique, généralement exprimée en demi tons avec une valeur de référence (appelé C0), fixée arbitrairement à 16.3516 Hz [17]. Fant et al [9], ont proposé l'unité St définie comme suit : (1) St = 12[ln(Hz/100)/ln2]. avec le niveau de référence, donc, à 100 Hz. Le demi ton n'a, cependant, rien de naturel comme unité de mesure. Il est, en effet, le produit d'une évolution complexe de la culture musicale occidentale classique, correspondant à la division de l'octave en 12 intervalles égaux, une idée qui avait été déjà décrite dans un traité publié en Chine en 1584 [13]. En Europe, la gamme à 12 demi tons égaux, dite gamme à tempérament égal, a été employée progressivement depuis le 18e siècle pour accorder les claviers de musique, en remplacement de la gamme naturelle ('just intonation') utilisée auparavant, ou encore de la gamme bien tempérée de Bach. Il s'agissait chaque fois de la recherche d'un compromis permettant de moduler d'une gamme à une autre, sans introduire de discordance majeure et sans avoir à changer de clavier. Dans différentes civilisations à différentes époques, on observe l'utilisation de gammes de notes différentes. La plupart de ces gammes, cependant, ont en commun le fait que les noms des notes sont généralement les mêmes, quelle que soit l'octave. Ainsi, dans l'échelle classique occidentale, par exemple, la séquence do ré mi fa sol la si do ré mi... etc peut se répéter indéfiniment dans les limites physiques de la production sonore. Des travaux récents semblent établir que cette circularité (connue aussi sous le nom de répétition chromatique) a des bases physiologiques dans la perception des sons par des humains [4][5], y compris par des nouveaux-nés [15], et également par des singes [18]. En tout cas, c'est l'octave, et non le demi-ton, qui apparaît clairement comme l'intervalle naturel pour la perception des hauteurs des sons de parole et de la musique. On a suggéré par ailleurs [10][11] qu'il y a peut-être également une explication physiologique pour l'octave et la demi-octave comme unité pour la production d'intervalles mélodiques. Hirst [10] rapporte une expérience où ces deux intervalles sont observés comme valeurs modales dans une tâche de production de contours variés sur des syllabes isolées, « oui » et « non ». Bien que le mécanisme du contrôle de la fréquence fondamentale ne repose pas uniquement sur l'élongation des plis vocaux, on peut penser que dans la mesure où ceux-ce se comportent comme des cordes vibrantes, alors, suivant la loi de Mersenne, un doublement de la tension des plis vocaux correspondra à une montée mélodique d'une demi-octave. Ceci pourrait expliquer la raison pour laquelle les deux intervalles – octave et demi-octave – semblent être fréquents dans la production mélodique, malgré le fait qu'une montée ou une chute d'une octave sur une seule syllabe, par exemple, n'est certainement pas perçue dans sa totalité. Dans la suite de ce travail, nous décrivons une étude menée sur 4 corpus, en anglais et en français, qui montre que, dans la production de la parole naturelle, les variations de la fréquence fondamentale seraient délimitées par l’octave supérieure et la demi-octave inférieure par rapport à la hauteur médiane de la voix d’un locuteur, ce qui nous mène à proposer une nouvelle échelle de mesure normalisée : l’OME. Pour plus de détails concernant cette étude, voir [8]. XXVIIIèmes Journées d'Etude sur la Parole, Mons, 25 - 28 mai 2010 229