Como se produce la voz humana
Los órganos que intervienen en la producción de la voz constituyen el aparato fonador humano y se pueden clasificar en tres grupos: la caja torácica, la cavidad laríngea y las cavidades supraglóticas.
El fuelle pulmonar constituye un sistema de presión encargado desde el punto de vista fonatorio de la generación del flujo de aire que con mayor o menor presión encontrará como válvula la glotis. En este sentido, la musculatura intercostal y el propio diafragma juegan un papel importantísimo en la fonación.
La laringe está constituida por una serie de cartílagos que constituyen el armazón laríngeo. Éstos, articulados entre sí, cambian la tensión de la musculatura intrínseca de la laringe, que se modifica igualmente por la extrínseca, fuera del armazón cartilaginoso, pero insertada en él, y con un papel importante en la modificación de la tensión glótica. Un papel fundamental es el que juega la ondulación mucosa, que genera una vibración al paso del aire por la glotis. Ésta se desplaza sobre la estructura músculo-tendinosa que constituye el músculo vocal. La fonación así entendida, debe considerarse como un todo único en el que cada elemento juega su papel.
La onda glotal se propaga hacia las cavidades supraglóticas (faringe, cavidad oral y cavidad nasal), que actúan como filtros que atenúan a amplifican determinadas componentes espectrales, dependiendo de las frecuencias de resonancia. La conformación de labios, faringe, cavidad oral, fosas nasales y senos paranasales va a determinar las frecuencias de resonancia de la cavidad oronasal, y su disposición y movimiento va a establecer el timbre y duración de los sonidos emitidos. De este modo, en las cavidades supraglóticas es donde se establece la mayor diversificación acústica y fonética de la voz.
En procesamiento de voz, la producción de la voz es usualmente descrita mediante modelos denominados de excitación-filtrado. De acuerdo con éstos, la voz es el resultado de generar en algún punto del aparato fonador un sonido (denominado excitación) que es filtrado en las cavidades supraglóticas. La voz es la señal resultante de aplicar a la señal excitación el filtro que caracteriza a las cavidades supraglóticas, teniendo en cuenta que tanto la excitación como el filtro presentan una evolución temporal.
Existen básicamente tres mecanismos de generación de la excitación. El primero de ellos consiste en la vibración de las cuerdas vocales. Este tipo de excitación se manifiesta en la producción de las vocales (/a/ /e/ /i/ etc.) y de las consonantes sonoras (/m/ /n/ /l/ etc.). Los sonidos producidos con este tipo de excitación se caracterizan por la presencia del tono fundamental. Cuando en algún punto del tracto vocal se produce un estrechamiento, la presión del aire produce un flujo turbulento que genera un sonido con aspecto de ruido estacionario. Este tipo de excitación es característico de los fonemas fricativos (/s/ /f/ /x/ etc.) Finalmente, la excitación se puede producir mediante un cierre del tracto vocal en algún punto seguido de una apertura repentina. Este tipo de excitación produce un pulso de presión breve e intenso, que es característico de las consonantes oclusivas (o plosivas) (/b/ /d/ /g/ /p/ /t/ /k/). Es importante destacar que los mecanismos de producción de excitación no son excluyentes, siendo posible encontrar excitaciones fricativas sonoras (la /s/ sonora, por ejemplo, que aunque no se utiliza en español, está presente en otros idiomas) o plosivas sonoras (/b/ /d/ /g/).
La excitación es filtrada en las cavidades supraglóticas. Debido a las dimensiones del tracto vocal y la velocidad de propagación del sonido en el aire, en la voz aparece en promedio un pico de resonancia por cada kHz. Estos picos son denominados formantes y su posición en el espectro depende de la conformación de la cavidad oronasal, es decir, de la posición de la lengua con respecto a los labios, los dientes y el paladar, la posición del velo del paladar permitiendo o no el acoplamiento de la cavidad nasal, la disposición de los labios, etc.
Análisis de la señal de voz
En la figura 7 se ha representado el espectro de potencia de señales de voz correspondientes a las vocales y a la consonante /s/. En estas gráficas se ha representado en el eje horizontal la frecuencia (en Hz) y en el eje vertical la potencia espectral relativa (en dB). En cada una de las gráficas se ha representado tanto el espectro de potencia como la envolvente espectral. Se han marcado también las frecuencias en las que se encuentran las resonancias del tracto vocal, que corresponden con los picos de la envolvente espectral. Estos picos son los formantes. Puede apreciarse que aparece aproximadamente un formante por cada kHz, y que la disposición de los formantes varía de unas vocales a otras.
En la figura puede apreciarse que el espectro de las vocales presenta una serie de picos uniformemente distribuidos, especialmente claros en bajas frecuencias. Estos picos corresponden a la serie de armónicos asociados al tono fundamental y se observan en el caso de los fonemas sonoros (consonantes sonoras y vocales) debido a la vibración periódica de las cuerdas vocales. En el caso de fonemas sordos (como la /s/) no tiene lugar la vibración de las cuerdas vocales y la serie de armónicos asociada al tono fundamental no aparece.
Es importante destacar que la distribución de energía en el espectro proporciona dos tipos de información. Por una parte, la estructura gruesa del espectro, es decir, la envolvente espectral, proporciona información con respecto al fonema pronunciado, a través de la posición de los formantes. Por otra parte, la estructura fina del espectro contiene información relativa a la presencia o ausencia del tono fundamental y la frecuencia de éste. En el caso de las vocales, la frecuencia de los dos primeros formantes permite su discriminación, tal y como se representa en la figura 8.
El mecanismo de percepción del oído integra información espectral, información sobre la intensidad de cada componente espectral e información relativa a la evolución temporal de estas intensidades. Por esta razón, para el análisis de la señal de audio, suelen ser de gran utilidad los espectrogramas. Los espectrogramas son una representación de la señal que muestra la intensidad espectral evaluada en distintos instantes de tiempo. En el eje horizontal se representa el tiempo y en el eje vertical se representa la frecuencia. La intensidad asociada a cada componente espectral en cada instante de tiempo se representa en el espectrograma asignando a cada punto tiempo-frecuencia un nivel de gris o un color de acuerdo con un mapa de colores. De este modo, el espectrograma permite analizar la evolución en el tiempo de la intensidad en las distintas componentes espectrales. De este modo se pueden localizar los formantes, identificar los fonemas y sus características espectrales o temporales.
La figura 9 muestra el espectrograma de una señal de voz correspondiente a la frase "voy a comprar pan". Se han etiquetado además los distintos fonemas para facilitar su análisis. Debido a los parámetros utilizados para generar el espectrograma, el tono fundamental se puede resolver en el eje de tiempo, de modo que durante la pronunciación de los fonemas sonoros, se aprecian variaciones rápidas de la intensidad en el tiempo (tal y como se representarían en las terminaciones nerviosas de acuerdo con el principio de codificación temporal antes explicado). Los instantes de más intensidad corresponden con los pulsos glotales asociados a la vibración de las cuerdas vocales. Puede apreciarse que antes de la pronunciación del fonema /b/ aparece una nasalización con vibración de cuerdas vocales (una /m/). Durante la pronunciación del triptongo /oia/ se observa la evolución de los 3 primeros formantes, cuya frecuencia es bastante parecida a la observada en las figuras 7 y 8. Las consonantes oclusivas sordas (la /k/ y las dos /p/) se caracterizan por el silencio durante la oclusión previa a la plosión, seguida por un pico de energía bastante breve. La vibración de la lengua en la /R/, vibrante múltiple, de frecuencia mucho menor que la vibración de las cuerdas vocales, también se puede observar. En la figura 10 se muestra un detalle del triptongo /oia/. En esta figura se aprecian con más claridad los pulsos glotales y los formantes. Puede apreciarse también que en una frase pronunciada de forma natural, los formantes no toman posiciones fijas, sino que varían de forma continua en el tiempo (ya que el cambio de disposición de los órganos en el tracto vocal se realiza de forma continua y no de forma instantánea). Este efecto de modificación de los fonemas debido a los fonemas anteriores y posteriores (con respecto a sus ejecuciones ideales si fueran pronunciados de forma aislada) se denomina coarticulación.
www.rofimo.com
Registro automático