Anunciese Aquí

Registro automático

Acceder con Twitter

top articulo
twitter
facebook
Rss
jueves 25 de abril del 2024
Lea, publique artículos gratis, y comparta su conocimiento
Usuario Clave ¿Olvidó su clave?
¿Iniciar sesión automáticamente en cada visita?
Inserte su correo electronico

Como se produce la voz humana

veces visto 7275 Veces vista   comentario 0 Comentarios

Los órganos que intervienen en la producción de la voz constituyen el aparato fonador humano y se pueden clasificar en tres grupos: la caja torácica, la cavidad laríngea y las cavidades supraglóticas.

El fuelle pulmonar constituye un sistema de presión encargado desde el punto de vista fonatorio de la generación del flujo de aire que con mayor o menor presión encontrará como válvula la glotis. En este sentido, la musculatura intercostal y el propio diafragma juegan un papel importantísimo en la fonación.

La laringe está constituida por una serie de cartílagos que constituyen el armazón laríngeo. Éstos, articulados entre sí, cambian la tensión de la musculatura intrínseca de la laringe, que se modifica igualmente por la extrínseca, fuera del armazón cartilaginoso, pero insertada en él, y con un papel importante en la modificación de la tensión glótica. Un papel fundamental es el que juega la ondulación mucosa, que genera una vibración al paso del aire  por la glotis. Ésta se desplaza sobre la estructura músculo-tendinosa que constituye el músculo vocal. La fonación así entendida, debe considerarse como un todo único en el que cada elemento juega su papel.

La onda glotal se propaga hacia las cavidades supraglóticas (faringe, cavidad oral y cavidad nasal), que actúan como filtros que atenúan a amplifican determinadas componentes espectrales, dependiendo de las frecuencias de resonancia. La conformación de labios, faringe, cavidad oral, fosas nasales y senos paranasales va a determinar las frecuencias de resonancia de la cavidad oronasal, y su disposición y movimiento va a establecer el timbre y duración de los sonidos emitidos. De este modo, en las cavidades supraglóticas es donde se establece la mayor diversificación acústica y fonética de la voz.

En procesamiento de voz, la producción de la voz es usualmente descrita mediante modelos denominados de excitación-filtrado. De acuerdo con éstos, la voz es el resultado de generar en algún punto del aparato fonador un sonido (denominado excitación) que es filtrado en las cavidades supraglóticas. La voz es la señal resultante de aplicar a la señal excitación el filtro que caracteriza a las cavidades supraglóticas, teniendo en cuenta que tanto la excitación como el filtro presentan una evolución temporal.

Existen básicamente tres mecanismos de generación de la excitación. El primero de ellos consiste en la vibración de las cuerdas vocales. Este tipo de excitación se manifiesta en la producción de las vocales (/a/ /e/ /i/ etc.) y de las consonantes sonoras (/m/ /n/ /l/ etc.). Los sonidos producidos con este tipo de excitación se caracterizan por la presencia del tono fundamental. Cuando en algún punto del tracto vocal se produce un estrechamiento, la presión del aire produce un flujo turbulento que genera un sonido con aspecto de ruido estacionario. Este tipo de excitación es característico de los fonemas fricativos (/s/ /f/ /x/ etc.) Finalmente, la excitación se puede producir mediante un cierre del tracto vocal en algún punto seguido de una apertura repentina. Este tipo de excitación produce un pulso de presión breve e intenso, que es característico de las consonantes oclusivas (o plosivas) (/b/ /d/ /g/ /p/ /t/ /k/). Es importante destacar que los mecanismos de producción de excitación no son excluyentes, siendo posible encontrar excitaciones fricativas sonoras (la /s/ sonora, por ejemplo, que aunque no se utiliza en español, está presente en otros idiomas) o plosivas sonoras (/b/ /d/ /g/).

La excitación es filtrada en las cavidades supraglóticas. Debido a las dimensiones del tracto vocal y la velocidad de propagación del sonido en el aire, en la voz aparece en promedio un pico de resonancia por cada kHz. Estos picos son denominados formantes y su posición en el espectro depende de la conformación de la cavidad oronasal, es decir, de la posición de la lengua con respecto a los labios, los dientes y el paladar, la posición del velo del paladar permitiendo o no el acoplamiento de la cavidad nasal, la disposición de los labios, etc.

Análisis de la señal de voz

En la figura 7 se ha representado el espectro de potencia de señales de voz correspondientes a las vocales y a la consonante /s/. En estas gráficas se ha representado en el eje horizontal la frecuencia (en Hz) y en el eje vertical la potencia espectral relativa (en dB). En cada una de las gráficas se ha representado tanto el espectro de potencia como la envolvente espectral. Se han marcado también las frecuencias en las que se encuentran las resonancias del tracto vocal, que corresponden con los picos de la envolvente espectral. Estos picos son los formantes. Puede apreciarse que aparece aproximadamente un formante por cada kHz, y que la disposición de los formantes varía de unas vocales a otras.

En la figura puede apreciarse que el espectro de las vocales presenta una serie de picos uniformemente distribuidos, especialmente claros en bajas frecuencias. Estos picos corresponden a la serie de armónicos asociados al tono fundamental y se observan en el caso de los fonemas sonoros (consonantes sonoras y vocales) debido a la vibración periódica de las cuerdas vocales. En el caso de fonemas sordos (como la /s/) no tiene lugar la vibración de las cuerdas vocales y la serie de armónicos asociada al tono fundamental no aparece.

Es importante destacar que la distribución de energía en el espectro proporciona dos tipos de información. Por una parte, la estructura gruesa del espectro, es decir, la envolvente espectral,  proporciona información con respecto al fonema pronunciado, a través de la posición de los formantes. Por otra parte, la estructura fina del espectro contiene información relativa a la presencia o ausencia del tono fundamental y la frecuencia de éste. En el caso de las vocales, la frecuencia de los dos primeros formantes permite su discriminación, tal y como se representa en la figura 8.

El mecanismo de percepción del oído integra información espectral, información sobre la intensidad de cada componente espectral e información relativa a la evolución temporal de estas intensidades. Por esta razón, para el análisis de la señal de audio, suelen ser de gran utilidad los espectrogramas. Los espectrogramas son una representación de la señal que muestra la intensidad espectral evaluada en distintos instantes de tiempo. En el eje horizontal se representa el tiempo y en el eje vertical se representa la frecuencia. La intensidad asociada a cada componente espectral en cada instante de tiempo se representa en el espectrograma asignando a cada punto tiempo-frecuencia un nivel de gris o un color de acuerdo con un mapa de colores. De este modo, el espectrograma permite analizar la evolución en el tiempo de la intensidad en las distintas componentes espectrales. De este modo se pueden localizar los formantes, identificar los fonemas y sus características espectrales o temporales.

La figura 9 muestra el espectrograma de una señal de voz correspondiente a la frase "voy a comprar pan". Se han etiquetado además los distintos fonemas para facilitar su análisis. Debido a los parámetros utilizados para generar el espectrograma, el tono fundamental se puede resolver en el eje de tiempo, de modo que durante la pronunciación de los fonemas sonoros, se aprecian variaciones rápidas de la intensidad en el tiempo (tal y como se representarían en las terminaciones nerviosas de acuerdo con el principio de codificación temporal antes explicado). Los instantes de más intensidad corresponden con los pulsos glotales asociados a la vibración de las cuerdas vocales. Puede apreciarse que antes de la pronunciación del fonema /b/ aparece una nasalización con vibración de cuerdas vocales (una /m/). Durante la pronunciación del triptongo /oia/ se observa la evolución de los 3 primeros formantes, cuya frecuencia es bastante parecida a la observada en las figuras 7 y 8. Las consonantes oclusivas sordas (la /k/ y las dos /p/) se caracterizan por el silencio durante la oclusión previa a la plosión, seguida por un pico de energía bastante breve. La vibración de la lengua en la /R/, vibrante múltiple, de frecuencia mucho menor que la vibración de las cuerdas vocales, también se puede observar. En la figura 10 se muestra un detalle del triptongo /oia/. En esta figura se aprecian con más claridad los pulsos glotales y los formantes. Puede apreciarse también que en una frase pronunciada de forma natural, los formantes no toman posiciones fijas, sino que varían de forma continua en el tiempo (ya que el cambio de disposición de los órganos en el tracto vocal se realiza de forma continua y no de forma instantánea). Este efecto de modificación de los fonemas debido a los fonemas anteriores y posteriores (con respecto a sus ejecuciones ideales si fueran pronunciados de forma aislada) se denomina coarticulación.

Clasificación: 1.8 (26 votos)
Está prohibido copiar este artículo. Artículo.org no permite la sindicación de sus artículos.
Acerca del autor

www.rofimo.com

¿Tiene comentarios o preguntas para el autor?
Artículos recomendados
Vuelve a caminar con la cirugía de cadera
Escrito por mriojas, Añadido: 30 de Nov, 2010
La nueva cirugía de cadera te puede permitir caminar  con la ayuda de muletas el mismo día de la operación y claro con el tiempo podrás caminar sin la ayuda de las muletas. Esta es una de las maneras en las que la medicina en México nos va demostrando cómo avanza y cómo va mejorando para beneficio de todas...
veces visto 2459 Veces vista:   comentarios 1 Comentarios
Enfermedades de la columna vertebral y estres.
Escrito por anaverna, Añadido: 01 de Oct, 2011
En el artículo anterior hablaba del estrés y de los problemas que ocasiona sobre la columna vertebral. Recién he leído que  la revista The lancet, ha presentado  un nuevo sistema. Han elaborado una guía que permitiría clasificar las discapacidades presentes o futuras a través de un cuestionario. Con...
veces visto 8674 Veces vista:   comentarios 0 Comentarios
Ceguera y sordera, ¿incompatibles?
Escrito por contenidosiete, Añadido: 13 de Nov, 2014
  ¿Cuál es el colmo de una persona ciega? No, no es un chiste, lo estoy preguntando en serio. ¿Cuál es? Pues es tener la mala suerte de, encima, desarrollar sordera con la edad. Mi abuelo se quedó ciego a los cuarenta y cinco años por culpa de su trabajo de soldador y, desde entonces,
veces visto 5072 Veces vista:   comentarios 0 Comentarios
Ergonomía e implante coclear en niños
Escrito por rofimo, Añadido: 30 de Ago, 2011
Hoy en casa de la abuela de Manuel hemos visto algunas fotos y en ésta , observé que no tenía colocado el audífono del implante;después recordé que mi hijo no lo había llevado hasta aproximadamente los tres años, colocado en la oreja, os explico:Cuando Manuel recibe el implante es un bebé de diez meses ,...
veces visto 1168 Veces vista:   comentarios 0 Comentarios
Qué son las plataformas salvaescaleras y qué ventajas plantean como alternativa a otras soluciones
Escrito por naty321, Añadido: 12 de Jul, 2017
Hoy por hoy las esclareas están por todas partes, no solo en los diferentes tipos de edificios públicos y bloques de pisos sino también en la mayoría de las viviendas particulares. Es así y es que las escaleras nos rodean y ante el más pequeño desnivel para una persona en silla de ruedas pued
veces visto 3329 Veces vista:   comentarios 0 Comentarios