D.G. Malham, University of York, England, 1998.

SPATIAL HEARING MECHANISMS and SOUND REPRODUCTION

(Original disponible en http://www.york.ac.uk/inst/mustech/mtg.htm)

Traducción de Oscar Pablo Di Liscia, para su uso en las cátedras de Computación Aplicada a la Música II y III, Universidad Nacional de Quilmes.

MECANISMOS DE AUDICIÓN ESPACIAL Y REPRODUCCIÓN DE SONIDO

Existen varios indicios diferentes que la combinación oído-cerebro usa para determinar la posición de una fuente de sonido. A pesar de que puede haber otros, más sutiles mecanismos, estos serán los que principalmente trataremos, de la misma manera que los ingenieros de grabación lo hacen:

  1. El tiempo de llegada del frente de onda de un evento sonoro a los oídos o, más específicamente, la diferencia entre los tiempos de llegada entre los dos oídos. El frente de onda de una fuente de sonido en cualquier punto de una línea desde directamente al frente, a través de directamente arriba hasta directamente atrás (del plano medio), llegará a los dos oídos simultáneamente. Al mover la fuente fuera de ésta línea uno de los oídos recibirá el frente de onda antes que el otro. Esto se conoce con el nombre de Diferencia Interaural de Tiempo (ITD) (1) . Este efecto es útil hasta una frecuencia en la que la longitud de onda del sonido se aproxima al doble de la distancia entre los dos oídos. A partir de allí, sólo provee indicios ambiguos.
  2. El sonido de una fuente hacia la izquierda de la cabeza, por ejemplo, llegará directamente al oído izquierdo, pero tendrá que viajar "a través" (!) de la cabeza -en realidad, es difractado alrededor- para alcanzar al oído derecho y tendrá también que viajar más. Será, entonces, más bajo en el oído derecho que en el izquierdo (ILD) (2) , como resultado, tanto del efecto de pantalla de la cabeza, como -en una menor medida- debido a la distancia extra que recorre.
  3. La forma de la cabeza y los oídos externos producen una respuesta dependiente de la frecuencia que varía de acuerdo con la posición del sonido. Esto se conoce con el nombre de Funciones de Transferencia Relativas a la Cabeza, o HRTF (3). Para posiciones en las que los ITDs o ILDs proveen diferencias ambiguas o inexistentes entre las señales de los oídos (como las señales del plano medio), este es el principal mecanismo sensor de posición. Para una fuente de sonido ubicada no-simétricamente con respecto a los dos oídos dará lugar luego a una diferente respuesta en cada oído.
  4. Nuestra habilidad para cambiar la posición de nuestra cabeza en una manera tal que minimizamos el ITD, ILD y la diferencia entre las HRTFs de los dos oídos. Este es, o debiera ser, el punto en el que estamos directamente enfrentando a la fuente de sonido.

De éstos mecanismos, los mezcladores analógicos pueden usar sólo uno para producir posicionamiento de sonido CONTROLABLE en sistemas de parlantes. Ese es la diferencia de nivel. Afortunadamente, la combinación cerebro-oído es muy democrática, y toma en cuenta la opinión de cualquiera de los mecanismos direccionales que está produciendo el resultado más plausible.

Esto es lo que nos habilita (con ciertas limitaciones) a usar dos parlantes para producir una imagen sonora con dirección percibida controlable simplemente alimentando con mayor cantidad de señal un parlante que el otro. Esto es, por supuesto, lo que hacemos cuando "paneamos" (4) sonido a lo largo de una imagen stereo. Este sistema se llama Panorámico de Intensidad (5) y las imágenes sonoras así creadas entre los parlantes se conocen como imágenes fantasmas. Una diferencia de alrededor de 15 dB en una disposición stereo de parlantes moverá la posición aparente del sonido hacia el parlante más fuerte.

Hay limitaciones, principalmente en la posición del oyente, que debe posicionarse de manera tal que la separación angular entre los parlantes sea cerca de 60 grados para un mejor efecto. Si es un poco más ancha, se tiende a tener un "agujero" en el medio de la imagen en la que, por mencionar una sola cosa, el sonido cae en intensidad. A pesar de que esto se puede compensar, existe un problema mucho más serio. Este es el desarrollo de inestabilidades en la posición percibida de la imagen sonora, que resultan progresivamente más extremas en la medida en que el ángulo se incrementa. Más allás de una separación de 90 grados, las imágenes centrales resultan virtualmente imposibles de mantener.

Aun en los 60 grados óptimos, a menos que el oyente esté ubicado en el centro entre los dos parlantes, la imagen tiende hacia el parlante más cercano. Esto es el resultado de la diferencia entre los retrasos temporales entre las dos trayectorias sonoras, que actúan como si fueran un ITD. Más todavía, aun para oyentes en el "asiento stereo" central, la posición aparente de los sonidos varía con la frecuencia hasta el punto en que las imágenes sonoras de alta frecuencia (arriba de, digamos, 3000 Hz) cerca del centro tienden a ser 1.6 a 2 veces más anchas que las de las bajas frecuencias.

Más allá de éstas advertencias, es posible conseguir resultados altamente satisfactorios con sistemas simples si se toman las precauciones adecuadas. Sin embargo, destacan el hecho de que aun luego de sesenta años de investigación -las primeras patentes stereo datan de los años 30- hay todavía muchas incógnitas y queda mucho trabajo por hacer.

Producción de imágenes stéreo

Es evidente por lo antedicho que podemos producir imágenes stereo tomando la salida de nuestros micrófonos y alimentando diferentes montos en los canales derecho e izquierdo. Esto se hace una y otra vez en grabaciones con múltiples micrófonos y en el trabajo que hacemos en la música electroacústica. En muchos, si no en la mayoría de los casos, la ventaja de tener tan considerable grado de control sobre la imagen desbalancea a la desventaja de la falta de profundidad en la imagen que resulta usualmente de la innaturalidad de la grabación con micrófonos múltiples.

Hay, sin embargo, un número de técnicas simples que pueden mejorar esta falta de naturalidad, provistos de el hecho de que los eventos que tratamos de grabar son acústicamente satisfactorios. Estas involucran el uso de pares de micrófonos, uno alimentando el canal izquierdo, otro el derecho. Los americanos favorecen el uso de micrófonos omnidireccionales separados. Si están separados unos pocos pies hay tanto diferencias de tiempo como de amplitud entre las dos señales. Esta disposición produce un resultado muy (¡quizá demasiado!) espacioso y abierto.

Más común en éste país es la así llamada técnica del par coincidente. En ésta se usa un par cruzado de micrófonos direccionales -usualmente cardioides-, con sus cápsulas ubicadas tan cerca como sea posible. Con micrófonos cardioides, el ángulo entre ellos debe ser de cerca de 100 grados, pero esto varía dependiendo del tamaño del conjunto.

Una ligera variación de esto es separar las cápsulas 2 o 3 cms. Esto retiene mucho de la precisión de imagen de éste método mientras que gana algo de la cualidad de espacialidad (¡Pero no mucho!) del sistema omni espacial.

El hecho de que existan estas diferencias generales de concepción entre las grabaciones Británicas y las Americanas es el resultado de diferencias históricas en los propósitos de los equipos de investigación en los dos países que desarrollaron las técnicas stereo originales durante los años 30.

En Inglaterra, el equipo de Alan Blumlein estaba más interesado en proveer buenas imágenes stereo en un ambiente doméstico, con tanta impresión de "estar allí" como fuera posible. Entonces, ellos trataron mayormente con una situación en la que habría solamente un pequeño grupo de oyentes que podrían apiñarse juntos dentro o alrededor del "asiento stereo". En éste caso, un par de micrófonos coincidentes cruzados se pueden usar para crear material material "paneado" (6) en dos canales que alimentarán a dos parlantes. Los micrófonos que usaron eran del tipo de figura en ocho, cruzados a 90° de forma tal que, en la medida en que el sonido cruzaba el escenario al frente del par de micrófonos, el nivel proveniente de uno de los micrófonos decrecía mientras que el nivel del otro crecía. Este arreglo da un sonido muy natural, a pesar de que el escenario del frente no es tan ancho en los parlantes como en la vida real (distorsión angular), y el sonido es más reverberante ya que los sonidos de atrás de los micrófonos es recolectado con la misma intensidad, pero es ubicado en la imagen frontal que produce el par de parlantes. Esta es la razón por la que, en la mayoría de los casos de uso más moderno de ésta técnica de par coincidente, se usan micrófonos con diseño cardioide polar para reducir la recolección trasera.

El equipo de Bell Labs en USA estaba mucho más preocupado en proveer stereo para grandes audiencias, e.g.: para sonido de cine ( pesar de que la patente original de Blumlein menciona al sonido de cine con frecuencia). Como tal, muchos oyentes no estarían en el asiento stéreo ideal y habría un problema considerable con el "agujero en el medio", especialmente porque desde allí es desde donde se espera que el diálogo provenga. De acuerdo con esto, trabajaron con tres canales (el canal central en el cine es todavía llamado "canal del diálogo"), alimentando a tres parlantes. Los canales eran derivados, o bien de micrófonos espaciados ampliamente (a menudo llamados "cortina de micrófonos"), o vía panorámicos de amplitud bastante complejos. A pesar de que ésta aproximación no rinde tan buen resultado como el stereo de Blumlein en una situación doméstica, funciona muy bien en el área para la cual fue diseñada.

 AMBISONIC

Es una manera de grabar la información de un campo sonoro y reproducirla a través de un diseño de parlantes, de manera tal de producir la impresión de estar escuchando una verdadera imagen sonora tridimensional. Digo deliberadamente "impresión" para destacar el hecho de que, si realmente queremos reproducir el campo sonoro presente en una esfera de, digamos, dos metros hasta 20 KHz, entonces podríamos argumentar que, de acuerdo con la teoría de la información, necesitaríamos muchos, muchos canales y parlantes. ¡Una estimación del número ha crecido hasta 400000 hasta ahora...! En la práctica lo que realmente se puede hacer es determinar cuánta información podemos capturar con una combinación de micrófonos y encontrar una manera de usar esa información para predisponer al oído a percibir el campo sonoro completo.

Los intentos de proveer información direccional en imagenes sonoras artificialmente reproducidas comenzaron en los fines del S.XIX cuando la transmisión de un concierto se hizo en Francia usando varios teléfonos ubicados en el frente del escenario, transmitiéndose a través de cables a la misma cantidad de receptores telefónicos. La calidad, por supuesto, fué pobre, pero indudablemente se obtuvo una impresión de dirección.

Entre los años 20 y 30 Alan Blumlein en Inglaterra y RCA en USA desarrollaron una base más formal para la reproducción direccional de sonido. Las técnicas que desarrollaron fueron para sistemas que usaban sólo un pequeño número de canales de información para ser reproducida en un par de parlantes.

La técnica que desarrolló Alan Blumlein consistía en un par de micrófonos con características de "figura en ocho", montados tan cerca como fuera posible y con el lóbulo frontal de uno de ellos apuntando 45 grados a la izquierda de la línea frente-atrás y el lóbulo frontal del otro apuntando a 45 grados de la derecha. A pesar de que esto proveía excelente imagen stereo, tenía un problema. A causa de las características de la "figura en ocho" los sonidos que provenían de atrás eran también registrados y, al ser reproducidos en un par de parlantes se fundían con los del frente. Esto producía una sonoridad demasiado reverberante para muchos oyentes.

Los ingenieros de grabación "puristas" que gustaban de la simplicidad y precisión de la técnica de Blumlein, la modificaron para solucionar éste inconveniente. Al reemplazar los micrófonos "figura en ocho" con micrófonos cardioides y cambiar el ángulo entre ellos de manera de incluir sólo el escenario deseado, es posible aprovechar la falta de espuesta de los cardioides a los sonidos de atrás para reducir la coincidencia de sonidos reverberantes de atrás con los del frente. Esto produce una imagen sonora mucho más aceptable, si bien menos precisa. (En la práctica, el ángulo entre los micrófonos no debe ser mayor que 120 o menor que 60 grados).

Sin embargo, parece ser una lástima descartar ésta información cuando la que ya tenemos es insuficiente. La técnica de la "cabeza de muñeco" se puede emplear para utilizar ésta información perdida, aunque sólo para audición a través de auriculares. (a pesar de que se ha trabajado mucho y se debe seguir trabajando para lograr mejores resultados en reproducción binaural con parlantes, todavía quedan problemas por resolver). Usando alguna forma de analogía de la cabeza humana con micrófonos grabando en donde los oídos debieran estar y luego reproduciéndo éstas señales con auriculares se pueden obtener muy buenos resultados con sonidos provenientes de todas las direcciones, no sólo del frente. Desafortunadamente los mejores resultados con las imágenes más estables provienen de la cabeza artificial que coincide mejor con la del oyente. Sin embargo, cuanto más coincide la cabeza artificial con la de un oyente, peores resultados pueden obtenerse con otros. Aun si se intenta generar una especie de "cabeza promedio", se puede fallar. Un conjunto de grabaciones que escuché unos años atrás, hechas usando una cabeza basada en meticulosas mediciones de todos los colegas y estudiantes de un investigador europeo continental durante varios años, dieron resultados absolutamente precisos y estables, excepto por el hecho de que, para mí y otras personas británicas que las escuchamos, las direcciones del frente y atrás estaban traspuestas. La aproximación de la BBC, en la que la cabeza es sólo de acrílico con micrófonos ubicados a unos pocos centímetros de cada lado da resultados más universalmente aceptables, al costo de una verdadera precisión.

Ambisonic, por otra parte, vuelve a las ideas originales de Alan Blumlein y contruye sobre éstas. Sólo añadiendo un micrófono omnidireccional al par de unidades de "figura en ocho" se puede demostrar que se puede capturar TODA la información que es posible, con tan simples micrófonos de bajo orden, para capturar el campo sonoro horizontal en ése punto. Se asume, por supuesto, que las cápsulas se ordenaron de manera VERDADERAMENTE coincidente, esto es, que las tres cápsulas están acústicamente en el mismo lugar del campo sonoro exactamente. Esta imposibilidad se torna aun más difícil cuando se agrega una cápsula de figura en ocho orientada arriba-abajo para grabar información de altitud también. Este problema se ha superado en el micrófono Soundfield, que usa cuatro pequeñas cápsulas situadas en la superficie de una esfera teórica para muestrear los sonidos de entrada. Con alguna matemática astuta es posible generar las señales que hubieran sido producidas por nuestras cuatro cápsulas realmente coincidentes -al menos hasta una frecuencia razonablemente amplia. (Se debe destacar que en Ambisonic las unidades de figura en ocho horizontales están montadas adelante-atrás y lado-a-lado en vez de a 45 grados)

Al tener la información grabada de ésta manera, la tarea de producir la ilusión debe realizarse. Esta está completamente separada de la tarea de capturar la información en el primer lugar y se basa en una amalgama de varias teorías de audición que cubren mecanismos en frecuencias bajas (abajo de 700 Hz) y altas. El decodificador debe ser ajustable para diferentes disposiciones de parlantes.

Debe formularse la pregunta: ¿En qué difiere esta concepción a la de los sistemas Cuadrafónicos? Los sistemas cuadrafónicos están basados en una teoría muy simple. Si los sistemas de sonido monofónico pueden ser concebidos como un agujero en la pared de una sala de conciertos y los sistemas de sonido estéreofónico como dos agujeros, y son mejores, entonces cuatro agujeros DEBEN ser aun mejores. Desafortunadamente esto es sencillamente falso, ya que la información extra que llevan es parcialmente redundante y causa una confusión e inestabilidad considerables en las imágenes percibidas, particularmente a los costados.

Extensas pruebas de audición a lo largo de muchos años demuestran que las grabaciones Ambisonic son, al menos, tan buenas que cualquier otra forma de grabación al capturar imágenes sonoras y mucho mejor que la mayoría, pero ¿Cuáles son sus aplicaciones en la música electroacústica? Para entender esto necesitamos tratar alguna teoría básica sobre Ambisonic.

 TECNOLOGÍA BÁSICA AMBISONIC

El sistema de sonido Ambisonic es esencialmente una solución tecnológica en dos partes al problema de codificar direcciones (y amplitudes) del sonido y reproducirlas con sistemas prácticos de parlantes de manera tal de engañar los oídos de los oyentes para que crean que están escuchando los sonidos originales correctamente ubicados. Esto puede tener lugar a lo largo de un escenario horizontal de 360 grados (sistemas "pantofónicos") o a lo largo de una esfera completa (sistemas "perifónicos"). Los sistemas que usan las llamadas señales de formato "B" para transportar la información grabada requieren tres y cuatro canales respectivamente para una codificación completa de los sonidos hasta la precisión que se puede obtener con micrófonos de primer orden (cardioides, figura en 8, etc.). La reproducción requiere cuatro parlantes o más, dependiendo de si es pantofónico, perifónico, el tamaño del área, etc. Los mínimos prácticos son cuatro para horizontal sólo, ocho si se requiere altitud también. Lo importante para destacar es que no hay necesidad de considerar los detalles reales del sistema de reproducción cuando se hace una grabación o síntesis ya que, si se siguen las especificaciones del formato B y se usan los correctos parlantes y decodificadores, todo saldrá bien. Las dos partes del sistema -codificación y decodificación- están, respecto de todos los otros aspectos, completamente separadas.

ECUACIONES DE CODIFICACIÓN

La posición de un sonido dentro de un campo sonoro de tres dimensiones se codifica en las cuatro señales que integran el formato B, entonces:

X = cosA.cosB (frente-atrás)

Y = sinA.cosB (izquierda-derecha)

Z = sinB (arriba-abajo)

W = 0.707 (señal de presión)

En donde A es el ángulo horizontal(medido al revés del movimiento de las agujas del reloj) desde el centro, frente y B es el ángulo de la elevación. Si se limita la posición de los sonidos a una esfera-unidad, asegurándose de que:

(x² + y² + z²)

sea siempre menor o equivalente a 1, entonces las ecuaciones se pueden escribir más simplemente como:

X = x

Y = y

Z = z

W = 0.707

en donde x,y,z son las coordinadas (rectangulares) de la fuente de sonido. El valor de W se da como .707 en vez de 1 porque esto permite una distribución más pareja del nivel en los cuatro canales. Se debe adherir a esta convención, dado que los diseños de los decodificadores están basados en ella. Hay una trampa en esta simplicidad, sin embargo, ya que si se intenta ubicar un sonido afuera de la superficie de la esfera-unidad teórica y hacia adentro en dirección al centro, los niveles decrecientes de los canales X,Y,Z reducirán el nivel total del sonido, en vez de incrementarlo como se esperaría, dado que la fuente sonora se mueve acercándose al centro.

Una solución a esto, que mantendrá el nivel total constante bastante bien, es hacer que W varíe así:

W = 1 - 0.293(x² + y² + z²)

Se pueden realizar modificaciones posteriores para permitir que un incremento global en la medida en que el sonido se mueve hacia el centro se escuche de manera más similar a la realidad.

CODIFICACION DE UN SONIDO MONOFONICO EN FORMATO AMBISONIC

Ya que los diseños del decodificador dicen trabajar sobre la base de que los sonidos que se posicionan en Ambisonic formato B están ubicados en la superficie o dentro de una esfera-unidad teórica, el máximo radio en el que un sonido puede ser ubicado puede ser pensado como 1 -esto es frecuentemente llamado "Esfera-unidad". Si el sonido se mueve hacia fuera de ésta esfera, la información direccional no se decodificará correctamente y los sonidos tenderán a "tirar" hacia el parlante más cercano.

Inicialmente todas las transformaciones ubicarán a los sonidos en la superficie de la esfera-unidad. Si una señal monofónica se debe ubicar en la superficie de la esfera-unidad, entonces sus coordenadas rectangulares (7) con referencia al centro frente, serán:

x = Cos A * Cos B

y = Sin A * Cos B

z = Sin B

Estas coordenadas se relacionan directamente con los niveles de la señal del formato B, entonces;

X = input signal * Cos A * Cos B

Y = input signal * Sin A * Cos B

Z = input signal * Sin B

W = input signal * 0.707

El escalar 0.707 en W se encuentra como resultado de consideraciones de ingenieros que se relacionan con la obtención de niveles más parejos de la señal en los cuatro canales cuando se toma sonido en vivo con el micrófono Soundfield. "A" es el ángulo antihorario de rotación desde el centro, y "B" es el ángulo de elevación del plano horizontal. Estos coeficientes de multiplicación (Cos A*Cos B, etc.) posicionarán el sonido en cualquier punto de la superficie del campo sonoro, al producir señales de salida codificadas en formato B. Estas señales son equivalentes a tres micrófonos de figura en ocho en ángulos rectos cada uno respecto del otro, junto con una unidad omnidireccional, todos ellos siendo coincidentes efectivamente dentro del rango de frecuencia de interés.

 MANIPULACIONES DEL CAMPO SONORO

Definición del sistema de coordenadas para manipulación del campo sonoro en formato B.

Si una señal en formato B debe transformada, por ejemplo rotada e inclinada, entonces deben ser escalados los cuatro canales de la señal con los coeficientes correctos. Las siguientes definiciones estándar están hechas en base a la manera en que el sonido se mueve hacia una nueva posición. Se proveen para mantener las ecuaciones coeherentes y minimizar confusiones que pueden surgir fácilmente. Por favor, mantenga éstas convenciones cuando discuta o use tecnología Ambisonic.

La figura 1 muestra la representación gráfica de esto, en la que A=ángulo de rotación, y B=ángulo de elevación.

ROTACION DE UN PUNTO EN EL EJE Z

Si A es el ángulo positivo de rotación y C es el ángulo entre el eje X y la posición sin transformar (x,y), tenemos:

x = r*cos C , y = r*sin C

x' = r*cos (A+C) , y'= r*sin (A+C)

simplificando;

x' = r*cos C * cos A - r*sin C * sin A

y' = r*cos C * sin A + r*sin C * cos A

y substituyendo para x e y

x' = x * cos A - y * sin A y' = x * sin A + y * cos A

"w" y "z" permanecen invariantes ya que la rotación es en el eje Z, para puntos en la superficie de la esfera-unidad W= 0.707. Si el mismo procedimiento se aplica a las ecuaciones de inclinación y rotación, esto da lo siguiente:

INCLINACIÓN.

x' = x

w' = w

y' = y * cos B - z * sin B

z' = y * sin B + z * cos B

 

CAÍDA.

x' = x * cos B - z * sin B

w' = w

y' = y

z' = x * sin B + z * cos B

Estas ecuaciones se pueden ahora combinar para realizar transformaciones como rotación-inclinación, que dan una rotación angular de todo el campo sonoro de entrada hacia la izquierda por un ángulo de A desde el frente-centro. Entonces inclina el campo sonoro de formato B por un ángulo B desde el horizontal.

ROTACIÓN-INCLINACIÓN.

x' = x * cos A - y * sin A

w' = w

y' = x * sin A * cos B + y * cos A * cos B - z * sin B

z' = x * sin A * sin B + y * cos A * sin B + z * cos B

Cualquier combinación de las muchas posibles manipulaciones del campo sonoro puede realizarse al usar una matriz de coeficientes de escalamiento entonces;

X' = K1.X + K2.W + K3.Y + K4.Z

W' = K5.X + K6.W + K7.Y + K8.Z

Y' = K9.X + K10.W + K11.Y + K12.Z

Z' = K13.X + K14.W + K15.Y + K16.Z

en donde K1 - K16 son coeficientes de escalamiento formados por las manipulaciones del campo sonoro aplicadas a las señales entrantes (X, W, Y, y Z). X', W', Y' y Z' son las señales de salida resultantes, de formato B.

Hasta ahora, hemos discutido sólo sobre sonidos codificados "en la superficie de la Esfera Unidad". Esta convención, algo contable-intuitiva, fue impuesta en nosotros por la tecnología (analógica) que estaba disponible para uso (práctico) cuando Ambisonic se desarrolló inicialmente. Mientras que el micrófono Soundfield (que imita la combinación ideal de tres micrófonos de figura en ocho realmente coincidentes, más uno omnidireccional) preserva los indicios de distancia en una acústica natural, si la posición de una fuente de sonido se construye artificialmente usando tecnología analógica es muy difícil lograr más que la señal se vuelva gradualmente más y más difusa en la medida en que se mueve hacia fuera de la superficie de la esfera-unidad y hacia el oyente. Esto es a causa de que, con los panorámicos Ambisonics analógicos convencionales, la señal omnidireccional (W) crece en la medida en que la fuente de sonido se aproxima hacia el centro para compensar una correspondiente caída de nivel de las señales direccionales (X, Y, Z). Como resultado, la imagen se vuelve más y más difusa en la medida en que el sonido se mueve hacia el centro. En contraste con esto, los niveles de todos éstos cuatro componentes se incrementan como si una fuente sonora real se aproximara al micrófono Soundfield hasta que, al momento del máximo acercamiento, los componentes direccionales relevantes experimentan una inversión rápida de fase (o, más precisamente, de polaridad), luego de lo que todos los componentes comienzan a reducirse otra vez en la medida en que la fuente se mueve, alejándose en la dirección opuesta al micrófono (fig 2). La optimización de la ley precisa que debieran seguir las curvas de amplitud para corresponder a los efectos subjetivos sigue investigándose. Sin embargo, es importante advertir que la distancia de una fuente acústica percibida es sólo débilmente dependiente de su intensidad. Los experimentos en cámaras anecoicas han mostrado errores de más de dos a uno en sujetos interrogados sobre la distancia de una fuente de sonido. De hecho, los indicios que usamos para juzgar la distancia son significativamente más complejos. Estos incluyen:

Las dos últimas son fuertemente dependientes en el conocimiento que hemos adquirido acerca de, tanto el espectro, como la intensidad de la fuente sonora. Para una composición electroacústica, en la que los sonidos bien pueden no mantener ninguna relación con aquellos a los que el oyente está habituado, esto plantea problemas o oportunidades interesantes, en tanto estos indicios se usan por sí mismos.

Figura 2.

 

AMBISONIC Y STEREO

Las señales de formato B no son, por supuesto, compatibles stereo en ningún sentido. Sin embargo es posible combinar los tres (X, W, Y) componentes que se requieren para el trabajo horizontal en una manera en la que no sólo se produce un buen sistema stereo compatible sino que también, con un adecuado decodificador, mucho de la imagen original puede ser recobrado. El campo (horizontal) resultante no es perfecto, pero con un cuidadoso diseño de la ecuación de codificación es posible ubicar los defectos en áreas como la imagen trasera en donde el oído es menos susceptible.

Este método de codificación, que se llama UHJ, se usa para producir grabaciones, cintas y emisiones radiales stereo compatibles Ambisonic. Las señales X,Y y W son codificadas en dos canales usando la siguiente transformada:

Izquierda = (0.0928 + 0.255j)X + (0.4699 - 0.171j)W + (0.3277)Y

Derecha= (0.0928 - 0.255j)X + (0.4699 + 0.171j)W - (0.3277)Y

Esto parecería relativamente simple, si no fuera por la "j" en la ecuación. Lo que esto indica es que ésa señal en particular es corrida de fase por noventa grados, a lo largo de la banda completa de audio, con respecto de su versión "normal". Para hacer esto, cada una de las tres señales debe pasar a través de su propio par de dispositivos de corrimiento de fase (o All-pass) de banda ancha. Dentro de cada par, la salida de uno debe ser dispuesta de manera tal que tiene un corrimiento de fase que difiere en noventa grados con respecto de la salida del otro miembro del par a todas las frecuencias de audio. Esto dará el corrimiento de fase de noventa grados. Los codificadores existentes hacen esto con circuitería analógica, pero es enteramente posible escribir un programa de computadora para hacer esto, o para implementar las ecuaciones para los filtros que se requieran en un procesador de señal digital.

Estos miembros de dos canales de la familia de los codificadores UHJ se pueden complementar con un tercer canal, para remover las anomalías restantes en la reproducción horizontal. Este puede ser de banda reducida sin degradar las cosas mucho, en el caso en que fuera necesario por razones operativas -por ejemplo si es para transmitir usando modulación de sub-portadora o un transmisor de FM. Se podría agregar un cuarto canal para proveer información de altura. Las ecuaciones de decodificación son tales que un decodificador para cualquiera de los niveles extraerá siempre la información correcta de las entradas de alto nivel -en otras palabras, el sistema es compatible hacia arriba.

La mejor referencia para UHJ es el artículo de Michael Gerzon "Ambisonic in Multichannel Broadcasting and Video" en el "Journal of the Audio Engineering Society", Vol.33 No.11, Noviembre, 1985 pp859-871. Para hacer las ecuaciones más simples, las expone en forma de señales de suma y diferencia, en vez de señales de izquierda y derecha, pero no se engañe por eso.

Nótese que las ecuaciones originales publicadas en las patentes tenían un factor de (0.3225 +- 0.00855j)Y en vez del de (0.3277)Y citado aquí, que son como las publicadas en el artículo de 1985 de Michael Gerzon. De acuerdo con un email de Geoffrey Barton a la lista de correo de surrsound:

 

"La fórmula (en las patentes - DM) es errónea. Cambiamos el enfoque ligeramente antes de 1980 para remover el término "j" en "Y", ahorando así una sección de corrimiento de fase y cerca del 25% por ciento del costo de los componentes en un codificador. Todos los codificadores disponibles comercialmente (incluyendo las unidades de Audio+Design) usaron la versión modificada, todos los decodificadores Minim y Meridian están diseñados para ésta versión."

NOTAS

1)Interaural Time Difference, en el original, la abreviatura (ITD) se conserva en inglés por razones de uso corriente. (N. Del T.)

2) Interaural Loudness Difference, aunque Malham no lo menciona explícitamente, la abreviatura (ITL) está incluída por mí, para clarificar, y se conserva en inglés por razones de uso corriente. (N. Del T.)

3) Head Related Transfer Functions, en el original, la abreviatura (HRTF) se conserva en inglés por razones de uso corriente. (N. Del T.)

4) Aunque no existe en castellano, la expresión "paneo" es usada corrientemente. (N. Del T.)

5)Intensity panning, en el original. (N. Del T.)

6) Aunque no existe en castellano, la expresión "paneo" es usada corrientemente. (N. Del T.)

7)La palabra "rectangulares" fue agregada por mí, para clarificar. (N. Del T.)