Implementación y análisis de un sistema ambiofónico

FIG5A

El método ambiofónico pretende ser el sucesor del sistema estéreo y 5.1 basándose en estudios psicoacústicos según los cuales ciertos fenómenos en los sistemas de reproducción de audio evitan la claridad de las imágenes sonoras restringiendo el rango horizontal y la profundidad de los campos sonoros.

El método emplea una técnica de grabación, procesamiento por DSP y una configuración, distintas al triángulo equilátero estéreo, para lograr un campo sonoro real de 160° respecto al oyente. El sistema es de difícil adaptación, su sweet spot es pequeño, pero la percepción lograda es superior al estéreo. Se generó una versión en Simulink del procesador RACE, la cual por defectos de fase no logró resultados óptimos, sin embargo alcanza una perspectiva sonora mejor que la inicial para señales de audio de dos canales.

 INTRODUCCIÓN

Teorías recientes sobre el comportamiento del oído y las variaciones que padece una señal en el proceso de interpretación auditiva, han llevado a cuestionar la efectividad de los sistemas estéreo.

En dichos estudios se ha evaluado diferentes aspectos desde una nueva perspectiva tales como el comportamiento del Pinna (oído externo), la relación interaural, el método de función de transferencia relacionado a la cabeza (en inglés HRTF) y las características que afectan el comportamiento de estos en un recinto y en la geometría existente entre las fuentes sonoras y el oído humano.

El método de ambiofonía nace del análisis y determinación de diversos problemas que generan las configuraciones actuales de reproducción de audio. Aunque se diferencia de sistemas de la misma índole en varios aspectos, el objetivo que busca es el mismo: mejorar la imagen sonora creada por fuentes en un cuarto de reproducción de material auditivo. El método ha llegado a tal punto que sus precursores y principales especialistas afirman que este es el paso que sigue a la estereofonía y que incluso, puede lograr mejores resultados que los sistemas 5.1, con una menor cantidad de altavoces.

Cabe mencionar que, el método de ambiofonía se enfoca principalmente a reproducir la sensación que tiene un espectador en la silla con mejor ubicación en una sala de conciertos, en términos de espacio, naturalidad y localización de fuentes.

Las teorías que sustentan el método son puestas en práctica gracias al procesador de Eliminación Recursiva Ambiofónica de Crosstalk (RACE) el cual se puede programar en un DSP o disponer como un plug-in VST que ajusta determinados factores frente a las diferencias de tiempo e intensidad que existen entre los oídos.

El presente trabajó se realizó con el fin de adaptar y poner a prueba un sistema ambiofónico variando ciertos parámetros y evaluando determinados aspectos, respecto a su facilidad y veracidad.

METODOLOGÍA

A grandes rasgos, el problema principal del estéreo radica en el fenómeno de crosstalk o habla cruzada, es decir, el arribo de una señal de uno de los dos parlantes al oído receptor contrario (parlante izquierdo al oído derecho y parlante derecho al oído izquierdo) y los inconvenientes que se originan por el cruce de las señales percibidas en los dos oídos: compresión del ancho de la fuente en el escenario, picos y frecuencias nulas generadas en el centro por la reproducción simultánea de dos parlantes (Comb filtering) y finalmente, Crosstalk secundario generado por el comportamiento de la cabeza y posterior ilusión de cambio de timbre. (Véase fig. 1) Todo esto, de acuerdo a estudios realizados acerca del comportamiento de los sistemas de reproducción estéreo.1

FIG 1 DIPOLO

FIG 1 STEREOFig. 1. Reproducción ambio y estéreo. Lado izquierdo configuración estéreo, lado derecho configuración ambiofónica. Al reproducir en estéreo y generar imágenes fantasmas (centrales), cada oído recibe dos señales distintas provenientes de cada parlante, por ende, se reciben cuatro presentaciones de una misma señal lo cual altera la composición tonal y la sensación de profundidad para fuentes centrales y centros parciales. La configuración ambiofónica junta los parlantes para reducir el ángulo del crosstalk, empleando un algoritmo de cancelación de múltiples órdenes para eliminar el crosstalk restante y entregar a cada oído una única señal respectiva al parlante.

De acuerdo al Sr. Robin Miller2 denominamos al triángulo equilátero como “parlante-stereo” mientras que al método propuesto por ambiofonía se le denomina “parlante-biaural”.

La disposición espacial de los parlantes en estéreo, produce imágenes fuera de la cabeza que se pueden localizar fácilmente en los extremos izquierdo y derecho y en el centro, no obstante, la localización se dificulta entre estos puntos debido a la falta de claridad y difusión de los mismos. A tal punto que puede existir distorsión armónica en un punto entre el centro y uno de los extremos, para imágenes sonoras en estéreo.

Si se produjese una cancelación efectiva del crosstalk interaural en la cual la fase y tiempo de arribo de una señal a cada oído pudiese ser tratada independientemente, el ángulo de percepción espacial podría llegar a los 180° e incluso a los 360°.

Dicho efecto se puede cancelar con audífonos, ya que se pueden generar diferencias de intensidad y ganancia interaurales a gusto del usuario, lo cual significa que es posible producir imágenes sonoras en 3-D, con una adecuada percepción de distancia frente a las fuentes para los extremos, aunque el problema de los audífonos radica en que para fuentes centrales, los sonidos parecen producirse dentro de la cabeza y no frente al espectador.

La ambiofonía tiene su propia técnica de grabación (ambiófono), procesamiento de señal (La Eliminación Ambiofónica Recursiva de Crosstalk, en inglés RACE) y sistema de reproducción (ambiopolo).

De acuerdo a Keele Jr.: “las grabaciones en estéreo en las cuales se han controlado y reducido las reflexiones tempranas, son realmente capaces de acercarse al comportamiento ideal respecto al espacio”, por lo cual se entiende que algunas técnicas de grabación en estéreo afectan al resultado final especialmente en lo que concierne a la ubicación de fuentes.

Por lo tanto, la grabación ambiofónica se hace por medio de un denominado “ambiófono” el cual consiste en una simulación de una cabeza humana sin oído externo, (el único oído externo en la cadena ambiofónica debe ser el del propio oyente al momento de escuchar el material) con paneles laterales y un panel superior que evitan reflexiones provenientes de las paredes, techo o cualquier superficie del teatro distinta al proscenio o el escenario principal. (Véase Fig 2).

FIG2

Fig. 2. Diseño de ambiófono.

El ambiófono habrá de tener micrófonos bi-aurales en la posición de cada oído y la señal a reproducir posteriormente será la misma capturada por los mismos.

En el caso de usar parlantes auxiliares en ambiofonía, la señal a reproducir será exclusivamente una copia convolucionada de la señal estéreo principal con una respuesta al impulso predeterminada, por lo tanto no habrán grabaciones adicionales distintas a las del ambiófono. El sistema ambiofónico maneja 2, 4 o hasta 6 parlantes, en este último caso, el usuario puede llegar a dominar la sensación de altura de acuerdo a R. Miller3.

La grabación de cada instrumento o sector de instrumentos independientemente no se ejecuta en ambiofonía. Realizarlo adecuadamente implicaría tomar la respuesta al impulso IR de cada instrumento en el punto en el cual está ubicado a partir de una fuente omnidireccional localizada en el lugar del ambiófono, para convolucionar posteriormente dicha respuesta con la señal captada, lo cual es claramente dispendioso y casi inadecuado si se tiene en cuenta que las señales no deben ser modificadas posteriormente, lo cual dificulta un proceso de postproducción del material.

Por lo tanto se diseño un ambiófono para realizar las grabaciones respectivas, en el Auditorio San Francisco de Asís de la Universidad De San Buenaventura. Se ubicaron dos instrumentos en distintas posiciones en el eje horizontal y la profundidad del escenario, para generar todas las situaciones posibles. (Véase Fig 3).

FIG3AFIG3Fig. 3. Ambiófono. La ubicación del ambiófono fue la tercera silla central a partir del escenario.

Una vez grabadas las señales, se tomó como referencia la versión del procesador RACE del software Audiomulch V 2.0 y se generó una copia de RACE de acuerdo a su diagrama de flujo en la herramienta Simulink del programa Matlab con el fin de comparar las dos versiones. (Véase Fig. 4).

figura4Fig. 4. Diagrama de flujo de señal por bloques del procesador de Eliminación Recursiva Ambiofónica de Crosstalk(RACE). Tomado de: Glasgal, Ralph. “360° Localization via 4x. RACE processing”. AES Convention paper 123rd convention. 2007.

En la etapa de reproducción del material, se adecuó el cuarto auxiliar de la sala de post-producción de audio de la Universidad de San Buenaventura. Para ello, se midió el tiempo de reverberación del recinto sin tratamiento a partir de dos puntos más el punto de audición y se llevó a cabo la misma medición después del acondicionamiento, con el fin de hallar las condiciones necesarias para realizar un examen adecuado del material. Las condiciones que debe cumplir la sala de reproducción según el método ambiofónico son: Tiempo de reverberación (RT60) menor a 0.25 seg en todas y cada una de las bandas de frecuencia; ausencia de modos de reverberación, ecos fluctuantes o cualquier tipo de artefacto acústico en el punto de audición.

Para evaluar el resultado se realizó una valoración subjetiva en diez sujetos mayores de 18 años y relacionados laboral o académicamente con el ámbito de la ingeniería de sonido. Con el propósito de evaluar la veracidad del método, de los tipos de DSPs, y de la calidad relativa del material. Se evaluaron además las apreciaciones por Test de Ceoen.

RESULTADOS

El diseño del ambiófono se hizo con el fin de captar un ángulo de 150°. En su parte frontal se adaptó material absorbente con frente irregular. La densidad de la cabeza fue simulada con gelatina sin sabor y bicarbonato de sodio, aunque cabe resaltar que el diseño del ambiofono omite la densidad de la parte trasera de la cabeza que empieza a partir del oído. La inclinación de las superficies evita el arribo directo de reflexiones indeseadas aunque el grosor del material no evita óptimamente el sonido incidente. Véase Fig. 5

FIG5AFIG5Fig. 5 Ambiófono. Las superficies frontales fueron cubiertas con material absorbente mientras que las externas se dejaron planas para que fuesen reflexivas. Los micrófonos a usar deben ser idealmente omnidireccionales. Se tomaron muestras de dos instrumentos en diversas posiciones del escenario para evaluar factores de localización y profundidad respecto al oyente.

El funcionamiento de RACE en Simulink requirió de un fuerte procesamiento ya que por el diseño del diagrama, se deben ejecutar retardos continuos y a muy corto tiempo para generar un “ping-pong delay” que cancele el crosstalk restante, mientras que en Audiomulch, el proceso es en tiempo real y de fácil edición. (Véase gráfica 1).

grafica1Gráfica 1. Eliminación recursiva en diagrama de bloques en Siulink, Matlab. Después de utilizar un unbuffer para dividir las señales L y R, se utiliza un buffer para cada una, de allí se divide la señal a tres filtros pasa altos, pasa bandas y pasa bajos respectivamente de acuerdo al rango de operación de RACE. Se realiza la reducción de ganancia respectiva y se genera un ping-pong delay entre las señales L y R a partir de un número de muestras que pueda cumplir con los retrasos establecidos entre 65 useg y 100 useg según RACE, para el caso se operó bajo un retardo de 3 muestras equivalentes a 68useg. Para terminar el flujo del procesamiento, las salidas de cada filtro llegan a un sumador triple, el cual envía una única señal a una caja de concatenación de matriz donde se encontrará con su señal homóloga del otro canal, y se convertirán en una señal única de nuevo, de aquí sale la señal procesada final. Se pueden hallar dificultades con ciertas versiones de matlab que operan con retardos cuyos valores no alcanzan a cubrir el rango de retardos permitido. Esto se puede ajustar de acuerdo a la configuración de solver para el tiempo de simulación designado al software.

Finalizadas las grabaciones, se adecuó el recinto. De acuerdo a Ralph Glasgal, el RT60 debe ser menor a 0.25 seg en cada banda de frecuencia y la diferencia entre el menor tiempo registrado y el tiempo promedio no debe superar al 25% de este último. Se realizaron mediciones por método de barridos sinusoidales con una fuente omnidireccional (dodecaedro) procesados y analizados en el software Adobe Audition antes y después de un acondicionamiento básico. Dicho tratamiento fue efectivo para el rango de frecuencias en los cuales trabaja RACE (250 HZ-5 KHz), sin embargo, en los rangos restantes el tiempo fue mayor a 0.25 seg aunque el tiempo promedio fue menor. (Véase tabla 1).

Freq. [Hz] 63 125 250 500 1000 2000 4000 8000 Lin A
RT60 [s] 0.79 0.56 0.38 0.24 0.18 0.17 0.12 0.13 0.62 0.22
Freq [Hz] 63 125 250 500 1000 2000 4000 8000 Lin A
RT60 [s] 0.77 0.58 0.37 0.23 0.19 0.16 0.12 0.12 0.57 0.23

Tabla 1. Tiempos de reverberación. RT60 para dos posiciones de medición en la sala de reproducción después de un acondicionamiento básico.

La evaluación subjetiva puso a prueba las grabaciones recolectadas frente a material ambiofónico de libre acceso4 y a las versiones del algoritmo creado por Simulink frente al del software Audiomulch. Además se evalúo un video comparativo entre Estéreo y Ambio realizado por la firma Noach. Además se evaluaron los aspectos más relevantes según Test de Ceoen. (Véase gráfica 2)

CeoenGráfica 2. Valoración subjetiva. Resultados por Test de Ceoen a 10 sujetos relacionados académica y/o laboralmente con la ingeniería de sonido.

CONCLUSIONES

Para la grabación ambiofónica vale la pena no limitarse a realizar las grabaciones en sillas específicas de la sala, ya que de acuerdo a los análisis, sería utilizar este punto de grabación solo para la técnica panambiofónica (grabación ambiofónica con grabación extra se reflexiones traseras y posterior convolución) o modelos ambiofónicos que impliquen el uso de más de dos parlantes. Por ende, para un resultado eficaz en el método con dos altavoces se deben evaluar técnicas desde el punto central del proscenio o entre este y la silletería. Cabe mencionar también que al momento de elegir una técnica específica se debe tomar en cuenta la cantidad y distancia relativa de los instrumentos a interpretar. De ser una orquesta amplia si habrán de considerarse técnicas desde una de las primeras filas del público.

En conclusión, mientras más amplio sea el campo a capturar en el eje horizontal, mayor debe ser la distancia entre el ambiófono y las fuentes sin que el ambiófono deba ubicarse obligatoriamente en una de las primeras filas. Se debe mantener como medida de referencia los 140 grados de captura directa del ambiófono y el rango de posibilidad de posición del ambiófono será entre el inicio del proscenio hasta la fila ideal para grabación de fuentes ocupando la totalidad del proscenio (orquesta).

La herramienta Simulink no genera una calidad óptima ni eficacia de trabajo para el procesamiento del RACE. Presenta falencias en la fase y amplitud de la repuesta en frecuencia. Se puede optar por procesamiento adicional (no incluído en el diagrama de bloques de RACE según Glasgal) para remendar los errores presentados pero un mayor procesamiento implica una menor calidad del material final. De ser ejecutado en unDSP, el sistema en simulink podría beneficiarse por procesamiento final que busque la restauración de la perdida generada por el procesamiento de señales respecto a la calidad del audio, tales como dithers de salida. El sistema de RACE ejecutado en audiomulch presenta una respuesta fiel a los principios teóricos del método.

Un procesamiento adicional en el sistema y diagrama de RACE puede llevar a mejores resultados que ayuden a una espacialidad mayor, más real y de menor factor de error acústicamente como lo demuestra el video comparativo de técnicas de la firma Noach.

Por lo tanto, el RACE cumple efectivamente su labor, sin embargo se necesita de una mayor definición y procesamiento para mejorar la adaptabilidad del método ambiofónico en sistemas más comunes.

El sistema ambiofónico genera una mejor percepción espacial que el sistema estereo mejorando la profundidad, naturalidad y definición de extremos de una señal.

El sweet spot en la reproducción ambiofónica es bastante reducido y de difícil calibración, pero mientras mejor sea el tratamiento acústico y en especial el procesamiento, se lograran mejores resultados.

La tan discutida sensación de “estar ahí presente” al momento de escuchar un material de audio se cumple con ambiofonía por lo menos en gran parte del campo sonoro y con todo tipo de material. No obstante, mientras más se acerque el material reproducido a las condiciones ideales de la ambiofonía, mejor será el resultado.

La técnica de grabación ambiofónica aunque es eficiente, requiere de componentes de alta calidad, mientras mejor sea el campo sonoro capturado, mayor será la diferencia generada por RACE. El procesador tiende a abrir los campos sonoros, pero no puede hacer mucho por grabaciones muy cerradas. Por ello no funciona con grabaciones binaurales regulares.

De mejorar el sweet spot, el requerimiento acústico y la confiabilidad de los procesadores, la ambiofonía puede ser la exitosa sucesora de la técnica estereofónica, además su implementación se hace más inmediata a medida que evoluciona y se da a conocer el método.

CITAS TEXTUALES

1 MILLER, Robin “How Good Can Stereo Be? – Try Ambiophonics and See. Speaker Stereo v. Speaker Binaural. 2008.

2 BOCK, Timothy. KEELE JR, Don B. “The effects of interaural crosstalk on stereo reproduction and minimizing interaural crosstalk in nearfield monitoring by the use of a physical barrier”. AES 1986.

3 MILLER, Robin. AES SMPTE BSEE. Filmaker techonology. USA. 2009.

4 http://www.ambiophonics.org/Demos.html

REFERENCIAS BIBLIOGRAFICAS

R. Glasgal “Ambiophonics 2nd Edition: Replacing Stereophonics to Achieve Concert-Hall Realism” 2001

R. Glasgal “Ambiophonics: Achieving Physiological Realism in Music Recording and Reproduction” AES Convention paper 111th Convention 2001.

T. Bock, D. Keele Jr.“The effects of interaural crosstalk on stereo reproduction and minimizing interaural crosstalk in nearfield monitoring by the use of a physical barrier”. 81st AES convention paper. Los Angeles, California, 1986.

A. Farina, R. Glasgal, E. Armelloni, A Torger“Ambiophonic Principles for the Recording and Reproduction of Surround Sound for Music”.