SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

Notice

Recent Posts

Recent Comments

Link

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

JINWOOJUNG

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning 본문

NLP, LLM, Multi-modal

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

Jinu_01 2025. 6. 22. 02:41

728x90

Paper

https://arxiv.org/abs/2206.08312

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

We introduce SoundSpaces 2.0, a platform for on-the-fly geometry-based audio rendering for 3D environments. Given a 3D mesh of a real-world environment, SoundSpaces can generate highly realistic acoustics for arbitrary sounds captured from arbitrary microp

arxiv.org

Introduction

시각(Vision)과 청각(Audio) 두 Modality는 강한 관계를 가진다. 객체의 생김새를 바탕으로 우리는 객체가 만들어 낼 소리를 예측할 수 있다(Object Level). 또한, 소리는 음원과 듣는이가 존재하는 3D 환경의 구조와 재료에 따라서 변화한다(Environment Level). 이처럼 3차원 공간상에서 Visuals, Acoustics의 상관관계를 모델링 하는것은 매우 중요한 연구이다.

이러한 연구를 위한 Simulation 환경은 Vision 측면에서는 매우 잘 구성되어 있다. 특히, 다양한 현실의 3D 환경을 재구성할 수 있고, Visual Navigation 등 현실과 같은 환경에서의 연구가 진행되며, 이는 "sim2real" 연구와 매우 밀접한 연관이 있다. 하지만, Audio 측면에서는 게임, 건축 설계 등의 환경에 집중되었으며, Simple Parametric Geometries로 한정되어 있고, 시각 정보와 분리되어 있다.

두 Modalities를 함께 가져오는 Audio-Visual Simulations가 연구되고 있지만, 1) 연속적인 움직임의 표현 불가, 2) 수많은 사전 연산량으로 인한 용량 증가, 3) 표현할 수 있는 3D 공간의 제약이 존재한다. 이는 일반화 성능을 저해하며, 현실적인 세계처럼 표현할 수 없어 "sim2real" 연구에 매우 취약하다.

본 논문에서는 기존 on-the-fly geometry-based audio rendering for arbitary environments를 수행할 수 있는 SoundSpace 2.0을 제안한다. 기존의 한계점을 보완한 SoundSpace 2.0은 다음과 같은 특징을 가진다.

실제 환경에서 발생가능한 음향적 요인들을 고려하여, 사용자가 선택한 임의의 파형, 카메라, 마이크 배치를 통해 현실적인 Rendering을 가능하게 한다.
임의의 3D Mesh 환경에 대해서 소리를 가져올 수 있도록 한다.
다양한 Customize 기능을 제공한다.

SoundSpaces 2.0 Audio-Visual Rendering Platform

Fig 1. Illustration of SoundSpaces 2.0 rendering

본 예시는 Habitat-Matterport 3D Dataset(HM3D) 환경에서 SoundSpace 2.0가 소리를 Rendering 하는 과정이다. 음악 현상 모델링은 음원에서 Agent까지 소리가 전달될 때 발생하는 다양한 음악 현상을 주파수 의존적으로 모델링한다. 즉, 소리가 전달되는 과정에서 발생하는 Direct Sound(직접음), Reflection(반사), Reverb(잔향), Transmission(투과), Diffraction(회절), Air Absorption(공기 흡수)를 모두 고려하게 된다. 이러한 음향 현상은 3D 환경의 기하 구조와 물체의 재질(Material) 정보를 바탕으로 한 Bidirectional Path-Tracing Algorithm에 의해 시뮬레이션된다. 이름에서 알 수 있듯, 이 알고리즘은 음원 → 에이전트뿐 아니라 에이전트 → 음원 방향도 함께 고려하여 더 사실적인 음향 전달 경로를 계산한다.

에이전트가 최종적으로 듣게 되는 소리는 HRTF (Head-Related Transfer Function)을 이용해 공간화된다. HRTF는 사람의 머리, 귀, 어깨 등의 해부학적 구조에 의해 소리가 어떻게 변형되는지를 수학적으로 모델링한 함수로, 각 귀에 전달되는 미세한 시간차 및 강도차를 반영함으로써 입체적인 청취 경험을 가능하게 한다.

SoundSpaces 2.0은 시각적 렌더링과 음향 렌더링을 통합함으로써, 공간적·음향적 일관성(spatial-acoustic consistency)을 갖춘 멀티모달 데이터를 생성한다. 사용자가 설정한 환경, 음원 위치, 에이전트의 위치 및 방향, 마이크 종류 등에 따라 에이전트가 인지하는 시각적 정보와 양쪽 귀로 듣는 음향 정보를 동시에 시뮬레이션할 수 있다.

Rendering Pipeline and Simulation Enhancements

SoundSpaces 2.0은 오디오 전파 엔진(RLR-Audio-Propagation)을 기존 HabitatSim에 통합한 시뮬레이션 플랫폼이다.

Input: 3D Scene Mesh Data(HB3D), Source/Receiver customized by user

User는 Source, Receiver의 위치, 특징, 재질 등을 CUstomize 할 수 있다. 이는 선행연구들과 달리 on-the-fly 즉, 사전 계산이 요구되지 않기 때문에 자유롭게 Customize가 가능하다.

Processing: Compute a RIR(Room Impulse Response)

Bidirectional Path-tracking Algorith을 기반으로 하여 RIR을 계산하게된다. RIR은 변환 함수로, Source/Reciever의 위치가 주어졌을 때, 환경에 의해 소리가 어떻게 변환되는지 정의하게된다. 즉, 특정 시점에서 나오는 소리를 다른 시점에서 어떻게 듣기 될지를 나타내게 된다. 이 과정에서, 다양한 음악 현상(반사 회절 등)을 고려함으로써 3D 환경의 기하학적 구조와 재질 속성을 바탕으로, 특정 위치에 있는 듣는 사람에게 마치 실제로 그 공간에 있는 것처럼 느껴지는 현실적인 소리를 생성해낼 수 있습니다.

SoundSpaces 2.0은 기존 SoundSpaces와 비교하면 회절(Diffraction) 현상을 고려하여,가려진 음원이 끊기는 현상을 보완하였다. 회절 현상은 소리가 퍼지는 현상으로, 벽 뒤나 좁은 문 틈 뒤 가려진 음원의 경우 회절 현상을 고려해서 소리가 전달되는 자연스럽고 실제 환경과 유사한 음향 현상을 표현할 수 있다.

또한, DRR(Direct-to-Reverberant Ratio)을 향상시켰다. DRR은 직접음의 음압 레벨과 잔향음의 음압 레벨의 비율을 나타낸다. 간단히 말해, 음원에서 스피커나 청취자에게 직접 도달하는 소리의 에너지와 공간의 벽, 물체 등에 부딪혀 여러 번 반사되어 들리는 소리의 에너지 비율을 뜻한다.

$$DDR = \frac{P_{direct}}{P_{reverb}}$$

DDR이 크다는 것은 소리가 또렷하고 명료하게 들리는 것이고, DDR이 작다는 것은 소리가 퍼지고 흐릿하게 들린다는 것을 의미한다. SoundSpaces 2.0은 정확성을 향상시킴으로써 결과적으로 정확한 음원 위치 추정과 3D 공간 구조의 명확한 청각적 반영이 가능해졌다.

Continuity

Spatial Continuity

기존 연구 한계: 연속적인 움직임을 표현할 수 없고, Grid 격자 상에서만 위치할 수 있다.

SoundSpaces 2.0은 임의의 위치에서 Impuse Response(IR)를 표현할 수 있다. 임의의 음원 위치 $s$, Agent(receiver) 위치 $r$, Agent의 헤딩 방향 $\theta$가 주어졌을 때, 음원과 Agent의 IR은 $R(s,r,\theta)$로 표현된다. 따라서, 최종적으로 Agent가 받는 소리는 다음과 같이 표현된다.

$$A^r = A^s \ast R(s,r,\theta)$$

이때, $A^s$는 음원으로 부터 방출되는 소리, $\ast$는 Convolution을 의미한다.

Acoustic Continuity

기존 연구 한계: Grid 격자 상에서만 위치할 수 있기에, Grid 상에서만 음원으로부터의 소리가 발생하고, 그 외에는 소리를 내지 않는것처럼 표현된다. 즉, Agent가 이동하는 과정에서 소리가 연속적으로 표현될 수 없다.

SoundSpaces 2.0은 Spatial Continuity가 보장되기에, $A$ 위치에서 $B$ 위치로 Agent가 연속적으로 이동할 때, $R(s,r_A,\theta_A), R(s,r_B,\theta_B)$를 포함하는 경로상의 모든 위치에서의 IR을 표현할 수 있다.

Sampling Rate를 $F$, 두 Time Step 사이 시간을 $\Delta t$라 할 때, 받은 오디오 샘플의 수 $N$은 $N=F\Delta t$로 계산된다. $t_i$ 시간에 Agent의 위치를 $x_i$, Agent가 $t_i$에 듣는 오디오가 방출된 시간을 $t_p$라고 할 때, 해당 오디오는 음원 소리의 특정 구간(the corresponding source sound segment) $A^s[t_p : t_p + N]$가 된다. 따라서 최종적으로, $t_i$에 $x_i$에서 Agent가 받는 소리 $A_{t_i}^{x_i}$는 다음과 같이 계산된다.

$$A_{t_i}^{x_i} = A^s[t_p : t_p + N] \ast R(s,x_i,\theta_i)$$

즉 해당 Time Step($t_{i-1} ~ t_i = \Delta t$)에 대해 Time Step 종료 시점 $t_i$에서의 위치 $x_i$의 RIR을 사용해서 표현되는 오디오가 $A_{t_i}^{x_i}$이다.

현실 세계에서 우리가 고정된 음원에 대해서 이동할때 자연스럽게 멀어지면서 소리가 작아지는 것을 경험하게 된다. 하지만, 단순히 $A_{t_i}^{x_i}$를 사용하게 된다면, Agent가 이동하는 과정에서 오디오는 불연속적으로 들리게 된다. $t_{i-1}$은 이전 시점이 끝나고, 현재 시점이 시작되는 시점이다. 이때는 Agent가 $x_{t-1}$ 근처에 있기 때문에, 이때 들리는 소리의 크기는 $x_{t-1}$ 위치의 RIR에 해당하는 큰 소리이다. 하지만, 현재 스텝이 시작되는 순간에, 시뮬레이션은 해당 스텝($t_{i-1}~t_i$)에 대해 $x_i$ 위치의 RIR로 계산된 오디오 $A_{t_i}^{x_i}$를 재생하게 된다. $x_i$ 위치에서의 RIR은 $x_{i-1}$보다 작게 모델링 되므로, 소리가 커졌다가 갑자기 작아지게 된다.

따라서, SoundSpaces 2.0에서는 음향적 연속성을 보장해서 $x_{i-1}$에서 $x_i$까지 움직이는 과정에서 연속성을 부여하기 위해, $A_{t_i}^{x_{i-1}}, A_{t_i}^{x_i}$ 사이에 $T$초의 중첩 시간 윈도우를 사용하여 선형 크로스페이딩(Linear Crossfading)을 적용한다. 이때, $ A_{t_i}^{x_{i-1}} $는 $x_{i-1}$ 위치에서의 RIR로 계산된 오디오를 의미한다. 이를 통해 Agent가 연속적으로 움직이면서 듣는 소리의 변화가 실제처럼 느껴지게 된다.

Configurability

기존 연구 한계: 사전 계산을 위해서, Simulation 환경을 Customize 하는데 제약이 존재.

SoundSpaces 2.0은 다양한 Customize 기능을 제공한다.

주파수 대역, 샘플링 주기 등 Simulation Parameters, Monom Binaural 등 마이크 종류, HRTFs 등을 Customize 할 수 있다. 또한, 재료는 소리의 변환에 영향을 주는데, 동일한 객체여도 서로 다른 재료로 Customize 가능하다. 이때, 다양한 재료에 대해, 각 주파수에 대한 음향적 특성(흡수/산란/투과 등)을 모델링 하였다. 마지막으로 음원 전파 매체의 거리 의존적 감쇠를 효과적으로 모델링 하였다.

이러한 높은 수준의 Configurability는 단순히 다양한 시뮬레이션 환경을 구성하는 데 그치지 않고, 실제 환경에 가까운 음향 렌더링을 가능하게 하여, 보다 정밀한 멀티모달 학습 및 평가를 가능하게 한다.

Generalizability

다양한 3D Mesh Dataset을 수용할 수 있으며, User가 직접 스캔한 3D 환경을 적용할 수 있다. 또한, 다른 Simulator에서 사용중인 Shoebox Rooms를 제공한다.

Rendering Modes and Rendering Performance

SoundSpaces 2.0은 연구 환경/분야에 따라 이용가능한 High-quality, High-speed 2가지 Mode를 제공한다.

High-speed의 경우, 움직임이 연속적이다는 가정 하에, 이전 Simulation Frame의 정보를 활용하여 속도를 증가시켰다. High-quality의 경우, 이전 프레임의 정보를 사용하지 않고, 렌더링 파라미터를 최대화하고 매 프레임마다 독립적으로 계산하여 정확성을 향상시켰다.

Evaluation and Benchmarks

Simulation Speed vs Quality Tradeoff

SoundSpaces 2.0에서 제공하는 2가지 모드에 대한 Tradeoff에 대해 알아보자. 평가지표는 RT60 error로, RT60이란 표준 음향 측정값으로, 소리가 정지된 후 음압 레벨이 60dB 감소하는데 걸리는 시간을 의미한다. 이 값은 특정 공간의 잔향 특성을 나타내는 중요한 음향 파라미터 중 하나이다. 잔향은 3D 구조 및 재질 등에 영향을 받기에, RT60은 시뮬레이션된 환경이 실제 공간의 음향적 특성을 얼마나 잘 재현하는지를 평가하는 핵심 지표로 동작하게 된다.

High-quality 모드를 기준으로 했을 때, High-speed는 매우 빠른 더 빠른 속도로 효율적으로 동작하지만, RT60 Error는 오직 9.5%만 감소하였다. RT60 계산에서의 노이즈를 고려하면, High-speed는 매우 빠른 속도를 보장하면서 동시에 높은 정확도를 보임을 의미한다. 특히, High-speed 모드에서 학습한 모델을 High-quality 모드에서 평가했을 때 오직 약 1%의 오차만 발생한 것으로 보아 그 정확도는 매우 높다고 할 수 있다.

Validating Simulation Accuracy with Real IRs

동일한 환경에 대해서 시뮬레이션이 실제와 동일한 IR을 표현할 수 있는 것은 매우 중요하다. 본 논문에서는 시뮬레이션과 동일한 환경, 음원/Agent의 위치에서 취득한 음향 측정 데이터를 SounSpaces, SoundSpaces 2.0(High-quality)에서 취득한 것과 비교한다.

(b)에서 확인할 수 있듯이 SoundSpace2.0에서 취득한 음향 측정 데이터는 평균 0.98dB 오차로 실제 환경과 매우 유사한 DRR을 보임을 확인할 수 있다. (c)는 소리가 전파되면서 발생하는 에너지 감쇠를 측정한 것인데, 실제 측정값과 매우 유사함을 확인할 수 있다.

Benchmark 1: Continuous Audio-Visual Navigation

현재 내가 진행할 연구에서는 Navigation은 빠져 있다.

Audio-Visual Navigation Task는 에이전트가 지도화되지 않은 환경에서 소리 발생 위치를 찾아 이동하는 것을 의미한다. 기존 연구에서는 Agent의 움직임이 격자 단위로 제한적이고, 순간이동 하는 것 처럼 격자 단위로 이동하게 된다. 이는 움직이는 과정에서 존재하는 충돌 위험성이 있는 장애물들을 배제하고 움직이기 때문에 이러한 복잡성을 배제하였다. SoundSpace 2.0은 공간적, 음향적 연속성을 보장하기 때문에 더욱 현실적인 탐색 시뮬레이션이 가능하다.

본 연구에서는 DD-PPO를 활용한 Distriuted Audio-Visual Navigation(DAV-Nav) Agent를 이용하여 실험을 진행하였다. 평가 지표는 성공률(Sucess)와 더불어 SPL을 사용하였는데, SPL은 경로 길이로 정규화 된 성공률을 의미한다.

$$ SPL = \frac{1}{N}\sum_{i=1}^{N}S_i\frac{L_i}{max(P_i,L_i)}$$

이때, $L_i$는 $i$번째 Episode에서의 최단 길이 $P_i$는 $i$번째 Episode에서의 Agent가 실제 이동한 평균 경로 길이를 의미한다. 따라서 SPL이 높다는 것은 $P_i$가 낮기에 효율적으로 움직였다는 의미를 포함한다.

SoundSpaces를 기준으로 학습시킨 Agent는 공간적 연속성이 보장된 환경에서는 SoundSpaces 2.0에서 학습시킨 모델과 유사한 성공률을 보이지만, SPL은 매우 낮게 나온다. 이는 SoundSpaces는 공간적 연속성이 보장되지 않기 때문에, 공간적 연속성이 Agent 움직임의 효율성에 영향을 줌을 의미한다. 또한, SoundSpaces를 기준으로 학습시킨 Agent는 공간적, 음향적 연속성이 모두 보장되는 환경에서는 0.9%의 성공률을 보이게 된다. 이는 직접음이 잔향과 섞이는 음향적 연속성이 보장되는 환경에서 Navigation에 어려움을 느끼는 것을 의미한다. 따라서, 공간적, 음향적 연속성은 AV-Nav Task에서 매우 중요한 요인임을 의미한다.

오히려 SoundSpaces 2.0에서 학습시키고, Continuous Space만 보장된 Test 환경에서의 비교가 필요하지 않을까?

Benchmark 2: Far-Fiedl Automatic Speech Recognition

Automatic Speech Recognition(ASR) Task는 자동으로 음성을 인식하는 Task로, 음원이 Agent로 부터 멀리 떨어진(Far-field Scenario)를 포함한다. 이상저인 Speech Corpus로만 학습되는 경우, Far-field Scenario에서의 일반화 성능은 매우 떨어지는데, 이는 예상치못한 잔향을 고려하지 않기 때문이다.

본 논문에서는 다양한 환경에서 생성한 IRs로 부터 Fine-tuning 된 모델을 비교하였으며, 평가지표는 Word Error Rate(WER)이다. 실제 IRs로 Fine-tuning 된 경우 효과적으로 WER이 감소한 것을 확인할 수 있으며, SoundSpaces 2.0에서 생성한 IRs로 Fine-tuning한 경우 그 이상의 WER 감소 효과를 확인할 수 있다. 이는 SoundSpaces 2.0이 현실에 일반화 가능한 매우 현실적인 IRs 생성이 가능함을 시사한다.

Acoustic Randomization

실제 환경에서는 동일한 객체여도 재질이 다르고, 재질에 따라 소리에 영향을 주는 정도가 다르다. SoundSpaces 2.0에서는 미리 각 객체에서 가능한 음향적 재질을 정해 놓고, 렌더링 과정에서 랜덤하게 선택하는 Acoustic Randomization을 적용했다. 이때, 선택된 음향 재질의 각 음향 속성 계수(absorption, scattering, transmission 등)에 N(0, 0.1) 가우시안 노이즈를 추가함으로써, 동일한 재질이여도 발생하는 차이를 고려하였다.

실제로, Acoustic Randomization을 고려 한 결과 WER이 12.48%에서 12.04%로 감소한 것을 확인할 수 있다.

Discussion on Limitations and Future Work

고품질 Mesh Scene에 의존적

SoundSpaces 2.0에서 제공하는 오디오 렌더링 알고리즘은 고품질의 3D Mesh에 의존적이다. 만약, 3D Mesh에 구멍이 발생하면 음향 추적시 소리가 새어나가게 된다. 실제로 Metteport3D의 경우 RT60의 저하가 측정되었다. 이를 보완하기 위해, 3D Mesh 환경의 품질 검사 및 Mesh 수정을 위한 API를 제공한다.

재질 속성의 불확실성

Mesh나 시각 정보만으로는 객체의 정확한 음향 재질 속성을 추정할 수 없다. SoundSpaces 2.0은 객체에 일반적인 재질 속성을 할당하여 이 문제를 해결하고 있지만, 더 깊이 있는 재질 처리를 위해서는 환경 스캔 시점에 음향 측정 데이터를 함께 수집하는 것이 요구된다.

HM3D에서는 Segmentation 정보도 함께 제공하기 때문에 이를 통해 보완할 수 있을 것이라고 생각

다양한 실제 환경에서의 검증 필요

실환경에서의 IRs와의 성능 비교는 더욱 다양한 환경에서 진행되어야 한다. 본 논문에서는 하나의 공간에 대해서만 진행하였다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'NLP, LLM, Multi-modal' 카테고리의 다른 글

3D Concept Learning and Reasoning from Multi-View Image (1)	2025.06.26
Habitat-Matterport 3D semantic dataset (0)	2025.06.25
[ Transformer to LLaMA ] ELMo: Embeddings from Language Models (0)	2025.04.28
[ Transformer to LLaMA ] Transformer..02 (0)	2025.04.25
[ NLP ] BLEU Score: 기계번역 평가지표 (0)	2025.04.25

'NLP, LLM, Multi-modal' Related Articles

JINWOOJUNG

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning 본문

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

Paper

Introduction

SoundSpaces 2.0 Audio-Visual Rendering Platform

Rendering Pipeline and Simulation Enhancements

Continuity

Configurability

Generalizability

Rendering Modes and Rendering Performance

Evaluation and Benchmarks

Simulation Speed vs Quality Tradeoff

Validating Simulation Accuracy with Real IRs

Benchmark 1: Continuous Audio-Visual Navigation

Benchmark 2: Far-Fiedl Automatic Speech Recognition

Discussion on Limitations and Future Work

'NLP, LLM, Multi-modal' 카테고리의 다른 글

티스토리툴바