JINWOOJUNG

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning 본문

NLP, LLM, Multi-modal

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

Jinu_01 2025. 6. 22. 02:41
728x90
반응형

Paper

https://arxiv.org/abs/2206.08312

 

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

We introduce SoundSpaces 2.0, a platform for on-the-fly geometry-based audio rendering for 3D environments. Given a 3D mesh of a real-world environment, SoundSpaces can generate highly realistic acoustics for arbitrary sounds captured from arbitrary microp

arxiv.org

 

Introduction

시각(Vision)과 청각(Audio) 두 Modality는 강한 관계를 가진다. 객체의 생김새를 바탕으로 우리는 객체가 만들어 낼 소리를 예측할 수 있다(Object Level). 또한, 소리는 음원과 듣는이가 존재하는 3D 환경의 구조와 재료에 따라서 변화한다(Environment Level). 이처럼 3차원 공간상에서 Visuals, Acoustics의 상관관계를 모델링 하는것은 매우 중요한 연구이다.

이러한 연구를 위한 Simulation  환경은 Vision 측면에서는 매우 잘 구성되어 있다. 특히, 다양한 현실의 3D 환경을 재구성할 수 있고, Visual Navigation 등 현실과 같은 환경에서의 연구가 진행되며, 이는 "sim2real" 연구와 매우 밀접한 연관이 있다. 하지만, Audio 측면에서는 게임, 건축 설계 등의 환경에 집중되었으며, Simple Parametric Geometries로 한정되어 있고, 시각 정보와 분리되어 있다. 

두 Modalities를 함께 가져오는 Audio-Visual Simulations가 연구되고 있지만, 1) 연속적인 움직임의 표현 불가, 2) 수많은 사전 연산량으로 인한 용량 증가, 3) 표현할 수 있는 3D 공간의 제약이 존재한다. 이는 일반화 성능을 저해하며, 현실적인 세계처럼 표현할 수 없어 "sim2real" 연구에 매우 취약하다. 

 

본 논문에서는 기존 on-the-fly geometry-based audio rendering for arbitary environments를 수행할 수 있는 SoundSpace 2.0을 제안한다. 기존의 한계점을 보완한 SoundSpace 2.0은 다음과 같은 특징을 가진다.

  • 실제 환경에서 발생가능한 음향적 요인들을 고려하여, 사용자가 선택한 임의의 파형, 카메라, 마이크 배치를 통해 현실적인 Rendering을 가능하게 한다.
  • 임의의 3D Mesh 환경에 대해서 소리를 가져올 수 있도록 한다.
  • 다양한 Customize 기능을 제공한다. 

 

SoundSpaces 2.0 Audio-Visual Rendering Platform

Fig 1. Illustration of SoundSpaces 2.0 rendering

 

본 예시는 Habitat-Matterport 3D Dataset(HM3D) 환경에서 SoundSpace 2.0가 소리를 Rendering 하는 과정이다. 음악 현상 모델링은 음원에서 Agent까지 소리가 전달될 때 발생하는 다양한 음악 현상을 주파수 의존적으로 모델링한다. 즉, 소리가 전달되는 과정에서 발생하는 Direct Sound(직접음), Reflection(반사), Reverb(잔향), Transmission(투과), Diffraction(회절), Air Absorption(공기 흡수)를 모두 고려하게 된다. 이러한 음향 현상은 3D 환경의 기하 구조와 물체의 재질(Material) 정보를 바탕으로 한 Bidirectional Path-Tracing Algorithm에 의해 시뮬레이션된다. 이름에서 알 수 있듯, 이 알고리즘은 음원 → 에이전트뿐 아니라 에이전트 → 음원 방향도 함께 고려하여 더 사실적인 음향 전달 경로를 계산한다.

에이전트가 최종적으로 듣게 되는 소리는 HRTF (Head-Related Transfer Function)을 이용해 공간화된다. HRTF는 사람의 머리, 귀, 어깨 등의 해부학적 구조에 의해 소리가 어떻게 변형되는지를 수학적으로 모델링한 함수로, 각 귀에 전달되는 미세한 시간차 및 강도차를 반영함으로써 입체적인 청취 경험을 가능하게 한다.

 

SoundSpaces 2.0은 시각적 렌더링음향 렌더링을 통합함으로써, 공간적·음향적 일관성(spatial-acoustic consistency)을 갖춘 멀티모달 데이터를 생성한다. 사용자가 설정한 환경, 음원 위치, 에이전트의 위치 및 방향, 마이크 종류 등에 따라 에이전트가 인지하는 시각적 정보와 양쪽 귀로 듣는 음향 정보를 동시에 시뮬레이션할 수 있다.

 

Rendering Pipeline and Simulation Enhancements

SoundSpaces 2.0은 오디오 전파 엔진(RLR-Audio-Propagation)을 기존 HabitatSim에 통합한 시뮬레이션 플랫폼이다.

 

Input: 3D Scene Mesh Data(HB3D), Source/Receiver customized by user

User는 Source, Receiver의 위치, 특징, 재질 등을 CUstomize 할 수 있다. 이는 선행연구들과 달리 on-the-fly 즉, 사전 계산이 요구되지 않기 때문에 자유롭게 Customize가 가능하다. 

 

Processing: Compute a RIR(Room Impulse Response)

Bidirectional Path-tracking Algorith을 기반으로 하여 RIR을 계산하게된다. RIR은 변환 함수로, Source/Reciever의 위치가 주어졌을 때, 환경에 의해 소리가 어떻게 변환되는지 정의하게된다. 즉, 특정 시점에서 나오는 소리를 다른 시점에서 어떻게 듣기 될지를 나타내게 된다. 이 과정에서, 다양한 음악 현상(반사 회절 등)을 고려함으로써 3D 환경의 기하학적 구조와 재질 속성을 바탕으로, 특정 위치에 있는 듣는 사람에게 마치 실제로 그 공간에 있는 것처럼 느껴지는 현실적인 소리를 생성해낼 수 있습니다.

 

SoundSpaces 2.0은 기존 SoundSpaces와 비교하면 회절(Diffraction) 현상을 고려하여,가려진 음원이 끊기는 현상을 보완하였다. 회절 현상은 소리가 퍼지는 현상으로, 벽 뒤나 좁은 문 틈 뒤 가려진 음원의 경우 회절 현상을 고려해서 소리가 전달되는 자연스럽고 실제 환경과 유사한 음향 현상을 표현할 수 있다.

 

또한, DRR(Direct-to-Reverberant Ratio)을 향상시켰다. DRR은 직접음의 음압 레벨과 잔향음의 음압 레벨의 비율을 나타낸다. 간단히 말해, 음원에서 스피커나 청취자에게 직접 도달하는 소리의 에너지와 공간의 벽, 물체 등에 부딪혀 여러 번 반사되어 들리는 소리의 에너지 비율을 뜻한다.

 

$$DDR = \frac{P_{direct}}{P_{reverb}}$$

 

DDR이 크다는 것은 소리가 또렷하고 명료하게 들리는 것이고, DDR이 작다는 것은 소리가 퍼지고 흐릿하게 들린다는 것을 의미한다. SoundSpaces 2.0은 정확성을 향상시킴으로써 결과적으로 정확한 음원 위치 추정과 3D 공간 구조의 명확한 청각적 반영이 가능해졌다.

 

Continuity

  • Spatial Continuity

기존 연구 한계: 연속적인 움직임을 표현할 수 없고, Grid 격자 상에서만 위치할 수 있다.

 

SoundSpaces 2.0은 임의의 위치에서 Impuse Response(IR)를 표현할 수 있다. 임의의 음원 위치 $s$, Agent(receiver) 위치 $r$, Agent의 헤딩 방향 $\theta$가 주어졌을 때, 음원과 Agent의 IR은 $R(s,r,\theta)$로 표현된다. 따라서, 최종적으로 Agent가 받는 소리는 다음과 같이 표현된다.

$$A^r = A^s \ast R(s,r,\theta)$$

이때, $A^s$는 음원으로 부터 방출되는 소리, $\ast$는 Convolution을 의미한다. 

 

  • Acoustic Continuity

기존 연구 한계: Grid 격자 상에서만 위치할 수 있기에, Grid 상에서만 음원으로부터의 소리가 발생하고, 그 외에는 소리를 내지 않는것처럼 표현된다. 즉, Agent가 이동하는 과정에서 소리가 연속적으로 표현될 수 없다.

 

SoundSpaces 2.0은 Spatial Continuity가 보장되기에, $A$ 위치에서 $B$ 위치로 Agent가 연속적으로 이동할 때, $R(s,r_A,\theta_A), R(s,r_B,\theta_B)$를 포함하는 경로상의 모든 위치에서의 IR을 표현할 수 있다. 

Sampling Rate를 $F$, 두 Time Step 사이 시간을 $\Delta t$라 할 때, 받은 오디오 샘플의 수 $N$은 $N=F\Delta t$로 계산된다. $t_i$ 시간에 Agent의 위치를 $x_i$, Agent가 $t_i$에 듣는 오디오가 방출된 시간을 $t_p$라고 할 때, 해당 오디오는 음원 소리의 특정 구간(the corresponding source sound segment) $A^s[t_p : t_p + N]$가 된다. 따라서 최종적으로, $t_i$에 $x_i$에서 Agent가 받는 소리 $A_{t_i}^{x_i}$는 다음과 같이 계산된다.

$$A_{t_i}^{x_i} = A^s[t_p : t_p + N] \ast R(s,x_i,\theta_i)$$

즉 해당 Time Step($t_{i-1} ~ t_i = \Delta t$)에 대해 Time Step 종료 시점 $t_i$에서의 위치 $x_i$의 RIR을 사용해서 표현되는 오디오가 $A_{t_i}^{x_i}$이다.

 

현실 세계에서 우리가 고정된 음원에 대해서 이동할때 자연스럽게 멀어지면서 소리가 작아지는 것을 경험하게 된다. 하지만, 단순히 $A_{t_i}^{x_i}$를 사용하게 된다면, Agent가 이동하는 과정에서 오디오는 불연속적으로 들리게 된다. $t_{i-1}$은 이전 시점이 끝나고, 현재 시점이 시작되는 시점이다. 이때는 Agent가 $x_{t-1}$ 근처에 있기 때문에, 이때 들리는 소리의 크기는 $x_{t-1}$ 위치의 RIR에 해당하는 큰 소리이다. 하지만, 현재 스텝이 시작되는 순간에, 시뮬레이션은 해당 스텝($t_{i-1}~t_i$)에 대해 $x_i$ 위치의 RIR로 계산된 오디오 $A_{t_i}^{x_i}$를 재생하게 된다. $x_i$ 위치에서의 RIR은 $x_{i-1}$보다 작게 모델링 되므로, 소리가 커졌다가 갑자기 작아지게 된다.

 

따라서, SoundSpaces 2.0에서는 음향적 연속성을 보장해서 $x_{i-1}$에서 $x_i$까지 움직이는 과정에서 연속성을 부여하기 위해, $A_{t_i}^{x_{i-1}}, A_{t_i}^{x_i}$ 사이에 $T$초의 중첩 시간 윈도우를 사용하여 선형 크로스페이딩(Linear Crossfading)을 적용한다. 이때, $ A_{t_i}^{x_{i-1}} $는 $x_{i-1}$ 위치에서의 RIR로 계산된 오디오를 의미한다. 이를 통해 Agent가 연속적으로 움직이면서 듣는 소리의 변화가 실제처럼 느껴지게 된다.

 

Configurability

기존 연구 한계: 사전 계산을 위해서, Simulation 환경을 Customize 하는데 제약이 존재.

 

SoundSpaces 2.0은 다양한 Customize 기능을 제공한다.

주파수 대역, 샘플링 주기 등 Simulation Parameters, Monom Binaural 등 마이크 종류, HRTFs 등을 Customize 할 수 있다. 또한, 재료는 소리의 변환에 영향을 주는데, 동일한 객체여도 서로 다른 재료로 Customize 가능하다. 이때, 다양한 재료에 대해, 각 주파수에 대한 음향적 특성(흡수/산란/투과 등)을 모델링 하였다. 마지막으로 음원 전파 매체의 거리 의존적 감쇠를 효과적으로 모델링 하였다.

 

이러한 높은 수준의 Configurability는 단순히 다양한 시뮬레이션 환경을 구성하는 데 그치지 않고, 실제 환경에 가까운 음향 렌더링을 가능하게 하여, 보다 정밀한 멀티모달 학습 및 평가를 가능하게 한다.

 

Generalizability

다양한 3D Mesh Dataset을 수용할 수 있으며, User가 직접 스캔한 3D 환경을 적용할 수 있다. 또한, 다른 Simulator에서 사용중인 Shoebox Rooms를 제공한다.

Rendering Modes and Rendering Performance

SoundSpaces 2.0은 연구 환경/분야에 따라 이용가능한 High-quality, High-speed 2가지 Mode를 제공한다.

High-speed의 경우, 움직임이 연속적이다는 가정 하에, 이전 Simulation Frame의 정보를 활용하여 속도를 증가시켰다. High-quality의 경우, 이전 프레임의 정보를 사용하지 않고, 렌더링 파라미터를 최대화하고 매 프레임마다 독립적으로 계산하여 정확성을 향상시켰다.

728x90
반응형