麻省理工學院和IBM Watson AI Lab的研究人員創建了一個機器學習模型,用於預測聽眾在3D空間內的不同位置上會聽到什麼。
研究人員首先使用這個機器學習模型來了解房間中的任何聲音是如何在空間中傳播的,並按照人們透過聲音理解自身所處環境的方式建構3D房間的圖像。
在麻省理工學院電機工程與電腦科學系(EECS)研究生Yilun Du共同撰寫的一篇論文中,研究人員們展示瞭如何將類似於視覺3D建模的技術應用於聲學領域。
但是他們要面對聲音和光線傳播的差異。例如,由於障礙物、房間的形狀和聲音的特性,聽眾處在房間中不同的位置可能會對聲音產生非常不同的印象,從而使結果變得難以預測。
為了解決這個問題,研究人員們在他們的模型中建立了聲學特徵。首先,在所有其他條件都相同的情況下,交換聲音來源和聽眾的位置不會改變聽眾聽到的內容。聲音也特別受本地條件影響,例如位於聽眾和聲音來源之間的障礙物。
Du表示:「到目前為止,大多數研究人員只專注於視覺建模。但是身為人類,我們有多種感知模式。不僅視覺很重要,聲音也很重要。我認為這項工作開闢了一個令人興奮的研究方向,可以更好地利用聲音來模擬世界。」
使用這種方法,生成的神經聲場(NAF)模型能夠對網格上的點進行隨機採樣,以了解特定位置的特徵。例如,靠近門口會大大影響聽眾聽見房間另一側聲響的內容。
該模型能夠根據聽眾在房間中的相對位置預測聽眾可能從特定聲學刺激中聽到的內容。
這篇論文表示:「透過將場景中的聲學傳播建模為線性時不變系統,NAF學會不斷地將發射器和聽眾的位置映射到神經脈衝響應函數,後者可以應用於任意聲音。」「我們證明了NAF的連續性讓我們能夠在任意位置為聽眾渲染空間聲音,並且可以預測聲音在新位置的傳播。」
MIT-IBM Watson AI Lab的首席研究員Chuang Gan 也參與了該項目,他表示:「這項新技術可能會為在元宇宙應用程式創建多模態沉浸式體驗帶來新的機會。」
我們知道不是所有Reg讀者都會對這個用例感到興奮。
以上是聲學領域的機器學習研究可以開啟多模態元宇宙的詳細內容。更多資訊請關注PHP中文網其他相關文章!