【CES 2019 台灣新創團隊】利用 AI 進行多人聲分離,Relajet 讓聽障者聽見想聽的聲音

科技新報
作者 徐 知誼 | 發布日期 2019/1/2

對於聽障者來說,最主要面臨的問題有二。第一是助聽器價格高昂,以全球六大品牌為例,平均價格約在 6 萬台幣(2000美金)左右,高階的甚至要 15 萬(5000美金),負擔相當沉重。第二,許多傳統助聽器的效果不夠好,一旦周遭環境音量太大聲,想清楚聽見談話者講話難度就會相當高。本身也是聽障者的陳柏儒(Blue Chen)為了解決這些困境,集合一群專精 AI 演算法的團隊,創立 Relajet 洞見未來,要以「多人聲分離」引擎,協助聽障者擁有更好的聆聽體驗。

辨識聲音特徵值,助聽障者聆聽特定對象

從人耳接收聲音,到大腦獲取有意義的訊息,整個聽覺歷程(auditory hierarchy)中有任一個環節出錯,都算是聽覺障礙。陳柏儒解釋道,通常聽障者在喧鬧環境使用助聽器時,所有的聲音都會被麥克風接收,聽障者很難分辨聆聽對象的聲音。但一般人的聽覺系統,具備了專注於某人談話的能力,能夠自動忽略背景其他對話與噪音。例如在人聲鼎沸的宴會上,我們不但可以聽見面前朋友的講話聲,也可以聽到遠方有人呼喊我們。只要是我們「正在注意」的聲源所發出的音量,感覺通常是其他同音量聲源的三倍,這就是所謂的「雞尾酒會效應(cocktail party effect)」。Relajet 的技術,就是要幫聽障者改善聽覺歷程中「察覺」、「區辨」及「辨識」等階段的問題。

要達到改善的效果,首先就是找出聆聽對象的聲音特徵值,才能讓聽障者專注聆聽特定對象談話。透過 Relajet 採用神經網路引擎(neural network engine),聲音的輸入及輸出都是透過脈波編碼調變(pulse-code modulation,PCM);經由深度學習的方法,10 毫秒以內就能完成「多人聲分離」,找出聲音特徵值。而處理的方式主要有以下兩種:

第一種是「預先儲存聲音特徵值」。假設在吵鬧的室內我需要跟 John 對話,就可以先請 John 在手機 APP 上錄下 2~3 秒的音檔,多人聲分離引擎記錄 John 的聲音特徵值後,從此只要麥克風接收到他的聲音就會加強,其他的聲音則會被消除。

第二種則是所謂的「盲聽」。手機 APP 不用事先標註某人的聲音特徵值,而是藉由多人聲分離引擎即時感測出有多少人在講話,然後使用者再選取想要談話對象的聲音特徵值,引擎就會加強這些聲音,並將其他人的聲音消除。

作為聽障者的同理心,卻讓創新在最嚴苛的條件中發生

能夠在 10 毫秒內完成所有特徵值辨識的運算,是 Relajet 多人聲分離引擎最大的優勢。至於為什麼是 10 毫秒?因為助聽器處理語音的時間若超過這極限,人耳就會感受到延遲,產生頭暈的現象,所以被歸類在醫療器材的助聽器,都要求必須在 10 毫秒以內完成所有的處理步驟。

陳柏儒指著自己耳朵上戴的助聽器說道:「我比較幸運,助聽器一耳要 14 萬台幣,兩耳就是 28 萬,家裡還能夠負擔得起這筆花費,但我依然沒有辦法像一般人聽得清楚、發音標準。更何況是那些沒戴助聽器或是買不起的人呢?」幫助比他還要不幸的聽障者,成為他創業的初衷,因此 Relajet 要求自家技術必須經得起醫療器材等級規範的考驗,首要目標就是將這套引擎導入全球六大品牌的助聽器中。當然,若能在醫材市場立足,往後也再往藍芽耳機、智慧音箱等需求較低的消費性市場邁進,也不會是個難題。

緊密關注政策及市場變化,以技術授權搶先布局

被問到為何選在這個時間點創業,陳柏儒表示,是因為預見了美國助聽器市場將出現變動,因此才毅然決然辭掉原本在聯發科的工作,跳出來創業。這個即將發生的變動,就是美國食品藥品監督管理局(FDA)即將在 2020 年開放非處方(Over-the-Counter,OTC)助聽器上路,不但能大幅減低實驗跟認證的成本,讓助聽器平價化;且購買管道也會更加開放,不再有那麼繁瑣的驗配流程。

其實,在非處方助聽器正式開放前,除了受 FDA 認證規範的助聽器外,當前市面上還有所謂的輔聽器(Personal Sound Amplification Product,PSAP),外型及功能都與助聽器很相似,差別則在於輔聽器並不屬於醫療器材,且較為便宜,多為輕度聽障者使用,也有許多消費性電子裝置品牌商在耕耘這塊市場。如三星、SONY、BOSE 等已經著手推出帶有輔聽功能的藍牙耳機;而像是 Apple 的 AirPod,也已能結合語音助理,並透過 iOS 12 增加輔聽功能。他們都算是產品的先行者,準備從輔聽器轉攻非處方助聽器,現階段 Relajet 已經與這類消費性電子裝置品牌大廠談合作,從輔聽器領域開始布局。

同一時間,Relajet 也持續接洽全球六大助聽器品牌商。一旦非處方助聽器上路後,從消費性電子裝置到助聽器的品牌商,都會加入搶食這塊大餅。而 Relajet 便要抓住這一趨勢,以多人聲分離引擎這套解決方案占得先機。

陳柏儒說,除了導入輔聽器及非處方助聽器,未來多人聲分離引擎也能應用到所有需要語音辨識的產品上,像是智慧音箱、車用系統等,走入一般消費市場。Relajet 主要負責抓取聲音特徵值的前端處理,就如同聲音的入口,做到 Voice as a Service,商業模式會類似杜比音效那樣,將技術授權給產品使用,以獲得特定功能。

完整規劃產品時程,前進 CES 接軌歐美市場

2018 年三月才成立的 Relajet,已經與美國的語音處理晶片商合作;此外,若是有廠商需要導入他們的引擎,他們也提供 NRE(Non-recurring engineering,一次性工程費用)與授權的服務,將產品賦予功能。目前主攻醫療與具備輔聽功能的耳機,所有客戶的產品都已進入設計階段,短期目標是在 2019 年第一季就要有客戶產品正式導入 Relajet 的技術,並在 2020 年就把所有非處方助聽器的解決方案與引擎調校完畢。

而中期目標,則是與全球的語音資料庫進行整合。由於不同的語系,聲音模型會有微妙差異,AI 演算法需要根據不同語系調整,加上六大助聽器品牌商在歐美就有 95% 市占率,因此 Relajet 的技術還是會先聚焦歐美語系。隨著非處方助聽器解禁,帶來了全新、具有潛力的市場,2020 年將多人聲分離引擎導入六大品牌商的非處方助聽器產品中勢在必得。

透過這次由台灣科技部 Tawian Tech Arena 帶領新創團隊參加 CES 2019 的機會,陳柏儒也希望多接觸美國本土的助聽器品牌商,以及矽谷的語音處理技術商,接洽成為戰略合作夥伴。