奧推網

選單
科技

車載語音互動技術繁榮發展,火山語音讓車企品牌“繪聲繪色”

汽車消費歷來是國民消費經濟的重要組成部分,配備了智慧技術的新能源汽車更是在近年來快速崛起,成為汽車消費的主流。在日益成熟的智慧汽車科技中,車載語音互動與應用隨之步入市場爆發期,進而成為繼智慧手機和智慧音箱之後的第三大智慧語音場景。在車載語音互動新勢力中,火山引擎憑藉長期以來對汽車行業的深刻洞察與豐富經驗,依託一直以來為位元組跳動內部各業務線提供優質語音AI技術能力以及全棧語音產品解決方案的火山語音團隊,為車企帶來了耳目一新的互動體驗。

日前,火山語音團隊正式為哪吒汽車旗下重磅車型哪吒S推出“哪吒音色”新功能,以更低成本和更高效率為車企打造專屬“音色”,成為哪吒汽車遙遙領先2022年新能源車新勢力銷量榜單的關鍵技術競爭力之一。據瞭解,“哪吒音色”不但可以生動表達高興、失落、嬌蠻、冷靜四種情緒,還支援河南話、廣東話、川渝話等特色方言以及以小蘿莉、活潑女聲等為代表的趣味音色。更重要的一點,憑藉超99%的準確率和線上、離線環境下穩定流暢的語音表現,火山語音成功讓汽車繪聲繪色,再造品牌新勢力。

智慧語音合成引領車載語音互動市場

據中國汽車工業協會資料,2022年1月到11月中國新能源汽車產銷超過600萬輛,同比均增長1倍,市場佔有率達25%,該市場的強勢拉昇已成定局,隨之而來車載語音互動市場迎來了發展的黃金期。

目前,車載語音互動功能已成為中國乘用汽車座艙內的標配功能,滲透率高達86%,其中以主機廠商、造車新勢力、智慧語音處理引擎及應用供應商、雲服務商、平臺整體商等為代表的“多元競爭”逐步走入白熱化階段,可以預見智慧語音合成技術或將成為各方勢力的下一個殺手鐧。

此外伴隨新能源汽車銷量的快速拉昇,也促成了新消費群體和需求的規模化湧現。以Z世代和女性消費群體為代表的新消費群體,對於消費個性化和差異化需求顯著,迫使汽車消費正從出行剛需轉向個性消費。社交需求、自我塑造、悅己需求等,讓智慧音色成為新消費群體選擇汽車品牌的新因素。總體而言,透過語音合成技術形成的個性化、情感化、可定製化的智慧音色,或成為突圍車載語音互動同質化競爭的關鍵突破口。

眾多周知,當前新能源汽車的車載語音通常為標準音色,主要由於可定製化音色通常需要不同的語料包進行訓練,但優質音訊資料和發音人較為稀缺,部分小語種音訊資料標註員更為稀缺等原因,所以訓練多趣味、多方言、多語種的音色模型消耗成本較高,因此能夠既好又快推出車載智慧音色的汽車品牌,或將率先佔領市場,而在這一方面,我們不可忽視哪吒汽車的異軍突起。

全新的智慧音色,背後是強大的技術實力

放眼廝殺激烈的中國新能源車市場,哪吒汽車交出的成績單可謂亮眼:2022年11月,月交付同比增長51%;1-11月累計交付同比增長142%……而在出色的銷售資料之下,實力強大的智慧技術體系不可小覷,其中就包括全雙工連續對話、可見即可說等流暢精準的智慧語音體驗,而近日“哪吒音色”的正式上線,則為使用者帶來了“你的情緒我都懂”的全新感受。

作為一款活力動感、富有“人情味兒”的車載語音助手音色,哪吒汽車S聯合火山語音為使用者提供了多樣與個性兼具的音色選擇,無論是趣味音色、還是多方言、多語種的嘗試,都可隨心切換。例如,“哪吒音色”提供了高興、失落、嬌蠻、冷靜四大情感互動場景,比方說無法完成車主要求時的歉意表達音色、車主違規超速時提醒的嬌蠻可愛音色等。關於此,火山語音團隊採用了半監督情感模組,僅憑藉1小時的情感資料作為參考,智慧分析出其餘全量錄製語句的情感型別和情感強度,進而讓所有錄製資料都參與合成語音情感能力的建模,實現更顯著、更自然和更細膩的情感表現力。值得提及的一點,在“哪吒音色”個性化的聽感下,是極速響應靈敏加成。火山語音團隊表示,“哪吒音色”運用了業界領先的基於無監督表徵的並行對抗深度神經網路,語音請求延時低於150毫秒,全鏈路句準確率達到98。1%。在語音質量MOS評分中達到4。6分(滿分5分),以行業領先水平做到“更懂你心”!

自2022年10月試上線以來,“哪吒音色”引起了使用者和眾多汽車品牌的強大興趣,其背後正是火山語音強大的語音合成能力。一直以來團隊針對資料獲取難、專業要求高、訓練難度大、消耗成本高等業界疑難問題開展多音色模型訓練,提出了低成本、高效率、批次生產的方案,為企業使用者提供了許多“聽得懂”、“說的好”、“會的多”的音色。尤其是不久之前上新發布的超自然對話語音合成技術,相較傳統TTS更加真實自然,語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細節都被精準復現,而且只需常規音庫1/4資料,就可極大還原真人說話細微的韻律特點、發音口癖,讓合成效果更加真實,給人帶來沉浸式的聽感體驗。其對外推出的“音色復刻技術”,作為一套全自動高效化的輕量級音色定製方案,不同於傳統語音合成技術對資料的高門檻要求,對資料量的需求僅為傳統方法的0。3%,普通人在相對安靜的開放環境錄製2分鐘以上,即可達到音色空間建模的標準,生成專屬音色的AI模型,便捷又高效。

在“哪吒音色”的背後是火山語音團隊。作為火山引擎語音合成產品的技術能力提供方,火山語音團隊即位元組跳動AI Lab Speech & Audio智慧語音與音訊團隊,自2017年成立以來就專注研發行業領先的AI智慧語音技術,截止2022年上半年,團隊已有17篇論文入選AI頂級會議,其中音訊生成方向接受了8篇論文。火山語音團隊攻克了很多語音合成技術的前沿挑戰,例如在在韻律建模方面,不同的語言、方言、風格都具備自身的韻律特點,有不同的語速、語調、重音模式等語音變化資訊,這種細粒度的韻律特徵顯著地影響著發音準確性和地道性,而傳統的端到端神經網路框架很難隱式建模和控制這種細粒度的韻律特徵變化。對此,火山語音團隊提出了音素級別細粒度韻律建模的AM架構,透過引入音調、短語重音等音素級別的韻律特徵以及音素級變數介面卡,可以分別實現音節、短語和句子級別語調、重音模式變化,實現“聽得懂”、“說的好”。

在火山語音團隊強大科研力量的支援下,火山引擎語音合成產品於2022年11月獲得國家語音及影象識別產品質量檢驗檢測中心頒發的語音合成增強級檢驗檢測證書,在語音合成的基本要求以及擴充套件要求上已達最高等級標準。經評測,火山引擎提供的音色MOS評分最高可達4。64分,處行業領先水平。目前,火山語音將打磨多年的語音技術能力面向市場,透過火山引擎開放給外部企業,已覆蓋汽車、金融、有聲閱讀、影片配音等眾多應用場景。

展望2023:

在火山語音團隊的持續創新與快速創新成果轉換的推動下,火山引擎已經成為了車載語音互動行業的新勢力,越來越多的車企品牌將在火山引擎平臺上快速發展,抓住2023年即將爆發的市場機會;而在更廣泛的智慧語音市場,火山語音團隊也將帶來源源不斷的新技術、新產品,以更低門檻、更高品質、更快交付等,助力更多行業大步邁入智慧時代!