不到兩個月的時間硅基智能連續(xù)獲得6項(xiàng)數(shù)字人發(fā)明專利,包括實(shí)時音頻驅(qū)動人臉生成方法、三維人臉表情渲染方法、訓(xùn)練神經(jīng)輻射場模型等涉及計算機(jī)視覺(CV)、自動語音識別(ASR)、自然語言處理(NLP)領(lǐng)域的多項(xiàng)人工智能技術(shù)專利。截至目前,硅基智能已擁有授權(quán)專利77件(含5件美國發(fā)明專利、1件新加坡專利)。
前瞻產(chǎn)業(yè)研究院《2023年全球數(shù)字人行業(yè)技術(shù)全景圖譜》顯示:2022年1-12月,全球數(shù)字人行業(yè)專利申請數(shù)量和專利授權(quán)數(shù)量分別為3054項(xiàng)和230項(xiàng),成功通過申請率僅為%。硅基智能短時間內(nèi)成功收獲多項(xiàng)專利授權(quán),足見在數(shù)字人賽道中技術(shù)實(shí)力的頭部地位。
(資料圖片)
硅基智能兩個月內(nèi)連獲6件專利授權(quán)
據(jù)悉,這6項(xiàng)專利發(fā)明涉及“唇形與語音能否一致、語音實(shí)時驅(qū)動人臉、人臉表情精準(zhǔn)遷移、音頻驅(qū)動人臉清晰度”等影響數(shù)字人形象仿真效果的重要技術(shù),是硅基智能作為AIGC數(shù)字人品類發(fā)明人所進(jìn)行的全面細(xì)致、系統(tǒng)性的專利技術(shù)布局。
硅基智能聲學(xué)團(tuán)隊(duì)針對ASR相關(guān)技術(shù)申請的”文本輸出方法及系統(tǒng)、存儲介質(zhì)、電子裝置“專利,針對數(shù)字人語音識別系統(tǒng)對于不同聲學(xué)模型無法理想融合問題進(jìn)行了突破。
利用上述文本輸出系統(tǒng)進(jìn)行語音識別過程中,可在不增加明顯時耗的基礎(chǔ)上同時對齊多個文本,融合詞頻和置信度信息,提升融合效果來提高模型穩(wěn)定性,優(yōu)化文本輸出算法和系統(tǒng)架構(gòu),使得數(shù)字人能夠更準(zhǔn)確地識別和轉(zhuǎn)換語音輸入,大大提高數(shù)字人音頻驅(qū)動、真人驅(qū)動模式下的語音識別準(zhǔn)確性、實(shí)時性,為全球用戶帶來更高水平的數(shù)字人交互體驗(yàn)。
硅基智能CV團(tuán)隊(duì)同樣也構(gòu)建了計算機(jī)視覺相關(guān)的全套專利群,此次的”訓(xùn)練神經(jīng)輻射場模型和人臉生成方法、裝置及服務(wù)器“專利。攻克了“多層感知器對神經(jīng)輻射場模型訓(xùn)練、學(xué)習(xí),只能實(shí)現(xiàn)低清晰度的人臉視頻生成,無法基于音頻驅(qū)動實(shí)時生成高清人臉視頻”的技術(shù)壁壘。
硅基數(shù)字人專利攻克實(shí)時生成數(shù)字人高清人臉視頻技術(shù)壁壘
該發(fā)明無需其他任何中間模態(tài)的轉(zhuǎn)換,如人臉表情,人臉關(guān)鍵點(diǎn)等,進(jìn)一步提高了語音到人臉形狀映射的準(zhǔn)確性。并且,該發(fā)明無需大量成對的語音、視頻數(shù)據(jù)集,只需要單人提供的短視頻即可用于模型訓(xùn)練。同時,該發(fā)明使用圖像像素位置特征,用于訓(xùn)練神經(jīng)輻射場,以及設(shè)計感知損失函數(shù),用于優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù),以此顯著提升音頻驅(qū)動人臉生成渲染清晰度,避免局部模糊、動作卡頓,使數(shù)字人形象更加逼真自然,動作表情更加流暢順滑,提高圖像高頻差異感知,達(dá)到實(shí)時語音驅(qū)動高清人臉的數(shù)字人視頻生成效果。
IDC將數(shù)字人發(fā)展定義為5個階段 來源:IDC咨詢《中國AI數(shù)字人市場現(xiàn)狀與機(jī)會分析》
2022 年之前數(shù)字人大多處于 L1-L3 的階段,在AIGC技術(shù)浪潮下,行業(yè)頂尖數(shù)字人技術(shù)即將跨進(jìn) L4 階段,實(shí)現(xiàn)初步的智能化交互。得益于較早布局AIGC賽道,硅基智能AIGC數(shù)字人已是數(shù)字人L4階段的頭部代表,并無限逼近L5階段。硅基團(tuán)隊(duì)50%以上皆為研發(fā)人員,每年研發(fā)投入占比高達(dá)70%。正是硅基智能對數(shù)字人相關(guān)的AI技術(shù)和算法進(jìn)行的持續(xù)性研發(fā)投入,以及在計算機(jī)視覺、語音識別、自然語言處理等方面長期積累的技術(shù)能力,讓硅基智能AIGC數(shù)字人在全球范圍內(nèi)均處于行業(yè)頭部地位。
作為全球首創(chuàng)AIGC(Artificial Intelligence Generated Character)數(shù)字人模式的科技公司,硅基智能自2019年推出全球首個AI數(shù)字人以來,先后開創(chuàng)了數(shù)字人直播、數(shù)字人短視頻的創(chuàng)新行業(yè)應(yīng)用,憑借卓越的技術(shù)實(shí)力牢牢占據(jù)了全球數(shù)字人行業(yè)的領(lǐng)導(dǎo)地位。
硅基數(shù)字人賦能千行百業(yè)
硅基文明創(chuàng)立者、硅基智能創(chuàng)始人司馬華鵬曾說:“每一個新技術(shù)都有自己的成長周期,長期主義需要戰(zhàn)略定力,忽略短期噪音。在歐洲創(chuàng)業(yè)的前十五年我都致力于人工智能和計算機(jī)圖像算法領(lǐng)域的研發(fā),后來回國創(chuàng)立了硅基智能,把實(shí)現(xiàn)硅基文明作為未來十年要全力以赴去投入的事業(yè)。這兩條沉淀了二十多年的技術(shù)線的匯聚,構(gòu)成如今硅基數(shù)字人產(chǎn)品的‘表’和‘里’”。
硅基智能一直倡導(dǎo)科技平權(quán)的理念,利用AIGC技術(shù)實(shí)現(xiàn)科技普惠,計劃到2025年為全球輸出一億硅基勞動力,通過AIGC技術(shù)、數(shù)字人產(chǎn)品和產(chǎn)業(yè)生態(tài)的結(jié)合,打造AIGC領(lǐng)域的中國樣板。
同時,硅基智能不斷探索以科技力量解決社會問題,截止2022年中國共計有110萬失獨(dú)家庭,面對這樣的社會問題,硅基智能數(shù)字人技術(shù)已可實(shí)現(xiàn)用一段1-3分鐘視頻素材,克隆去世親人的數(shù)字分身,以實(shí)現(xiàn)和“真人”一樣逼真的“面對面”交流互動。
硅基智能生命克隆“數(shù)字人奶奶”
此外,硅基智能專注于解決各行業(yè)勞動力不足的剛性需求,利用AIGC技術(shù)創(chuàng)造大量硅基勞動力,同時助力企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。目前,硅基智能的業(yè)務(wù)遍布全球,已經(jīng)為數(shù)十個行業(yè)近萬家企業(yè)提供了數(shù)字人服務(wù)。
展望未來,硅基智能將繼續(xù)推動科技創(chuàng)新,積極響應(yīng)國家數(shù)字經(jīng)濟(jì)建設(shè)布局,充分發(fā)揮自身技術(shù)優(yōu)勢和商業(yè)化落地經(jīng)驗(yàn),以AI賦能助力加速產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型,打造更多智能化標(biāo)桿場景應(yīng)用案例,不斷為數(shù)字中國創(chuàng)新發(fā)展注入新動能。
熱門
聯(lián)系我們:435 226 40 @qq.com
版權(quán)所有 重播新聞網(wǎng) www.hbmingxingmzc.cn 京ICP備2022022245號-17