近日,計(jì)算機(jī)視覺頂級會(huì)議CVPR 2022公布了會(huì)議錄取結(jié)果,美圖影像研究院(MT Lab)與北京航空航天大學(xué)可樂實(shí)驗(yàn)室聯(lián)合發(fā)表的論文被接收。該論文突破性地提出分布感知式單階段模型(DAS),用于解決極具挑戰(zhàn)性的多人3D人體姿態(tài)估計(jì)問題。該方法通過一次網(wǎng)絡(luò)前向推理同時(shí)獲取3D空間中人體位置信息以及相對應(yīng)的關(guān)鍵點(diǎn)信息,從而簡化了預(yù)測流程,提高了效率。此外,該方法有效地學(xué)習(xí)了人體關(guān)鍵點(diǎn)的真實(shí)分布,進(jìn)而提升了基于回歸框架的多人3D人體姿態(tài)估計(jì)方法的精度。
實(shí)際上,這只是美圖利用人工智能為影像技術(shù)賦能的冰山一角。早在2010年,美圖就成立了核心研發(fā)部門——美圖影像研究院,該研究院致力于計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、增強(qiáng)現(xiàn)實(shí)等人工智能(AI)相關(guān)領(lǐng)域的研發(fā),在人臉技術(shù)、人體技術(shù)、圖像分割、圖像識別、圖像生成、圖像增強(qiáng)等方面處于領(lǐng)先水平,為美圖現(xiàn)有和未來的產(chǎn)品提供核心算法支持,并通過前沿技術(shù)推動(dòng)美圖產(chǎn)品發(fā)展,曾先后多次參與CVPR、ICCV、ECCV等計(jì)算機(jī)視覺國際頂級會(huì)議,并斬獲冠亞軍10余項(xiàng),被稱為美圖的“技術(shù)中樞”。
高效精準(zhǔn)獲取多人3D人體姿態(tài)估計(jì)結(jié)果
計(jì)算機(jī)視覺中的經(jīng)典技術(shù)——多人3D人體姿態(tài)估計(jì)在AR/VR、游戲、運(yùn)動(dòng)分析、虛擬試衣等領(lǐng)域具有廣泛的應(yīng)用潛力,近年來隨著元宇宙概念的興起,更是讓這一技術(shù)備受關(guān)注。
目前,通常采用兩階段方法來解決多人3D人體姿態(tài)估計(jì)的問題:自頂向下方法,即先檢測圖片多個(gè)人體的位置,之后對檢測到的每個(gè)人使用單人3D姿態(tài)估計(jì)模型來分別預(yù)測其姿態(tài);自底向上方法,即先檢測圖片中所有人的3D關(guān)鍵點(diǎn),之后通過相關(guān)性將這些關(guān)鍵點(diǎn)分配給對應(yīng)的人體。
盡管兩階段方法取得了良好的精度,但是需要通過冗余的計(jì)算和復(fù)雜的后處理來順序性地獲取人體位置信息和關(guān)鍵點(diǎn)位置信息,其速率通常難以滿足實(shí)際場景需求,因此多人3D姿態(tài)估計(jì)算法流程亟須簡化。
為了克服兩階段方法存在的問題,該論文提出了一種分布感知式單階段模型用于解決基于單張圖片的多人3D人體姿態(tài)估計(jì)問題。另外,DAS在優(yōu)化過程中對3D關(guān)鍵點(diǎn)的分布進(jìn)行學(xué)習(xí),這為3D關(guān)鍵點(diǎn)的回歸提供了極具價(jià)值的指導(dǎo)性信息,從而有效地提升了預(yù)測精度。
此外,為了緩解關(guān)鍵點(diǎn)分布估計(jì)的難度,DAS采用了一種迭代更新策略以逐步逼近真實(shí)分布目標(biāo),通過這樣一種方式,DAS可以高效且精準(zhǔn)地從單目RGB圖片中一次性獲取多個(gè)人的3D人體姿態(tài)估計(jì)結(jié)果。
與已有的兩階段方法相比,該模型可以通過一次網(wǎng)絡(luò)前向推理同時(shí)獲取人體位置信息以及所對應(yīng)的人體關(guān)鍵點(diǎn)位置信息,從而有效地簡化預(yù)測流程,克服了已有方法在高計(jì)算成本和高模型復(fù)雜度方面的弊端。另外,該方法成功將標(biāo)準(zhǔn)化流引進(jìn)到多人3D人體姿態(tài)估計(jì)任務(wù)中,以在訓(xùn)練過程中學(xué)習(xí)人體關(guān)鍵點(diǎn)分布,并提出迭代回歸策略緩解分布學(xué)習(xí)難度,來達(dá)到逐步逼近目標(biāo)的目的。通過該模型可以獲取數(shù)據(jù)的真實(shí)分布,有效地提升模型的回歸預(yù)測精度。
人工智能技術(shù)大大提升攝影修圖效率
對人臉皮膚進(jìn)行精細(xì)化的瑕疵修復(fù)與暗沉祛除,一鍵入“齒”修復(fù)牙齒上的瑕疵,照片上模糊的容顏清晰重現(xiàn),全身美型告別大粗腿、水桶腰……AI技術(shù)正讓修圖小白秒變大師。
一家商業(yè)攝影機(jī)構(gòu)的業(yè)務(wù)流程基本包括:營銷獲客、攝影服務(wù)、后期處理、成品制作等環(huán)節(jié)。其中,后期修圖是商業(yè)攝影工作流程中占比高、耗時(shí)長、工作量大的一個(gè)環(huán)節(jié)。
在旺季或者拍攝任務(wù)激增時(shí),從拍攝到出片的周期甚至長達(dá)1個(gè)月左右。尤其是在人像處理部分,非常考驗(yàn)修圖師的專業(yè)功底,而一名合格修圖師的培養(yǎng)需要耗費(fèi)高昂的人力、物力成本,還需要面臨人員頻繁流動(dòng)的風(fēng)險(xiǎn)。
美圖創(chuàng)始人兼首席執(zhí)行官吳欣鴻在接受科技日報(bào)記者采訪時(shí)表示,據(jù)不完全統(tǒng)計(jì),商業(yè)攝影1年修圖可達(dá)120億張,大量繁雜的重復(fù)性勞動(dòng)以及較高的技術(shù)門檻,給商業(yè)影樓帶來巨大的成本壓力。借助AI技術(shù)完成重復(fù)繁雜的后期初修工作,不僅能夠提升商業(yè)攝影后期的修圖效率,同時(shí)也為商業(yè)攝影行業(yè)提供了深度融合美學(xué)藝術(shù)的專業(yè)級圖像處理服務(wù)。
由美圖技術(shù)大腦——美圖影像研究院自主研發(fā)的美圖云修,通過智能預(yù)設(shè)功能,一鍵即可完成對照片的批量處理。其中,臉部優(yōu)化功能可以修復(fù)面部瑕疵,打造細(xì)膩肌膚;妝容調(diào)整功能可實(shí)現(xiàn)對妝容的智能調(diào)節(jié)。此外,美圖云修還能夠完成塑造立體的面部五官、分區(qū)域?qū)崿F(xiàn)全身美型、美化身體肌膚等80余項(xiàng)修圖工作。同時(shí),靈活自由的參數(shù)自定義也滿足了用戶對修圖更專業(yè)的需求。
“美圖云修還提供濾鏡特效、牙齒修復(fù)、祛雙下巴、勻膚、縮頭、一鍵仿妝、背景增強(qiáng)、多人全身美型等獨(dú)特功能,可以幫助影樓快速完成約80%的精修工作。”美圖技術(shù)副總裁、美圖影像研究院負(fù)責(zé)人劉洛麒表示。
我國影像軟件技術(shù)攜手AI大步向前
今年3月30日,美圖披露2021年全年業(yè)績報(bào)告。報(bào)告顯示,2021年美圖研發(fā)投入達(dá)5.455億元,同比2020年增長35%。
隨著中國影像軟件產(chǎn)業(yè)對技術(shù)研發(fā)投入的不斷加大,近年來中國影像軟件在技術(shù)能力方面有了很大的進(jìn)展,有些已經(jīng)不輸國外同類產(chǎn)品。
“我們推出的視頻美顏App——Wink,它的視頻人像美化功能需要將人像美顏從圖像擴(kuò)展到視頻維度,這就需要實(shí)時(shí)的人臉檢測跟蹤、分割、3D建模等技術(shù)與人像美顏算法進(jìn)行有機(jī)結(jié)合,同時(shí)還要應(yīng)對視頻抖動(dòng)、大側(cè)臉等極端情況,才能為用戶提供滿意的結(jié)果。”劉洛麒說。
“用戶拍攝的照片或視頻存在清晰度低、畫質(zhì)差、產(chǎn)生噪點(diǎn)等問題,我們利用基于深度學(xué)習(xí)的畫質(zhì)增強(qiáng)技術(shù)能夠提高用戶照片與視頻的質(zhì)量,滿足他們的拍攝需求。同時(shí),我們也將深度學(xué)習(xí)應(yīng)用到人像美顏中,例如我們自主研發(fā)的AI勻膚技術(shù),既能祛除臉部瑕疵,同時(shí)也保留了細(xì)膩的皮膚紋理質(zhì)感。”吳欣鴻說。
“我們基于AI研發(fā)的人體美型技術(shù),不是簡單地對人體進(jìn)行拉伸,而是先結(jié)合人體3D重建、人體分割等技術(shù)去建立人體的三維模型,再利用深度學(xué)習(xí)算法學(xué)習(xí)美化之后的人體模型形變,同時(shí)對背景的Mesh(網(wǎng)格)進(jìn)行建模,從而緩解背景的變形扭曲,最終實(shí)現(xiàn)用戶滿意的人體美型效果。”劉洛麒指出。
此外,美圖證件照應(yīng)用到的人像摳圖技術(shù),可以實(shí)現(xiàn)發(fā)絲級的精細(xì)摳圖,完成對證件照人像的一鍵換裝,同時(shí)保持人像和背景的光線和諧性。而基于AI生成的增發(fā)技術(shù),可以調(diào)整發(fā)際線,可以改變發(fā)色和發(fā)型,還能使頭發(fā)顯得更蓬松。
未來,人工智能將如何賦能影像技術(shù)?對此,吳欣鴻表示,一方面,基于人工智能的影像技術(shù),將與各行各業(yè)有更多、更深入的結(jié)合,這也對影像技術(shù)提出了更高的要求。另一方面,通過3D技術(shù)和AR技術(shù)等,為用戶提供沉浸式和可交互的虛擬化體驗(yàn)也是未來影像技術(shù)發(fā)展的熱門方向。