Intel RealSense D435i 3D面部和動作捕捉功能介紹
Intel RealSense D435i(實感技術(shù))概覽,本文對Intel RealSense D435i 3D面部和動作捕捉功能做簡要介紹
前段時間CES的報道滿天飛,網(wǎng)上逛了幾圈,感覺料猛的還數(shù)Intel:老樹開新花,推出14nm的第五代酷睿處理器;在智能可穿戴設(shè)備及物聯(lián)網(wǎng)上雄起;RealSense實感技術(shù)開啟未來人機交互模式。之前總聽老哥講,鼠標鍵盤這些傳統(tǒng)交互模式統(tǒng)治了二三十年,目前跟蹤識別爆火且技術(shù)趨于成熟,新的交互革命快要打響了。看RealSense這陣勢,估計不出三五年新的交互便會普及開來。
英特爾早在2012年左右就著重研發(fā)實感技術(shù),當(dāng)時叫Perceptual Computing,即感知計算,并開放英特爾? 感知計算軟件開發(fā)套件 2013 版(Intel? Perceptual Computing Software Development Kit, SDK 2013),設(shè)重獎舉辦因特爾感知計算挑戰(zhàn)賽,吸引眾多開發(fā)者參與。隨著技術(shù)完善與成熟,2014年初更名為RealSense,即實感技術(shù),而后發(fā)布了新的Intel? RealSense? SDK 2014 ,同時舉行2014英特爾?RealSense?應(yīng)用挑戰(zhàn)賽。
基于此技術(shù)的應(yīng)用在IDF2014及今年CES上大放異彩。
Intel? RealSense? SDK的架構(gòu):SDK core,I/O module和Capability modules組成整個SDK堆棧的基礎(chǔ)。SDK core管理I/O module和Capability modules同時組織并管理管線的執(zhí)行。I/O module捕獲設(shè)備的輸入數(shù)據(jù)而后發(fā)送數(shù)據(jù)到輸出設(shè)備或Capability modules。Capability modules也叫algorithm modules,主要包括各種模式檢測和識別算法(面部跟蹤和檢測、手部跟蹤、手勢識別、語音識別及合成等)。
各功能:手部和手指跟蹤、面部分析、語音識別、背景移除、目標跟蹤、增強現(xiàn)實、3D掃描。
1. 手
SDK將手抽象出骨架,并從背景中剝離出來。允許在照相機的0.2–1.2米范圍內(nèi)跟蹤手上的22個點的位置和方向,如圖。左右手是區(qū)分的,因而可以雙手進行交互。
手勢識別:包括靜態(tài)手勢識別和動態(tài)手勢識別。SDK中內(nèi)嵌了一系列手勢如下圖。你可以用內(nèi)嵌的這些手勢組合出新的手勢,也可以根據(jù)手骨架上那22個點位置創(chuàng)建出新的手勢。
動態(tài)手勢識別:靜態(tài)手勢可以單獨使用,當(dāng)然也可以組合使用形成一定的動作。組合時要求開始的手勢和結(jié)束的手勢都已在手勢識別系統(tǒng)中注冊。
SDK給出了一系列動作如下:
2.臉
臉部檢測:SDK提供準確的3D臉部檢測和跟蹤,且可以同時跟蹤4張人臉。每張人臉用長方形來標記,你可以獲得長方形的XYZ坐標。與2D跟蹤相比,3D頭部跟蹤在頭部運動方面更給力。
臉部識別:SDK提供識別特定人臉的能力。特定ID對應(yīng)注冊的特定人臉,并將此人臉的信息存儲到人臉庫的內(nèi)存中。如果同張人臉被注冊多次,那這張人臉被正確識別的機會將會增大。當(dāng)沒被識別的人臉出現(xiàn)時,識別模塊將與數(shù)據(jù)庫中的可能數(shù)據(jù)進行比對,如果找到匹配則返回此人臉對應(yīng)的ID。
用戶不用擔(dān)心自己的頭像被存儲,因為存儲的只是算法從圖像中提取的特征的集合。
頭的運動:SDK提供頭部運動的3D方向:俯仰、左右轉(zhuǎn)動、左右偏轉(zhuǎn),如圖。
所以可以輕松獲得用戶頭部指向哪里。也可以以此做粗略的眼神跟蹤,下一版將會推出更精細的眼神跟蹤。
標記點跟蹤:SDK提供臉部78個標記點的跟蹤以提高臉部識別和分析的準確度。在圖像和坐標系中給出這78個標記點的位置。臉部標記點跟蹤支持頭像創(chuàng)建、臉部動畫、擬態(tài)及簡單的表情識別??梢灾苯佑眠@些點或這些點的相對位置來作分析。不管你有沒有劉海、戴不戴眼鏡,這種標記點跟蹤都支持。但用戶頭部在屏幕30度內(nèi)效果*好。
面部表情識別:SDK也包括更高級的面部表情識別。這使得你創(chuàng)建卡通頭像更簡單。每一種表情有1到100的強度等級使得你做的動畫更平滑自然。SDK中表情:
情感識別:SDK中的情感識別算法用的是2D RGB數(shù)據(jù)。情感模塊是獨立的模塊,并非臉部模塊的一部分。為保障情感識別正常工作,圖像中的人臉至少要有48×48個像素。此算法并不局限于RGB數(shù)據(jù),灰度數(shù)據(jù)同樣可行。利用SDK,你可以檢測并估計以下六種原始情感的強度。
頭像控制:SDK通過結(jié)合面部表情及78個標記點提供簡單的頭像控制功能。SDK提供動畫角色的示例代碼,使你的應(yīng)用可以適應(yīng)任何臉型并把用戶頭像動畫化。
應(yīng)用場景:
3. 語音
主要包括語音命令和控制、聽寫、從文字轉(zhuǎn)譯成語音等功能。只支持英語,語音識別對成年人效果*好。
語音識別:分為命令模式和聽寫模式。命令模式需提前設(shè)定命令列表,特定命令綁定特定動作。聽寫模式內(nèi)置了一個通用的詞典,包括50k個常用單詞。如果你覺得不夠用,也可以自己添加詞典中沒有的單詞。聽寫模式限時30秒。命令和聽寫模式不可同時開啟。
語音分析:SDK也可以根據(jù)文本動態(tài)的生成語音,由女聲讀出。
4. 背景移除
可以實時的移除背景并替換成新的背景。
應(yīng)用場景:
5. 目標跟蹤
Metaio*3D目標跟蹤模塊提供基于光學(xué)的跟蹤技術(shù),可以跟蹤視頻序列或場景中的目標物。Metaio工具箱可以訓(xùn)練、創(chuàng)建并編輯3D模型,這些模型可以傳給各種目標檢測及跟蹤算法。
跟蹤技術(shù)支持平面的2D目標跟蹤、基于特征的3D跟蹤、CAD模型的基于邊界的3D跟蹤及即時3D跟蹤。
6. 增強現(xiàn)實
用音頻、視頻、圖像或其他信息來添加、增強或補充英特爾實感技術(shù)游戲的內(nèi)容。
7. 三維掃描和打印
可以掃描、編輯、打印和分享三維物體,并與 3D Systems展開合作。
目前因特爾已經(jīng)與騰訊合作創(chuàng)立游戲創(chuàng)新實驗室,推進實感技術(shù),并打造了《軒轅傳奇》。與京東合作建立“京東因特爾聯(lián)合創(chuàng)新實驗室”,推出虛擬試衣、3D物品展示等,使實感技術(shù)落地電商平臺。同時因特爾自己也在不斷推出自己的實感技術(shù)產(chǎn)品。這不前兩天在北京推出其全新的第五代酷睿處理器家族,搭載此處理器的多款產(chǎn)品還配備了英特爾實感技術(shù),看來這項技術(shù)很快就會遍地開花。
只要你的處理器是第四代及四代以后英特爾? 酷睿?處理器,操作系統(tǒng)滿足Microsoft* Windows 8.1(僅限64 bit),再外購一個英特爾? RealSense? 3D 攝像頭就可以下載SDK玩起來。估計不久聯(lián)想、戴爾、華碩、宏基、惠普等等搭載第五代酷睿處理器并內(nèi)嵌因特爾3D攝像頭的超很本、二合一及一體機設(shè)備就會上市,那時玩起來會更爽。
資料來源:RealSenseSDKdesignGuidelinesGold
補充一點自己的實際體會:
1.基于結(jié)構(gòu)光方案的深度相機,受光線影響很大,下午太陽光照進來,深度數(shù)據(jù)殘缺嚴重,這個就是所謂的激光散斑受強光淹沒掉了。
2.手勢識別中,靜態(tài)手勢,手型識別效果不錯。同時,對著深度相機方向的手勢運動,識別效果也不錯。但左右方向的運動手勢,效果很差。主要是視場角小,深度數(shù)據(jù)殘缺嚴重。
3.SDK可支持多個設(shè)備同時鏈接 。采用一臺設(shè)備,一個線程來管理維護。線程內(nèi)部,SDK所有功能都支持。也就是多個設(shè)備互不影響。
4.手勢,采用22點骨架模型。大致的手型是可以捕捉的, 但是容易受到環(huán)境光影響,在準確獲取手部動作時還是考慮使用專業(yè)的數(shù)據(jù)手套設(shè)備,比如WONGLOVE數(shù)據(jù)手套。
5.手勢識別,在20~55cm范圍內(nèi)可用。其實,整體來看,只能是小范圍運動情況了。
- 上一篇:UNITY3D使用C#腳本的幾種讀寫TXT文本文件的方法 2019/11/12
- 下一篇:realsense顯示限定范圍內(nèi)的圖像物體 2019/11/11