前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的基于神經(jīng)網(wǎng)絡(luò)的手勢識別主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:計算機(jī)視覺 手勢識別 OpenCV 靜態(tài)手勢識別
中圖分類號:TP3 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2014)03(c)-0048-02
計算機(jī)從問世以來就在逐步改善我們的生活。隨著計算機(jī)在各個領(lǐng)域使用的普及化,人機(jī)交互技術(shù)正在此時引起了世界各國專家們極大的興趣,并對其開始進(jìn)行深入的研究。近些年來,對于符合人際交流習(xí)慣的新型人機(jī)交互技術(shù)的研究變的相當(dāng)?shù)幕钴S。而這些研究中主要包含了人的臉部識別、面部表情變化的識別、唇讀、凝視與頭部運動的跟蹤以及手勢識別等方面。而手勢識別則因為更加符合人與人之間的交流習(xí)慣,從而成為了一種以人為交互的中心的新型的人機(jī)交互技術(shù)。因此,手勢識別技術(shù)已經(jīng)成為人機(jī)交互領(lǐng)域的一大研究熱點,本文主要研究基于視覺的靜態(tài)手勢識別技術(shù)。
1 手勢識別技術(shù)的分類
近些年,手勢技術(shù)已經(jīng)出現(xiàn)了幾種比較完善的理論體系,通過不同的手勢輸入設(shè)備可以將手勢的識別主要分為基于視覺的手勢識別和基于數(shù)據(jù)的手勢識別這兩種技術(shù)。
1.1 基于數(shù)據(jù)手套的手勢識別
作為一種交互設(shè)備的數(shù)據(jù)手套,它在虛擬現(xiàn)實中應(yīng)用廣泛,有只利用幾個傳感器來測量手勢中手指的彎曲度的簡單的數(shù)據(jù)手套,也有用多個傳感器來測量手勢中的多個信息的復(fù)雜的數(shù)據(jù)手套?;跀?shù)據(jù)手套的手勢識別技術(shù)是利用數(shù)據(jù)手套和位置跟蹤器測量手勢在空間運動中的軌跡和時序信息。在手勢識別的過程中,被識別人佩戴數(shù)據(jù)手套后建立3D手勢模型,系統(tǒng)可以通過所佩戴數(shù)據(jù)手套上的多個傳感器來采集動態(tài)手勢的運動信息,應(yīng)用一系列識別算法,達(dá)到識別的效果。
1.2 基于視覺的手勢識別
基于視覺的手勢識別技術(shù)是通過攝像頭來采集手勢,這里的攝像頭可以是單個或者多個。之后對所采集到的手勢進(jìn)行相應(yīng)的特征提取后對特征進(jìn)行識別,從而達(dá)到識別手勢的目的。相比前者,基于視覺的手勢識別技術(shù)的優(yōu)勢在于手勢采集設(shè)備比較便宜,同時基于視覺的手勢識別技術(shù)能夠使人以更自然的方法與機(jī)器進(jìn)行交互。缺點是這種技術(shù)實時性較差,受外界因素的影響較大,例如背景、光照等。
2 手勢識別技術(shù)在人機(jī)交互中的應(yīng)用
手勢識別作為典型的人機(jī)交互技術(shù),主要有以下幾個方面的應(yīng)用。
(1)主要用于虛擬環(huán)境上的交互。如:虛擬的裝配、虛擬的制造、產(chǎn)品設(shè)計等等。虛擬的裝配主要是通過手的動作來控制零件的裝配工作,并且還可以通過語音與手勢之間的合成來定義零件之間的裝配關(guān)系,同時還可以將手勢識別用在復(fù)雜的設(shè)計信息輸入上。
(2)主要用于手語的識別。對于聾啞人來說,手語是他們的語言,也是他們依賴的對象,而手語則是由手型、動作、表情、姿勢等方面所構(gòu)成的一套手語交流的體系,它主要是依賴視覺與動作的交流。當(dāng)手勢識別與手語相互結(jié)合之后,機(jī)器就能看懂聾啞人的語言,故而,形成一套人與機(jī)器的手語翻譯系統(tǒng),這樣就很好地便于聾啞人的交流。
(3)用于機(jī)械手的抓取。機(jī)械手的自然抓取一直是機(jī)器人研究領(lǐng)域的難點。手勢識別,尤其是對于基于數(shù)據(jù)手套的手勢識別技術(shù)的研究對克服這個問題有重要的意義,是手勢識別的重要應(yīng)用領(lǐng)域之一。
3 手勢識別技術(shù)的主要識別方法
目前,無論是在基于數(shù)據(jù)手套的手勢識別還是基于視覺的手勢識別技術(shù)都有很多的分類識別算法,常用的主要有模板匹配法、神經(jīng)網(wǎng)絡(luò)法、隱馬爾科夫模型法(HMM)和支持向量機(jī)法等等。
3.1 神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)作為一種被廣泛應(yīng)用的工具,在靜態(tài)手勢識別中也起到很大的作用。神經(jīng)網(wǎng)絡(luò)是一種大規(guī)模并行處理網(wǎng)絡(luò)。由許多具有非線性映射能力的神經(jīng)元組成,神經(jīng)元之間通過權(quán)相連。神經(jīng)網(wǎng)絡(luò)作為一種靜態(tài)手勢識別技術(shù),具有自組織和自學(xué)習(xí)能力,能有效抗噪聲、同時具有很強(qiáng)的容錯性和魯棒性。經(jīng)過多年發(fā)展,人工神經(jīng)網(wǎng)絡(luò)已經(jīng)具有很多模型,例如模糊神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)。目前應(yīng)用比較廣泛的是以反向傳播學(xué)習(xí)算法為基礎(chǔ)的多層神經(jīng)網(wǎng)絡(luò),簡稱為BP神經(jīng)網(wǎng)絡(luò)。
3.2 隱馬爾可夫模型(HMM)方法
對于動態(tài)的手勢,可以理解成一個連續(xù)區(qū)間內(nèi)的手勢信號。而對于分析區(qū)間內(nèi)的信號,通常采取HMM方法進(jìn)行模型化。HMM是在馬兒可夫鏈的基礎(chǔ)之上發(fā)展起來的。由于實際問題比馬兒可夫鏈模型所描述的更為復(fù)雜,觀察到的事件并不是與狀態(tài)一一對應(yīng)的,而是通過一組概率分布相聯(lián)系,這樣的模型就稱為HMM。它是一個雙重隨機(jī)過程:一是馬兒可夫鏈,這是基本隨機(jī)過程,它描述狀態(tài)的轉(zhuǎn)移;另一個隨機(jī)過程描述狀態(tài)和觀察值之間的統(tǒng)計對應(yīng)關(guān)系。這樣,站在觀察者的角度,只能看到觀察值,不像鏈馬兒可夫模型中的觀察值和狀態(tài)一一對應(yīng),因此,不能直接看到狀態(tài),而是通過一個隨機(jī)過程去感知狀態(tài)的存在及其特性。因而稱之為“隱”馬兒可夫模型,即HMM。 然而正是由于HMM拓?fù)浣Y(jié)構(gòu)的一般性,導(dǎo)致這種模型在分析動態(tài)手勢信號時過于復(fù)雜,使HMM訓(xùn)練和識別計算量過大,尤其是在連續(xù)的HMM中,由于需要計算大量的狀態(tài)概率密度,需要估計的參數(shù)個數(shù)較多,使得訓(xùn)練及識別的速度相對較慢,因而以往手勢識別系統(tǒng)所采用一般為離散HMM。
3.3 模板匹配方法
這是一種最簡單的識別技術(shù),其核心的思想就是將輸入的原始數(shù)據(jù)與預(yù)先存儲的模板進(jìn)行匹配,通過測量兩個模板之間的相似度來完成識別任務(wù)。最常用的匹配方法有加權(quán)歐氏距離法,相關(guān)系數(shù)法以及對數(shù)距離法。目前,這種方法廣泛用于靜態(tài)手勢識別,具有計算簡單、速度快的特點。
4 本文研究工作
4.1 本報告的研究內(nèi)容
本手勢識別系統(tǒng)的工作原理:在已經(jīng)獲取的手勢照片中,每個手勢選取4張圖片作為模板,提取三個特征值,作為貝葉斯分類器的訓(xùn)練樣本,訓(xùn)練完成后,用同樣的方法提取讀入圖片的三個特征值,用貝葉斯分類器對其分類進(jìn)行預(yù)測,從而得到識別結(jié)果
系統(tǒng)可以實時的對本文預(yù)定義的六個手勢進(jìn)行識別,六個手勢按照手指數(shù)分別定義為0,1,2,3,4,5。系統(tǒng)由三個模塊所組成,分別為圖像預(yù)處理、特征提取以及手勢的分類識別。
(1)手勢圖像預(yù)處理:減少圖片的像素值后通過膚色檢測檢測手所在區(qū)域,將圖像二值化,用邊緣檢測方法提取手勢的邊緣圖像。
(2)手勢圖像特征提取:在得到手勢的邊緣圖像以及輪廓矩陣之后,按照本文所采用的手勢特征,對手勢進(jìn)行特征提取,生成手勢的特征向量。
(3)手勢的分類識別:本文采用訓(xùn)練過的貝葉斯分類器計算后驗概率,選擇最大的后驗概率的類作為該手勢所屬的類別,即得出系統(tǒng)的識別結(jié)果。
4.2 圖像處理與特征提取
4.2.1 圖像預(yù)處理和膚色區(qū)域提取
對讀入的圖像先進(jìn)行預(yù)處理,將圖片的像素減少以增加運行速度。膚色區(qū)域的提取算法原理如下:膚色在YCbCr空間里的Cb、Cr分量聚集成一個橢圓形狀,KL變換就是將坐標(biāo)軸按照訓(xùn)練膚色樣本的分布方差經(jīng)過旋轉(zhuǎn)平移成一組新的正交坐標(biāo)軸,然后再這新的坐標(biāo)系中構(gòu)建橢圓膚色檢測模型,在本系統(tǒng)中就是把圖像的Y、Cb、Cr三個通道分開,然后用指針分別對這三個通道的每一個像素進(jìn)行處理。
4.2.2 手勢圖像特征提取
本系統(tǒng)主要提取了手勢的三個特征,提取方法如下:
(1)手勢圖像內(nèi)手所占面積與手區(qū)域外接矩形面積的比值,提取方法為對圖像內(nèi)的像素點進(jìn)行掃描,得到最靠近圖片四周的白色像素點,經(jīng)過這幾個像素點做圖片邊長的平行線得到該矩形并計算面積,手勢面積是計算提取膚色之后的圖片中白色像素點的數(shù)量來獲得。
(2)手區(qū)域外接矩形的寬與長的比值,矩形的長與寬的獲得方法如上。
(3)手指數(shù)量,用一根水平線對進(jìn)行過邊緣提取的圖片進(jìn)行從上到下的掃面,求出出現(xiàn)在該水平線上白色像素點的最大值,記為ymax,手指數(shù)量即為ymax/2。
4.2.3 貝葉斯分類器訓(xùn)練和識別
本程序中對bayes分類器使用步驟如下:
(1)樣本的選擇。
對每個手勢選取較有代表性的四張圖片,對其三個特征進(jìn)行提取,并作為訓(xùn)練樣本對貝葉斯分類器進(jìn)行訓(xùn)練。
(2)手勢的識別。
用訓(xùn)練好的貝葉斯分類器對輸入圖片處理后得到的特征向量進(jìn)行分類,得到其所屬的類別。
5 實驗結(jié)果及總結(jié)
5.1 實驗結(jié)果
對獲得的130張手勢照片中,識別正確的照片的張數(shù)為94,占總數(shù)的72.3%,對與算法比較簡陋的程序來說識別率還是令人滿意的。
5.2 程序可改進(jìn)的技術(shù)途徑
(1)手勢區(qū)域的提取。
本程序采用膚色檢測來識別手勢區(qū)域,實際使用中效果不佳,任何類膚色區(qū)域都將被識別成手勢區(qū)域,故檢測程序時,采用的是深色背景的手勢圖片,以減少背景被檢測為手勢區(qū)域的可能。可見單純的膚色檢測并不能很好的檢測手勢區(qū)域,尤其是復(fù)雜背景下的手勢區(qū)域,在膚色檢測的前提下,另外可以通過提取手勢圖像的灰度圖的直方圖,確定閾值來對圖像進(jìn)行二值化,二者結(jié)合使用必定回避單純使用膚色檢測的準(zhǔn)確度有所提高。
(2)分類器的設(shè)計。
本程序采用的是opencv內(nèi)置的貝葉斯分類器,而且也只是用了三個特征值,如果要進(jìn)行優(yōu)化,可以增加有效地特征值數(shù)量,來提高識別的準(zhǔn)確度。
(3)特征值的提取。
在手勢區(qū)域較好的識別的情況下,面積比和寬長比的獲得較為簡單。手指數(shù)量的提取在實際操作中的效果并不如人意,因為實際檢測中,猶豫膚色檢測本身的缺陷,導(dǎo)致提取出來的手勢區(qū)域存在缺陷,進(jìn)而導(dǎo)致手指數(shù)量的不準(zhǔn)確提取。
參考文獻(xiàn)
[1] 戴丹.基于圖像的靜態(tài)手勢識別及在服務(wù)機(jī)器人的應(yīng)用[D].浙江大學(xué)本科生畢業(yè)論文,2007.
關(guān)鍵詞:RGB-D;手分割;手勢
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)09-0191-02
Abstract: The paper first analyses the several technical difficulties in hand segmentation and the features that can be used as in this process, then introduces the ideas of existing d hand segmentation algorithm. At last it introduces deep learning technology and concludes the research direction of hand segmentation in further.
Key words: RGB-D; hand segmentation; gesture
手勢是一種無中間媒介的,非常人性化的人機(jī)交互方式。手勢識別已經(jīng)成為人機(jī)交互領(lǐng)域的重要內(nèi)容和研究熱點?;谝曈X的手勢識別技術(shù),通常由手勢分割、手勢建模、手勢形狀特征提取、手勢識別等幾個步驟組成。其中,手勢分割就是從視覺傳感器獲取數(shù)據(jù)中,將感興趣的有意義區(qū)域,即手區(qū)域分割出來。這是基于視覺的手勢識別過程中非常關(guān)鍵的第一個步驟。準(zhǔn)確和快速的分割為后續(xù)步驟提供一個良好的基礎(chǔ),可以極大地提升手勢識別系統(tǒng)的識別效果以及實時性能。
基于視覺的手勢識別系統(tǒng)最初是利用攝像頭作為傳感器。一個或兩個攝像頭組成的視覺系統(tǒng)獲取手勢圖像數(shù)據(jù),手勢分割采用圖像處理方法,這些算法通常非常復(fù)雜,需要大量的計算資源。Kinect是微軟推出的一款2.5維傳感設(shè)備,它比傳統(tǒng)攝像頭獲取場景的2D圖像數(shù)據(jù)更進(jìn)一步,同時也可以獲取一定范圍內(nèi)的物體到傳感器的距離,即深度信息。更豐富的數(shù)據(jù)信息為更加快速有效的手勢分割提供了可能。
本文首先分析了手勢分割存在的技術(shù)難點及進(jìn)行手勢分割過程中可能使用的特征,然后分析比較了現(xiàn)有手勢分割算法的基本思想和特點,最后介紹了深度學(xué)習(xí)技術(shù)并總結(jié)了手勢分割未來的研究方向。
1 手勢分割的技術(shù)難點
手勢分割的難點主要源于兩個方面,一是手勢的環(huán)境因素復(fù)雜性。手勢可以出現(xiàn)在任何一種復(fù)雜的環(huán)境背景中,顏色、亮度不同光照條件對手形成不同的高光和陰影、背景物體與膚色接近,移動的背景或手勢,手勢遮擋等。二是人類的手勢動作在空間上有很大的靈活性,這導(dǎo)致手的外形特征復(fù)雜多變。這些都給手勢準(zhǔn)確分割帶來了困難
在任何條件下,人類的識別系統(tǒng)都能夠較為準(zhǔn)確的認(rèn)出感興趣的區(qū)域,人類在處理復(fù)雜的手勢時,使用了大量的關(guān)于手勢特征的先驗知識。但是人類視覺識別系統(tǒng)機(jī)理還有待進(jìn)一步研究,目前還沒有一個可以指導(dǎo)改進(jìn)手勢分割方法的統(tǒng)一的理論。
2 手勢分割的特征[1]
基于Kinect傳感器的手分割問題,可以看作是對RGB-D圖像中的手像素或非手像素標(biāo)記問題。這里,我們將RGB圖像和對應(yīng)的深度圖像數(shù)據(jù)定義為:
Data= {data(i,j) ={color,depth} i, j | i = 1,...,n, j = 1,...,m, depth ∈ R, color∈Color Space}。
其中,color為位置(i,j)對應(yīng)的顏色信息,按照某種顏色空間定義,depth為該位置的深度信息,
進(jìn)行手分割時,必須對Data加以處理,提煉特征。通過調(diào)查以往的研究文獻(xiàn),總結(jié)出以下特征:
1) 人體的拓?fù)浣Y(jié)構(gòu):和人體某一局部圖像相比,人們更容易從人體的整體圖像中確定手的位置。這是因為人類所具有的人體的整體拓?fù)浣Y(jié)構(gòu)知識。這個知識只提供給手部區(qū)域的大致方位。
2) 距手心距離:通過手的形態(tài)學(xué)知識,人類可以推斷當(dāng)距離手心距離小于某個值,肯定屬于手部區(qū)域,如果大于某個值,肯定不屬于手部區(qū)域;
3) 膚色和深度:雖然膚色易受到人種,光照等的影響,手部區(qū)域在深度圖像或者彩色圖像上雖然其整體上有可能并不均勻一致,但是其在較小的局部范圍內(nèi)應(yīng)當(dāng)保持一定的連續(xù)性,而非手部區(qū)域的邊界像素與相鄰背景區(qū)域像素具有較大的變化;
在進(jìn)行手區(qū)域判斷的時候,人類往往不是僅基于某種單一特征,而是多種特征的融合的決策。每個特征在決策過程中起到不同的作用,對一個手的不同位置起到的效用有可能也不一樣。
3 手勢分割算法
手勢的分割實際上包括兩個步驟:首先是手定位,這是指從RGB-D圖像中確定手是否出現(xiàn),并且確定手所在區(qū)域;在此基礎(chǔ)上進(jìn)行第二個步驟,即去除背景的干擾,將手區(qū)域從RGB-D圖像中分離出來,該過程稱為手分割。通常情況下,兩個步驟同時進(jìn)行。傳統(tǒng)的基于視覺的手勢分割方法主要有基于輪廓的手勢分割方法、基于運動的手勢分割方法、基于膚色的手勢分割方法等。
基于輪廓的手勢分割方法[2]利用手的拓?fù)浣Y(jié)構(gòu)特征來對手進(jìn)行分割。但是該方法面臨兩個技術(shù)問題:一是,人的手勢是靈活多變的,手部旋轉(zhuǎn)或彎曲使得很難確定手部的初始輪廓;二是手勢的形狀存在深度凹陷區(qū)域,傳統(tǒng)的輪廓方法無法收斂。這些因素極大地影響了輪廓的準(zhǔn)確性,進(jìn)而影響到手勢分割的準(zhǔn)確性。
膚色是手勢最為明顯的特征之一,基于膚色的手勢分割方法[3]建立膚色模型,通過膚色和背景在膚色模型的差異來實現(xiàn)手勢分割。但是,該方法不能很好解決實際應(yīng)用中的手勢復(fù)雜背景環(huán)境問題。實際環(huán)境中,膚色會受到光源亮度和位置變化、有色光源的色彩偏移等條件的影響。此外,手部反轉(zhuǎn)彎曲形變使得光源角度和陰影也會發(fā)生變化。這些因素使得整個手部區(qū)域的膚色可能并不一致,這導(dǎo)致無法建立一個具有較高準(zhǔn)確度的膚色模型。
基于運動的分割方法[4]主要分為是幀差法和背景差分法。幀差法對視頻中的連續(xù)幀圖像進(jìn)行差分運算,消除由于運動而產(chǎn)生的背景影響,從而提取精確的運動目標(biāo)輪廓信息。背景差分法首先對背景圖像建模,然后通過圖像序列中的當(dāng)前幀和背景參考模型比較來檢測運動物體,其性能依賴于所使用的背景建模技術(shù)。已有的研究表明,運動中的光影變化和背景的動態(tài)變化會影響到分割結(jié)果準(zhǔn)確性。
在獲取場景的2D圖像數(shù)據(jù)的基礎(chǔ)上,Kinect也同時獲取一定范圍內(nèi)的物體到傳感器的距離,即深度信息。更豐富的數(shù)據(jù)信息為更加快速有效的手勢分割提供了可能。研究者利用RGB-D數(shù)據(jù)進(jìn)行手勢分割時,可以只深度圖像或者融合RGB和深度信息。前者瞄準(zhǔn)快速算法,后者目標(biāo)是一個精確系統(tǒng),下面進(jìn)行簡要介紹:
文獻(xiàn)[5,6]將手分割看成一個深度聚類問題,基本思想是在深度圖像中,手部區(qū)域與背景區(qū)域分的深度值不同。通過分析人的形體數(shù)據(jù)確定一個深度閾值,該閾值對應(yīng)的像素區(qū)域就是手區(qū)域。利用預(yù)定義閾值和k-means聚類算法進(jìn)行手檢測。手指的位置通過手輪廓的凸包分析定位。這種方法在進(jìn)行手勢識別時,限定手必須處于距離Kinect傳感器最近的位置,單一使用深度信息,忽略了RGB信息,手勢分割的準(zhǔn)確性受到影響;
微軟提供的kinect SDK,利用機(jī)器學(xué)習(xí)算法提供了骨骼數(shù)據(jù)流,可以對人體骨骼關(guān)鍵點進(jìn)行定位。文獻(xiàn)[7]利用了骨骼信息中的手的位置信息。以此為基礎(chǔ),采用形態(tài)學(xué)分析設(shè)定RGB-D中,手的三個軸方向上閾值,該閾值范圍內(nèi)的區(qū)域被看成是手區(qū)域。然后利用OPEN VC中的腐蝕(cvErode)、找到邊界(cvFindContours)等相關(guān)函數(shù)手的輪廓。因為采用閾值方式,手勢分割的準(zhǔn)確性受到環(huán)境因素影響較大,且該方法建立在骨骼算法和OPEN VC圖像處理算法基礎(chǔ)之上,手勢分割的實時性受到影響。
文獻(xiàn)[8]采用了特征模型和神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法。首先建立手勢的膚色模型,背景模型和深度模型,然后三個模型的兩兩重疊率作為神經(jīng)網(wǎng)絡(luò)的輸入,三層神經(jīng)網(wǎng)絡(luò)的構(gòu)建基于兩點假設(shè),一是每一個模型對于最終的像素分割結(jié)果都具有大于0的可信度貢獻(xiàn),二是,沒有一個模型是絕對可靠的,每個像素的確定至少取決于兩個模型的結(jié)果。
文獻(xiàn)[9]采用了形態(tài)學(xué)分析的方法。在深度圖中尋找管狀或指形狀作為手掌和手指的候選對象。基于手掌和手指位置上是相連的這一形態(tài)學(xué)常識,進(jìn)而檢測候選對象的空間位置以確定手部區(qū)域;
文獻(xiàn)[10]建立了一個標(biāo)準(zhǔn)人類手在不同深度層的大小的查找表。利用kinect SDK提供的骨骼數(shù)據(jù)中的手的位置信息,確定手的深度,以此從查找表中找到對應(yīng)手的大小,進(jìn)而大概確定手區(qū)域。文獻(xiàn)[11]將手檢測問題看成是一個手像素或非手像素標(biāo)記問題。算法集成彩色和深度信息進(jìn)行手區(qū)域檢測。皮膚檢測算子對RGB圖像進(jìn)行處理,聚類算子對深度圖像進(jìn)行處理,二者的交集就是最終的手部區(qū)域。
4 深度學(xué)習(xí)技術(shù)
在已有的手勢分割方法中,良好的特征表達(dá),對最終算法的準(zhǔn)確性起了非常關(guān)鍵的作用。上述方法中,特征的設(shè)計靠人工選取完成。通常來說,手工選取和設(shè)計特征是一件非常費力方法,需要專業(yè)的知識和大量時間進(jìn)行調(diào)節(jié)。
深度學(xué)習(xí)是一種新的機(jī)器學(xué)習(xí)方法,其目標(biāo)是建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),通過非監(jiān)督學(xué)習(xí),實現(xiàn)自動的學(xué)習(xí)特征。深度學(xué)習(xí)構(gòu)建具有很多(5層、6層,甚至10多)隱層的機(jī)器學(xué)習(xí)模型,通過海量數(shù)據(jù)訓(xùn)練,使得原樣本空間逐層變換到一個新特征空間,來學(xué)習(xí)更有用的特征。這類似于人類從原始信號,做低級抽象,逐漸向高級抽象迭代。最終的分類或預(yù)測在高級抽象層進(jìn)行,從而提高了準(zhǔn)確性。大數(shù)據(jù)學(xué)習(xí)的特征比人工規(guī)則構(gòu)造特征更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。
5 總結(jié)
手勢分割是基于視覺的手勢識別過程中非常關(guān)鍵的第一個步驟,將極大地影響到手勢識別系統(tǒng)的識別效果以及實時性能。準(zhǔn)確和快速的分割是手勢識別的基礎(chǔ),目前還不存在任何一種方法在所有應(yīng)用系統(tǒng)和背景條件下都能取得良好的分割效果。深度學(xué)習(xí)技術(shù)為手勢分割問題提供了一種新的解決思路,其更加接近于人類視覺系統(tǒng)機(jī)理。可以將手勢識別過程看成是一個從海量的手勢數(shù)據(jù)中深度學(xué)習(xí)過程,無需手勢特征的先驗知識,通過學(xué)習(xí)產(chǎn)生對于手勢檢測分割具有指導(dǎo)意義的特征,在此基礎(chǔ)上進(jìn)行手勢分割將會取得較為理想的結(jié)果。
參考文獻(xiàn):
[1] 蔣美云,郭雷. 基于特征算子的RGB-D圖像手分割算法[J].計算機(jī)與數(shù)字工程,2014(11):2168-2172.
[2] Tofighi, Ghassem, S. Amirhassan Monadjemi, and Nasser Ghasem-Aghaee. Rapid hand posture recognition using Adaptive Histogram Template of Skin and hand edge contour[C].//In Machine Vision and Image Processing (MVIP), 2010:1-5.
[3] Julien L, Francois B. Visual Tracking of Bare Fingers for Interactive Surface[C].//Proceedings of the 17th Annual ACM Symposium on UIST, Santa Fe, NM, USA: ACM,2004:119-122.
[4] Kakumanu, Praveen, Sokratis Makrogiannis, and Nikolaos Bourbakis.A survey of skin-color modeling and detection methods[J].Pattern recognition.2007,40(3):1106-1122.
[5] R. Tara, P. Santosa, and T. Adji, Hand segmentation from depth image using anthropometric approach in natural interface development[J].International Journal of Scientific & Engineering Research,2012,3(5):1-4.
[6] U. Lee and J. Tanaka, Hand controller: Image manipulation interface using ?ngertips and palm tracking with Kinect depth data[C].//in Proc. Asia Paci?c Conf. Comput. Human Interact,2012:705-706.
[7] Maisto, Marco, Massimo Panella, Luca Liparulo, and Andrea Proietti. An Accurate Algorithm for the Identification of Fingertips Using an RGB-D Camera[J]. Emerging and Selected Topics in Circuits and Systems, IEEE Journal on,2013,3(2):272-283.
[8] Zhang, Xin, Zhichao Ye, Lianwen Jin, Ziyong Feng, and Shaojie Xu. A New Writing Experience: Finger Writing in the Air Using a Kinect Sensor[J]. MultiMedia, IEEE. 2013,20(4):85-93.
[9] G. Hackenberg, R. McCall, and W. Broll, Lightweight palm and ?nger tracking for real-time 3-D gesture control [C], in Proc. IEEE Conf. Virtual Reality,2011:19-26.
關(guān)鍵詞:人工智能 機(jī)器學(xué)習(xí) 機(jī)器人情感獲得 發(fā)展綜述
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-9082 (2017) 04-0234-01
引言
人類自從工業(yè)革命結(jié)束之后,就已然開始了對人工智能的探索,究其本質(zhì),實際上就是對人的思維進(jìn)行模仿,以此代替人類工作。人工智能的探索最早可以追溯到圖靈時期,那時圖靈就希望未來的智能系統(tǒng)能夠像人一樣思考。在20世紀(jì)五十年代,人工智能被首次確定為一個新興的學(xué)科,并吸引了大批的學(xué)者投入到該領(lǐng)域的研究當(dāng)中。經(jīng)過長時間的探索和嘗試,人工智能的許多重要基本理論已經(jīng)形成,如模式識別、特征表示與推理、機(jī)器學(xué)習(xí)的相關(guān)理論和算法等等。進(jìn)入二十一世紀(jì)以來,隨著深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,人工智能再一次成為研究熱點。人工智能技術(shù)與基因過程、納米科學(xué)并列為二十一世紀(jì)的三大尖端技術(shù), 并且人工智能涉及的學(xué)科多,社會應(yīng)用廣泛,對其原理和本質(zhì)的理解也更為復(fù)雜。 一、人工智能的發(fā)展歷程
回顧人工智能的產(chǎn)生與發(fā)展過程 ,可以將其分為:初期形成階段,綜合發(fā)展階段和應(yīng)用階段。
1.初期形成階段
人工智能這一思想最早的提出是基于對人腦神經(jīng)元模型的抽象。其早期工作被認(rèn)為是由美國的神經(jīng)學(xué)家和控制論學(xué)者 Warren McCulloch與Walter Pitts共同完成的。在1951年,兩名普林斯頓大學(xué)的研究生制造出了第一臺人工神經(jīng)元計算機(jī)。而其真正作為一個新的概念被提出是在1956年舉行的達(dá)茅斯會議上。由麥卡錫提議并正式采用了“人工智能”(Artificial Intelligence)礱枋穌庖謊芯咳綰斡沒器來模擬人類智能的新興學(xué)科。1969年的國際人工智能聯(lián)合會議標(biāo)志著人工智能得到了國際的認(rèn)可。至此,人工智能這一概念初步形成,也逐漸吸引了從事數(shù)學(xué)、生物、計算機(jī)、神經(jīng)科學(xué)等相關(guān)學(xué)科的學(xué)者參與該領(lǐng)域的研究。
2.綜合發(fā)展階段
1.7 7年, 費根鮑姆在第五屆國際人工智能聯(lián)合會議上正式提出了“知識工程”這一概念。而后其對應(yīng)的專家系統(tǒng)得到發(fā)展,許多智能系統(tǒng)紛紛被推出,并應(yīng)用到了人類生活的方方面面。20世紀(jì)80年代以來,專家系統(tǒng)逐步向多技術(shù)、多方法的綜合集成與多學(xué)科、多領(lǐng)域的綜合應(yīng)用型發(fā)展。大型專家系統(tǒng)開發(fā)采用了多種人工智能語言、多種知識表示方法、多種推理機(jī)制和多種控制策略相結(jié)合的方式, 并開始運用各種專家系統(tǒng)外殼、專家系統(tǒng)開發(fā)工具和專家系統(tǒng)開發(fā)環(huán)境等等。在專家系統(tǒng)的發(fā)展過程中,人工智能得到了較為系統(tǒng)和全面的綜合發(fā)展,并能夠在一些具體的任務(wù)中接近甚至超過人類專家的水平。
3.應(yīng)用階段
進(jìn)入二十一世紀(jì)以后,由于深度人工神經(jīng)網(wǎng)絡(luò)的提出,并在圖像分類與識別的任務(wù)上遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)的方法,人工智能掀起了前所未有的。2006年,由加拿大多倫多大學(xué)的Geoffery Hinton及其學(xué)生在《Science》雜志上發(fā)表文章,其中首次提到了深度學(xué)習(xí)這一思想,實現(xiàn)對數(shù)據(jù)的分級表達(dá),降低了經(jīng)典神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。并隨后提出了如深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN),以及區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-based Convolutional Neural Network, R-CNN),等等新的網(wǎng)絡(luò)訓(xùn)練結(jié)構(gòu),使得訓(xùn)練和測試的效率得到大幅提升,識別準(zhǔn)確率也顯著提高。
二、人工智能核心技術(shù)
人工智能由于其涉及的領(lǐng)域較多,內(nèi)容復(fù)雜,因此在不同的應(yīng)用場景涉及到許多核心技術(shù),這其中如專家系統(tǒng)、機(jī)器學(xué)習(xí)、模式識別、人工神經(jīng)網(wǎng)絡(luò)等是最重要也是發(fā)展較為完善的幾個核心技術(shù)。
1.專家系統(tǒng)
專家系統(tǒng)是一類具有專門知識和經(jīng)驗的計算機(jī)智能程序系統(tǒng),通過對人類專家的問題求解能力建模,采用人工智能中的知識表示和知識推理技術(shù)來模擬通常由專家才能解決的復(fù)雜問題,達(dá)到具有與專家同等解決問題能力的水平。對專家系統(tǒng)的研究,是人工智能中開展得較為全面、系統(tǒng)且已經(jīng)取得廣泛應(yīng)用的技術(shù)。許多成熟而先進(jìn)的專家系統(tǒng)已經(jīng)被應(yīng)用在如醫(yī)療診斷、地質(zhì)勘測、文化教育等方面。
2.機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是一個讓計算機(jī)在非精確編程下進(jìn)行活動的科學(xué),也就是機(jī)器自己獲取知識。起初,機(jī)器學(xué)習(xí)被大量應(yīng)用在圖像識別等學(xué)習(xí)任務(wù)中,后來,機(jī)器學(xué)習(xí)不再限于識別字符、圖像中的某個目標(biāo),而是將其應(yīng)用到機(jī)器人、基因數(shù)據(jù)的分析甚至是金融市場的預(yù)測中。在機(jī)器學(xué)習(xí)的發(fā)展過程中,先后誕生了如凸優(yōu)化、核方法、支持向量機(jī)、Boosting算法等等一系列經(jīng)典的機(jī)器學(xué)習(xí)方法和理論。機(jī)器學(xué)習(xí)也是人工智能研究中最為重要的核心方向。
3.模式識別
模式識別是研究如何使機(jī)器具有感知能力 ,主要研究圖像和語音等的識別。其經(jīng)典算法包括如k-means,主成分分析(PCA),貝葉斯分類器等等。在日常生活各方面以及軍事上都有廣大的用途。近年來迅速發(fā)展起來應(yīng)用模糊數(shù)學(xué)模式、人工神經(jīng)網(wǎng)絡(luò)模式的方法逐漸取代傳統(tǒng)的基于統(tǒng)計學(xué)習(xí)的識別方法。圖形識別方面例如識別各種印刷體和某些手寫體文字,識別指紋、癌細(xì)胞等技術(shù)已經(jīng)進(jìn)入實際應(yīng)用。語音識別主要研究各種語音信號的分類,和自然語言理解等等。模式識別技術(shù)是人工智能的一大應(yīng)用領(lǐng)域,其非常熱門的如人臉識別、手勢識別等等對人們的生活有著十分直接的影響。
4.人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是在研究人腦的結(jié)構(gòu)中得到啟發(fā), 試圖用大量的處理單元模仿人腦神經(jīng)系統(tǒng)工程結(jié)構(gòu)和工作機(jī)理。而近年來發(fā)展的深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNNs)具有更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),與經(jīng)典的機(jī)器學(xué)習(xí)算法相比在大數(shù)據(jù)的訓(xùn)練下有著更強(qiáng)的特征學(xué)習(xí)和表達(dá)能力。含有多個隱含層的神經(jīng)網(wǎng)絡(luò)能夠?qū)斎朐紨?shù)據(jù)有更抽象喝更本質(zhì)的表述,從而有利于解決特征可視化以及分類問題。另外,通過實現(xiàn)“逐層初始化”這一方法,實現(xiàn)對輸入數(shù)據(jù)的分級表達(dá),可以有效降低神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。目前的神經(jīng)網(wǎng)絡(luò)在圖像識別任務(wù)中取得了十分明顯的進(jìn)展,基于CNN的圖像識別技術(shù)也一直是學(xué)術(shù)界與工業(yè)界一致追捧的熱點。
三、機(jī)器人情感獲得
1.智能C器人現(xiàn)狀
目前智能機(jī)器人的研究還主要基于智能控制技術(shù),通過預(yù)先定義好的機(jī)器人行動規(guī)則,編程實現(xiàn)復(fù)雜的自動控制,完成機(jī)器人的移動過程。而人類進(jìn)行動作、行為的學(xué)習(xí)主要是通過模仿及與環(huán)境的交互。從這個意義上說,目前智能機(jī)器人還不具有類腦的多模態(tài)感知及基于感知信息的類腦自主決策能力。在運動機(jī)制方面,目前幾乎所有的智能機(jī)器人都不具備類人的外周神經(jīng)系統(tǒng),其靈活性和自適應(yīng)性與人類運動系統(tǒng)還具有較大差距。
2.機(jī)器人情感獲得的可能性
人腦是在與外界永不停息的交互中,在高度發(fā)達(dá)的神經(jīng)系統(tǒng)的處理下獲得情感。智能機(jī)器人在不斷的機(jī)器學(xué)習(xí)和大數(shù)據(jù)處理中,中樞處理系統(tǒng)不斷地自我更新、升級,便具備了獲得情感的可能性及幾率。不斷地更新、升級的過程類似于生物的進(jìn)化歷程,也就是說,智能機(jī)器人有充分的可能性獲得與人類同等豐富的情感世界。
3.機(jī)器人獲得情感的利弊
機(jī)器人獲得情感在理論可行的情況下,伴之而來的利弊則眾說紛紜。一方面,擁有豐富情感世界的機(jī)器人可以帶來更多人性化的服務(wù),人機(jī)合作也可進(jìn)行地更加深入,可以為人類帶來更為逼真的體驗和享受。人類或可與智能機(jī)器人攜手共創(chuàng)一個和諧世界。但是另一方面,在機(jī)器人獲得情感時,機(jī)器人是否能徹底貫徹人類命令及協(xié)議的擔(dān)憂也迎面而來。
4.規(guī)避機(jī)器人情感獲得的風(fēng)險
規(guī)避智能機(jī)器人獲得情感的風(fēng)險應(yīng)預(yù)備強(qiáng)制措施。首先要設(shè)計完備的智能機(jī)器人情感協(xié)議,將威脅泯滅于未然。其次,應(yīng)控制智能機(jī)器人的能源獲得,以限制其自主活動的能力,杜絕其建立獨立體系的可能。最后,要掌控核心武器,必要時強(qiáng)行停止運行、回收、甚至銷毀智能機(jī)器人。
三、總結(jié)
本文梳理了人工智能的發(fā)展歷程與核心技術(shù),可以毋庸置疑地說,人工智能具有極其廣闊的應(yīng)用前景,但也伴隨著極大的風(fēng)險。回顧其發(fā)展歷程,我們有理由充分相信,在未來人工智能的技術(shù)會不斷完善,難題會被攻克。作為世界上最熱門的領(lǐng)域之一,在合理有效規(guī)避其風(fēng)險的同時,獲得情感的智能機(jī)器人會造福人類,并極大地幫助人們的社會生活。
參考文獻(xiàn)
[1]韓曄彤.人工智能技術(shù)發(fā)展及應(yīng)用研究綜述[J].電子制作,2016,(12):95.
[2]曾毅,劉成林,譚鐵牛.類腦智能研究的回顧與展望[J].計算機(jī)學(xué)報,2016,(01):212-222.
[3]張越.人工智能綜述:讓機(jī)器像人類一樣思考
【關(guān)鍵詞】視頻跟蹤 手部識別
1 引言
計算機(jī)從誕生至今,其輸入設(shè)備從最初的機(jī)電開關(guān),逐漸發(fā)展為打孔紙帶、磁帶,再到今天的鍵盤、鼠標(biāo)和游戲手柄,向計算機(jī)輸入數(shù)據(jù)的效率越來越高,但方法的本質(zhì)并未改變,都要將自然信息通過機(jī)械式方式輸入計算機(jī)。這些方式都是基于2D的圖形界面,將用戶的操作限制于特定的外部設(shè)備上,無法實現(xiàn)自然而隨意的人機(jī)交互。長時間使用,會使用戶感到疲憊,導(dǎo)致用戶體驗下降。
對于用戶來說,人的語音、手勢等可以說是最為自然、最為方便的交流手段,同時手勢在3D環(huán)境中意義明確、方向精確,是極好的人機(jī)交互手段。許多大型互聯(lián)網(wǎng)公司與游戲公司早就對此進(jìn)行了探索。微軟,索尼,任天堂等公司有著自己研發(fā)的外部設(shè)備,如游戲手套和傳感器等,以此來捕捉并記錄手部的運動軌跡,實現(xiàn)特定的操作乃至體感游戲。但這類外部設(shè)備的缺陷也是很明顯的:這類設(shè)備一般為機(jī)械傳感器式或光纖傳感器式,帶有傳感器、機(jī)械部件甚至用來與主機(jī)連接的電纜等,沉重、累贅、不靈活;且通常價格昂貴、極易損壞,用戶體驗不佳;更重要的是限制于特定平臺,不具備通用性,普及度不高。
若能實現(xiàn)基于計算機(jī)視覺技術(shù)的手勢識別及操作系統(tǒng),不僅可以將我們的雙手從特定外部設(shè)備上解放出來,使操作更加輕松、隨意,還能獲得更好的人機(jī)交互體驗,推動“虛擬現(xiàn)實”的研究。目前已經(jīng)有了大量的跟蹤算法和相關(guān)設(shè)別,如微軟的Kinect攝像頭及最新的Hololens頭盔已經(jīng)能達(dá)到很好的效果,但都較為復(fù)雜。因此本文研究一種簡單通用的基于計算機(jī)視覺的手部跟蹤算法。
2 手部區(qū)域提取
2.1 樣本采集
為了保證研究的順利進(jìn)行,首先需要采集手部樣本圖片。為保證實驗結(jié)果的準(zhǔn)確性,樣本圖片數(shù)量最好在100張以上,并記錄不同姿態(tài),其中男性樣本和女性樣本的數(shù)量保持相等。
2.2 膚色信息分析
膚色信息近似為皮膚的顏色信息,物體表面的顏色即表面色是因光照而呈現(xiàn)的顏色[6]。我們采用RGB顏色模型對手部表面膚色進(jìn)行分析,發(fā)現(xiàn)膚色處于某個范圍之內(nèi)。方法如下:手動提取樣本圖像中的手部,對其進(jìn)行RGB顏色分量統(tǒng)計,得到各分量直方圖。由于各分量直方圖上手部體現(xiàn)為一個近似波峰,所以可取波峰的半峰全寬(Full Width at Half Maxium)作為手部的膚色閾值。
根據(jù)膚色閾值提取手部,設(shè)HandSkin表示膚色閾值范圍,RGB(m, n)表示點(m, n)處的顏色信息,而bw(m, n)代表該點是否是手部,則:
2.3 模式識別
通過膚色信息初步提取手部后,可能會有孤立的局部點集出現(xiàn)。為此,統(tǒng)計所有互相連接的點集,提取點集對應(yīng)的幾何特征,建立規(guī)則來選取符合手部的點集。
幾何特征一般包括面積、周長、重心等。而手部可以分為手掌和手指部分,手掌形狀近似于橢圓,手指為細(xì)長的柱體,因此整個手部的周長面積比會與其他物體有所區(qū)分,所以根據(jù)周長面積比將手部從背景中提取出來:
面積:指物體區(qū)域包含的像素數(shù),用符號s表示。
周長:物體輪廓線上像素間距離之和,用符號c表示。在進(jìn)行周長計算時,需根據(jù)像素間的連接方式,分別計算距離。像素間距離可分為并列連接像素與傾斜連接像素。并列有上下左右四個方向,像素間距離為1;傾斜方向有左上、左下、右上、右下,其像素間距離等于單位正方體的對角線長度。本文中先獲取二值圖像的邊緣信息,再使用8向鏈碼求周長。
周長面積比:用r表示,r = c/s。
求得所有樣本的面積周長比后,通過統(tǒng)計建立規(guī)則,并排除異常數(shù)據(jù)。設(shè)h表示點集,hand表示手部,handrule表示手部點集所必需滿足的規(guī)則,noise表示噪聲,s.t.表示滿足,則最終的手部點集為:
3 手部跟蹤
基于計算機(jī)視覺的手部跟蹤算法具體步驟:
步驟1:第一幀圖像預(yù)處理。根據(jù)上文所述方法進(jìn)行第一幀的初始化。通過膚色信息和面積周長比特征提取出第一幀圖像中的手。為了方便描述手的運動軌跡,用幾何圖形來近似表示手部區(qū)域,本文選用包圍手部區(qū)域的最小橢圓來表示手部,該橢圓的中心O1表示手部中心點。
步驟2:依次掃描視頻的每一幀。對于第n幀,由于相鄰幀的時間相隔較短,手部不會有太大位移。根據(jù)上一幀手部區(qū)域的位置,設(shè)置該幀的掃描范圍。通過第2章方法,得出當(dāng)前幀手部的中心點On。不斷重復(fù)算法直至視頻結(jié)束。
步驟3:描繪運動軌跡。從視頻最后一幀的中心點On開始,逆序依次連接On與On-1,直至視頻第一幀的中心點O1,得到完整的手部運動軌跡。
4 結(jié)論
本文所提出的以手部膚色信息為基礎(chǔ)的手部跟蹤算法,工程實現(xiàn)上較為簡答,算法效率高,經(jīng)試驗測試,能夠較為準(zhǔn)確地再現(xiàn)手部運動軌跡。同時,該種方法也具有缺點,在手部快速移動或做復(fù)雜運動時,算法所描繪的運動軌跡可能會出現(xiàn)斷裂,且該算法對光照敏感,在過強(qiáng)或過弱光照條件下,算法的準(zhǔn)確性都會受到影響。今后的工作將繼續(xù)完善本算法,將嘗試以HSI顏色模型進(jìn)行分析,考慮引入手部紋理與邊緣信息,減弱算法的光照敏感性,采用專家系統(tǒng)、智能優(yōu)化、神經(jīng)網(wǎng)絡(luò)、特征降維等高級技術(shù)。
參考文獻(xiàn)
[1]俞烈彬,孟凡文.武器裝備系統(tǒng)中的人機(jī)交互新技術(shù)[J].電子世界,2013(12): 164-165.
[2]孟艷麗,郭建.二語演講中手勢功能的實證分析[J].河南科技大學(xué)學(xué)報(社會科學(xué)版),2014,32(3):62-67.
[3]劉晉鋼,劉衛(wèi)斌,劉晉霞.Kinect與Unity3D數(shù)據(jù)整合技術(shù)在體感游戲中的應(yīng)用研究[J].電腦開發(fā)與應(yīng)用,2014, 27(11):7-14.
[4]張蓬,王曉沖,陳建義.多自由度機(jī)械臂的虛擬現(xiàn)實仿真實現(xiàn)[J].機(jī)械設(shè)計與制造,2015(01):128-134.
[5]閆慶森,李臨生,徐曉峰,等.視頻跟蹤算法研究綜述[J].計算機(jī)科學(xué),2013, 40(6A):204-209.
[6]奚吉,趙曉鈴,張煜東.改進(jìn)的沃爾什濾波的圖像插值算法[J].計算機(jī)工程, 2010,36(22):211-213.
[7]張煜東,吳樂南,王水花.專家系統(tǒng)發(fā)展綜述[J].計算機(jī)工程與應(yīng)用,2010, 46(19):43-47.
[8]王水花,張煜東,吉根林.群智能算法的理論及應(yīng)用綜述[J].南京師范大學(xué)學(xué)報(工程技術(shù)版),2014,14(4):31-38.
[9]張煜東,吳樂南,韋耿.神經(jīng)網(wǎng)絡(luò)泛化增強(qiáng)技術(shù)研究[J].科學(xué)技術(shù)與工程,2009(17):4997-5002.
[10]張煜東,霍元鎧,吳樂南,等.降維技術(shù)與方法綜述[J].四川兵工學(xué)報,2010, 31(10):1-7.
作者簡介
羅偉,男,江西省景德鎮(zhèn)市人?,F(xiàn)供職于南京師范大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院。研究方向為手勢跟蹤。
通訊作者
張煜東,男,江蘇省南京市人。博士學(xué)位?,F(xiàn)為南京師范大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院教授。研究方向為圖像處理。
作者單位
摘 要:為了以更直觀的方式控制仿人機(jī)械手,提高仿人機(jī)械手的操作性能,該文設(shè)計和實現(xiàn)了基于數(shù)據(jù)手套的遙操作多指靈巧手控制系統(tǒng)。提出了數(shù)據(jù)手套通過計算機(jī)系統(tǒng)和MSP430單片機(jī)對多自由度多指靈巧手進(jìn)行實時控制的方案。該方案通過多指靈巧手與數(shù)據(jù)手套的結(jié)合提高了該系統(tǒng)的控制精度與交互性。該文將從設(shè)計方案的各個模塊和實驗結(jié)果說明基于數(shù)據(jù)手套的遙操作多指靈巧手控制系統(tǒng)的先進(jìn)性和實用性。
關(guān)鍵詞:數(shù)據(jù)手套 多指靈巧手 MSP430 遙操作
中圖分類號:TP24 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2016)03(a)-0001-03
隨著機(jī)器人應(yīng)用領(lǐng)域的不斷擴(kuò)展,機(jī)器人作業(yè)的任務(wù)和環(huán)境的復(fù)雜性不斷地增加,仿人機(jī)械手作為機(jī)器人末端操作器,具有多自由度、多指協(xié)調(diào)、靈活性強(qiáng)的特點,因此,能滿足更靈巧以及精細(xì)的任務(wù)的要求。仿人機(jī)械手是一個復(fù)雜的機(jī)器人系統(tǒng),若采用傳統(tǒng)的操作者向控制器輸入指令的控制模式,很難實現(xiàn)實時性和較好的交互性。而采用數(shù)據(jù)手套作為輸入,不僅能靈活的控制仿人機(jī)械手,而且具有自然、直觀、實時性強(qiáng)的優(yōu)點,是提高仿人機(jī)械手操作性能和作業(yè)水平的有效途徑[6]。
目前,在國外,有使用數(shù)據(jù)手套作為輸入設(shè)備,對機(jī)械手抓取操作控制等的研究,也有對手勢識別的研究[5]。在國內(nèi),也有學(xué)者對相關(guān)方面的研究。該文采用的控制模式是操作者使用數(shù)據(jù)手套通過MSP430單片機(jī)系統(tǒng)實時控制機(jī)器人,操作者通過改變數(shù)據(jù)手套的姿態(tài)對機(jī)械手做出相應(yīng)的調(diào)整。與傳統(tǒng)控制方法中操作者通過輸入運動指令的間接控制相比,這種直接的控制方法更加符合人類的操作習(xí)慣,它的操作簡單、高效,大大提高了交互性。
1 系統(tǒng)框架
該系統(tǒng)主要由數(shù)據(jù)手套、多指靈巧機(jī)械手、MSP430單片機(jī)3個部分組成[9],并在單片機(jī)和多指靈巧手上使用了一組無線模塊用來傳輸控制信號,從而在一定距離內(nèi)實現(xiàn)了對機(jī)械手的遙操作。操作者通過改變數(shù)據(jù)手套的姿態(tài),MSP430單片機(jī)可對得到的數(shù)據(jù)進(jìn)行處理,轉(zhuǎn)換成相應(yīng)的PWM波信號通過無線傳輸?shù)姆绞娇刂茩C(jī)械手手指舵機(jī)轉(zhuǎn)動,從而實現(xiàn)對手套姿態(tài)的跟蹤[7]。
2 原理與設(shè)計
多指靈巧機(jī)械手有如下幾個方面[1]。
2.1 機(jī)械手結(jié)構(gòu)
該文所使用的靈巧手是在參考人手骨骼特點的基礎(chǔ)上設(shè)計的一種具有適應(yīng)性的欠驅(qū)動機(jī)構(gòu)。整個機(jī)械手由手掌、手指以及各個手指的驅(qū)動傳動機(jī)構(gòu)和回復(fù)機(jī)構(gòu)組成,具多個自由度,能完成人手的簡單抓握??紤]到與人手外觀的相似性,采用了五指的形式。其中拇指具有與人手拇指相同的機(jī)構(gòu),其余四指各具有3個轉(zhuǎn)動自由度,根關(guān)節(jié)不具有擺動自由度(圖1、圖2)。
2.2 控制機(jī)構(gòu)設(shè)計
該機(jī)械手采用航模中的舵機(jī)作為動力,結(jié)合單片機(jī)組成的控制系統(tǒng),通過對5個手指的分別控制,實現(xiàn)對靈巧手進(jìn)行多自由度控制。舵機(jī)主要由以下幾個部分組成:舵盤、減速齒輪組、位置反饋比例電位器、直流電機(jī)、控制電路板組成??刂齐娐钒褰邮軄碜钥刂贫丝诘目刂菩盘?,控制電機(jī)轉(zhuǎn)動,電機(jī)帶動一系列齒輪組,減速后傳動至輸出軸。舵機(jī)的輸出軸和位置反饋比例電位器是相連的,輸出軸轉(zhuǎn)動的同時,帶動位置反饋比例電位器,轉(zhuǎn)換為一比例電壓反饋到控制電路板,然后控制電路板根據(jù)所在位置決定電機(jī)的轉(zhuǎn)動方向和速度,達(dá)到目標(biāo)后停止。
3 實驗與分析
該文設(shè)計的基于數(shù)據(jù)手套的遙操作多指靈巧手,擁有能完整完成人手復(fù)雜動作的能力。已經(jīng)從數(shù)據(jù)手套發(fā)送數(shù)據(jù)和機(jī)械手能夠完整完成人的動作兩個方面進(jìn)行驗證。
3.1 驗證手套發(fā)送數(shù)據(jù)
由于數(shù)據(jù)手套是由5個應(yīng)變片、一個微控制器組成的,它向外輸出TTL信號,所以,在完成供電準(zhǔn)備之后,使用CP2102模塊轉(zhuǎn)對其信號進(jìn)行轉(zhuǎn)換。
可以看到數(shù)據(jù)成0xFF,Data1,Data2,Data3,Data4,Data5,0xF0形式,每一組數(shù)據(jù)由0xFF開始,以0xF0結(jié)尾,中間每一個Data都代表了手指的彎曲程度(如圖3)。
通過觀察可以發(fā)現(xiàn),隨著手指彎曲得到的數(shù)據(jù)也會改變,我們彎曲的這種程度可以讓數(shù)據(jù)從0x38變化到0x4A左右。
3.2 系統(tǒng)功能驗證
為了驗證該文所述系統(tǒng)的功能,我們按照上文所述進(jìn)行實際搭建并完成了相應(yīng)控制程序的編寫。實驗結(jié)果表明,該文所述的基于數(shù)據(jù)手套的遙操作機(jī)械手系統(tǒng)可以較好地實現(xiàn)多指靈巧機(jī)械手對操作者手部動作的實時準(zhǔn)確跟蹤,并具有在一定范圍內(nèi)的遙操作功能。
單個手指動作控制如圖4所示。
4 結(jié)語
該文設(shè)計實現(xiàn)了一種基于數(shù)據(jù)手套的多指靈巧手,可以實現(xiàn)人手實時操控機(jī)械手的功能,并且我們所設(shè)計的機(jī)械手的手指彎曲極限程度接近人手,模仿精度較高,可以夾起一些很輕的物體。并且由于無線傳輸模塊的加入,可以實現(xiàn)在一定范圍內(nèi)的遙操作功能,提高了機(jī)械手的實用性。與傳統(tǒng)的機(jī)械手控制系統(tǒng)相比,本系統(tǒng)具有體積小、可進(jìn)行遠(yuǎn)距離操作、操作簡單直觀的優(yōu)點,具有較為廣泛的應(yīng)用前景,在未來還有較大的發(fā)展?jié)摿Α?/p>
參考文獻(xiàn)
[1] 王超群.繩驅(qū)動五指靈巧手的設(shè)計[J].上海電機(jī)學(xué)院報,2012(5):301-305.
[2] 韋婷,肖南峰.基于數(shù)據(jù)手套的仿人機(jī)械手控制系統(tǒng)[J]. 計算機(jī)工程與設(shè)計,2009,30(7):1707-1711.
[3] 張建鵬,劉世前,敬忠良.基于MSP430的舵機(jī)控制系統(tǒng)設(shè)計[J].微電機(jī),2010,43(1):46-49.
[4] B.Merritt and M.Raju,“PWM DC Motor Control Using Timer A of the MSP430,”Texas Instruments,Dec,2000.
[5] 李東潔,李君祥,張越,等.基于PSO改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)手套手勢識別[J].電機(jī)與控制學(xué)報,2014(8):87-93.
[6] 張俊杰,李世其,熊友軍.基于數(shù)據(jù)手套的機(jī)械手控制技術(shù)應(yīng)用[J].計算機(jī)應(yīng)用研究,2006(7):170-171.
[7] 劉杰,張玉茹,劉博.人手到靈巧手的運動映射實現(xiàn)[J].機(jī)器人,2003(5):444-447.