前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的神經(jīng)網(wǎng)絡(luò)語義分割主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:名實體分類; 神經(jīng)網(wǎng)絡(luò); DBN; 字特征
中圖分類號:TP391 文獻標識碼:A 文章編號:2095-2163(2014)02-
Study on Chinese Named Entity Categorization based on Deep Belief Nets
CHEN Yu, ZHENG Dequan, ZHAO Tiejun
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: DBN is a classification of fast and global optimum neural network. It contains several layers of unsupervised networks and one layer of supervised network. The paper approves this novelty machine learning approach is suitable to the domain of named entity categorization. The paper applies RBM,an unsupervised learning method, to reconstruct more representative features from character-based features. Subsequently, the paper utilizes BP, a supervised learning method, to fine-tune parameters in whole network and accomplish the categorization task. In the end, the paper tests DBN on ACE 04 Chinese corpus and achieve 91.45% precision, which is much better than Support Vector Machine and Back-propagation neural network.
Key words: Named Entities Categorization; Neural Network; DBN; Character-based Feature
0引 言
傳統(tǒng)的信息抽取任務(wù)包括名實體抽取、關(guān)系抽取和事件抽取,而名實體抽取又可分為兩個子任務(wù):一是識別消息文本中的名實體,二是將已識別的名實體進行分類,本文主要關(guān)注名實體抽取的第二個子任務(wù)。名實體是一個事物或事物集合的名稱,在消息文本中,往往是信息的主要載體,所以名實體抽取是信息抽取的基礎(chǔ)任務(wù)。名實體分類對名實體的語義表述具有重要指示意義,是名實體抽取準確與否的標準之一。按照Automatic Context Extraction (ACE)大會的定義,名實體一般分為人名、地名和機構(gòu)名等。早期,研究主要聚焦于利用基于模式匹配的方法進行名實體分類,并取得了較高的準確率。Mcdonald[1]利用名詞的內(nèi)外部信息組成的模式對名詞進行分類,Wacholder[2]則利用對不同名詞類別進行聚類的方式輔助人工撰寫的模式實現(xiàn)名詞分類。但是上述方法都需要大量人工統(tǒng)計的模式,而一旦名實體抽取范圍或者對象語言變化,即要費時費力地修改甚至重寫相應(yīng)的模式。此后,基于統(tǒng)計的機器學習方法顯示了所具備的強大自學習能力,克服了基于模式方法的缺點。同時,支持向量機和反向傳播神經(jīng)網(wǎng)絡(luò)是傳統(tǒng)的機器學習分類器,可通過利用足夠大量的實例進行自訓練,并用訓練好的模型未知實例進行分類。Zhou和Su[3]提取了4種不同的詞性和句法特征表示名詞的語義特征,再用隱馬爾科夫模型進行分類,Isozaki[4]利用5-gram結(jié)合3種詞法特征組成特征向量用于支持向量機訓練模型并對名實體分類。此外,對于名詞分類的研究大多只是集中于英文語料,對中文語料的研究仍相對較少,其名詞分類的難度要遠大于英文,主要原因是[5]:
(1詞語之間沒有明顯的分割標志;
(2)漢語中的詞存在更多歧義現(xiàn)象;
(3)漢語詞語由字組合而成,組合的復(fù)雜度高;
(4)漢語的詞法語態(tài)信息不如英語豐富[6]。例如:漢語詞語沒有時態(tài)、字母大小寫的特征等。在已有研究中,Jing[7]提出了利用基于字的特征表征名詞信息,結(jié)果表明,基于字的特征結(jié)果要優(yōu)于基于詞的特征,且克服了以上大部分的漢語難點。
本文提出一種基于字特征提取名詞特征向量,并利用Deep Belief Nets(DBN)神經(jīng)網(wǎng)絡(luò)構(gòu)造分類器進行名實體分類的方法。方法中,首先對直接反映名實體的字特征向量進行特征提取,得到更加復(fù)雜、更具表征能力的特征,再利用有監(jiān)督過程對這些特征向量進行分類,獲得了較直接對字特征向量進行分類更好的效果。實驗結(jié)果表明,DBN方法分類效果明顯優(yōu)于其他傳統(tǒng)的機器學習算法。
1 Deep Belief Nets 神經(jīng)網(wǎng)絡(luò)的介紹
DBN神經(jīng)網(wǎng)絡(luò)是一種全局最優(yōu)的快速神經(jīng)網(wǎng)絡(luò)分類方法,由若干層RBM網(wǎng)絡(luò)(Restricted Boltzmann machine)和一層反向傳遞網(wǎng)絡(luò)(Back-Propagation,簡稱BP網(wǎng)絡(luò))組成,因而是一種多層神經(jīng)網(wǎng)絡(luò)[8]。DBN結(jié)合了無監(jiān)督學習方法的特征提取能力和有監(jiān)督學習方法的分類能力。總體來說,DBN具有以下如下幾點優(yōu)勢:
(1)無監(jiān)督的RBM方法提取輸入特征向量的結(jié)構(gòu)化信息,組成表征能力更好的特征向量;
(2)有監(jiān)督的BP方法將錯誤信息反向傳播到整個網(wǎng)絡(luò)以修改網(wǎng)絡(luò)的參數(shù),使特征向量映射到其他空間時更為準確;
(3)DBN的多層網(wǎng)絡(luò)結(jié)構(gòu)能夠自我弱化學習過程中產(chǎn)生的錯誤信息,并對特征向量在各個相異空間的重要特征信息實行優(yōu)化組合,使無監(jiān)督過程產(chǎn)生的信息更加結(jié)構(gòu)化;
(4)DBN是一個快速的學習算法,RBM將整個網(wǎng)絡(luò)的參數(shù)快速定位到最優(yōu)參數(shù)的鄰域,與傳統(tǒng)的BP算法相比,收斂速度更快。
DBN的結(jié)構(gòu)如圖1所示,在訓練模型的過程中主要可分為兩步。第一步,分別單獨、且無監(jiān)督地訓練每一層RBM,確保特征向量映射到不同特征空間時,可最多地保留特征信息。RBM網(wǎng)絡(luò)只能確保層內(nèi)的權(quán)值對該層特征向量映射達到最優(yōu),而非對整個DBN的特征向量映射均能達到最優(yōu)。第二步,利用反向傳播網(wǎng)絡(luò)有監(jiān)督地微調(diào)整個DBN網(wǎng)絡(luò),克服RBM僅能保證層間參數(shù)只對該層最優(yōu)化的弊端,并對特征向量進行分類。RBM訓練模型的過程可以看作是初始化BP的權(quán)值參數(shù),使DBN方法克服了傳統(tǒng)反向傳播神經(jīng)網(wǎng)絡(luò)容易陷入局部最優(yōu)和訓練時間長的缺點。
圖1 DBN結(jié)構(gòu)圖
Fig.1 The structure of a DBN
DBN方法是一種多層神經(jīng)網(wǎng)絡(luò),底層的神經(jīng)網(wǎng)絡(luò)接收直接表示(多數(shù)為二元值)的特征向量值,在自底向上的傳遞過程中,從具體的特征向量逐漸轉(zhuǎn)化為抽象的特征向量,在頂層的神經(jīng)網(wǎng)絡(luò)形成更易于分類的組合特征向量,增加網(wǎng)絡(luò)層數(shù)能夠?qū)⑻卣飨蛄扛映橄蠡?。而且,雖然RBM確保訓練后的層內(nèi)參數(shù)對特征向量映射達到最優(yōu),但是不能完全消除映射過程中產(chǎn)生的錯誤和不重要的特征信息。尤其是,多層神經(jīng)網(wǎng)絡(luò)的每一層網(wǎng)絡(luò)均會弱化上一層網(wǎng)絡(luò)產(chǎn)生的錯誤特征信息和次要特征信息,因此多層網(wǎng)絡(luò)較單層網(wǎng)絡(luò)精確度更高。在名實體分類問題中,基于特征方法的一個重要特性是特征向量的稀疏問題,DBN方法對特征的提取與結(jié)構(gòu)化對稀疏特征向量具有很好的辨別能力,能很好地解決這類問題[9,10]。
2 特征選取
基于字的特征非常適用于中文信息抽取領(lǐng)域,因其避免了漢語詞語沒有邊界信息等的缺點,將字與字如何組合成詞語,交由機器學習模型去決定。例如:“老”與“李”組合成“老李”,并被分類為人名;“老”與“撾”組合成“老撾”,并被分類為國家。即使是在小規(guī)模的語料中,這種組合方式是極其復(fù)雜的,表示名詞的特征向量的維數(shù)高。本文將語料中名詞出現(xiàn)的字組成字典 ,將每一個名詞e的基于字的特征向量表示為 ,特征向量與字典具有相同的維數(shù),其中 的值滿足等式(1),可具體表示為:
(1)
除了基于字的特征外,本文也加入了ACE語料里標注的名實體的指稱信息作為特征。名實體的指稱分三類,分別是命名性指稱、名詞性指稱和代詞性指稱。最后,本文將名詞的基于字特征和指稱信息特征結(jié)合,作為名實體的特征向量。雖然名實體還有其他詞法及句法特征,但是本文重在驗證DBN方法在自然語言處理領(lǐng)域的適用性,故未涉及更多特征信息。
3 實驗與分析
本文選用ACE 04的語料作為測試數(shù)據(jù),按照語料標注說明,名實體可分為五類,每一個名詞屬于且只屬于一類,分別為人名(Person)、組織機構(gòu)名(Organization)、行政區(qū)名(Geo-political entity)、地名(Location)和設(shè)施名(Facility)。對名實體分類,即是對名實體指代進行分類。名實體指代是名實體在文檔中的表述,每一個名實體指代包含主體(head)和擴展(extent)兩部分,指代主體包含名實體主要信息。雖然指代的擴展部分能提供更多信息,但是也擴大了字符字典的規(guī)模,帶來噪音。相關(guān)文獻證明,只利用指代的主體部分的效果優(yōu)于結(jié)合擴展部分[9]。
本文從語料中提取出10 228個名實體指代,利用4折交叉驗證法訓練模型,也就是說,7 746個指代作為訓練語料用于訓練模型,2 482個指代作為測試語料用于測試模型,其分布如表1所示。字符字典的維數(shù)為1 185,測試語料在本文中使用了準確率評價模型,由于本文的實驗是對已識別的名實體分類,其召回率等于準確率。
本文共進行了三組不同的實驗,第一組實驗用于驗證DBN分類器的效果,第二組實驗用于驗證RBM的層數(shù)對DBN提取特征的作用,第三組實驗用于比較層內(nèi)節(jié)點數(shù)對DBN網(wǎng)絡(luò)效果的影響。
在第一組實驗中,本文將DBN、SVM和傳統(tǒng)的反向傳播算法的名實體分類效果進行了比較,其中,DBN的網(wǎng)絡(luò)結(jié)構(gòu)是3層RBM加一層反向傳播網(wǎng)絡(luò),進行了多組實驗,選取最好的DBN模型結(jié)構(gòu),每層RBM的節(jié)點數(shù)由下至上依次為900,600,300;SVM利用的是線性核函數(shù),懲罰系數(shù)為1,其余參數(shù)為默認值,這種結(jié)構(gòu)的SVM分類效果也是比其他結(jié)構(gòu)的SVM更優(yōu);反向傳播算法的網(wǎng)絡(luò)結(jié)構(gòu)與DBN相同,利于與DBN的結(jié)果相比較,結(jié)果如表2所示。實驗證明,DBN的效果較其他兩種模型具有明顯的提高,說明DBN能從基于字特征向量中對字與字之間的關(guān)系進行正確的組合與識別,提取出更具代表性的特征用于分類。
在第二組實驗中,本文比較了一層、兩層和三層RBM的效果,一層RBM層內(nèi)節(jié)點為900,兩層RBM層內(nèi)節(jié)點分別為900和600,三層RBM的層內(nèi)節(jié)點分別為900,600和300,結(jié)果如表3所示[10]。實驗結(jié)果證明,隨著層數(shù)的增加效果越來越好,說明更多的層數(shù)能夠提取出更多準確的特征。另一方面,三層RBM比兩層RBM的效果提高不明顯,說明兩層RBM對于名實體分類已經(jīng)提取足夠的分類特征,Hinton[8]也在其相關(guān)研究中指出,三層RBM網(wǎng)絡(luò)已經(jīng)能提取足夠的特征用于分類。
在第三組實驗中,本文利用一層RBM網(wǎng)絡(luò)結(jié)合BP的模型,改變RBM層內(nèi)節(jié)點數(shù),結(jié)果如表4所示。實驗結(jié)果表明,第一層RBM層內(nèi)節(jié)點數(shù)為900的分類器效果最好,因為900接近輸入特征向量的維數(shù),說明神經(jīng)網(wǎng)絡(luò)節(jié)點數(shù)應(yīng)對輸入特征向量降維,且不宜下降過快,導致震蕩和難以收斂,并且,只包含一層RBM的DBN的效果依然優(yōu)于SVM和反向傳播算法。
本文最后觀察了每一個類別的分類效果,并用準確率,召回率和F系數(shù)去衡量,結(jié)果如表5所示。結(jié)果表明,人名、行政區(qū)名和組織結(jié)構(gòu)名的效果最好,因為語料中這三個類別的實例比例較大,地名和設(shè)施名的效果較差,因為語料中這兩個類別的實例比例較小,每一類別的分類的效果與此類別的實例在語料中比例成正比。
4 結(jié)論及將來的工作
DBN對于名實體分類是一種全新的機器學習算法,對高維特征向量具有很強的提取特征和進行特征分類能力。本文將基于字特征和指稱特征作為表述名實體指代的特征向量,并用DBN對其進行分類,實驗結(jié)果表明,DBN的分類效果要明顯好于SVM和反向傳播算法,是一種在信息抽取領(lǐng)域具有良好實用性的優(yōu)秀算法。將來的工作擬在以下幾個方面展開:(1) 將本文提出的方法在其它數(shù)據(jù)集上測試,以進一步驗證方法的有效性;(2) 將該方法應(yīng)用于關(guān)系識別方面;(3) 利用該方法多任務(wù)地進行名實體抽取與關(guān)系抽取。
參考文獻:
[1] MACDONALD D. Internal and external evidence in the identification and semantic categorization of proper names[M]. Corpus Processing for Lexical Acquisition, MIT Press. 1993:61-76.
[2] WACHOLDER N, RAVIN Y, CHOI M. Disambiguation of proper names in text[C]// Proceedings of the Fifth Conference on Applied Natural Language Processing,1997.
[3] ZHOU GuoDong, SU Jian. Named entity recognition using an hmm-based chunk tagger[C]//proceedings of ACL,2002:473-480.
[4] ISOZAKI H, KAZAWA H. Efficient support vector classifiers for named entity recognition[C]//proceedings of IJCNLP,2002:1-7.
[5] ZHAO Jian, WANG Xiaolong, GUAN Yi. Comparing features combination with features fusion in Chinese named entity recognition[J]. Computer Applications. 2005, 25(11).
[6] ZHAO Jun. A survey on named entity recognition, disambiguation and cross-lingual coreferences resolution. Journal of Chinese Information Processing[J]. 2009, 23(2).
[7] JING Hongyan, FLORIAN R, LUO Xiaoqiang, et al. How to get a Chinese name (entity): Segmentation and combination issues[C]//proceedings of EMNLP. 2003:200-207.
[8] HINTON G, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation. 2006,18:15271554.
關(guān)鍵詞:軟計算;認知;認知模型;語境
中圖分類號:B0 文獻標志碼:A 文章編號:1002-2589(2017)03-0083-02
軟計算是指對于研究對象只求近似而非精確解釋的有效計算方法,是一種包含多種不同算法的計算方法集,如模糊邏輯、遺傳算法、人工神經(jīng)網(wǎng)絡(luò)等。軟計算的認識模型構(gòu)架,簡單來說,就是軟計算及其理論構(gòu)建中所表現(xiàn)出的對于認知以及認知發(fā)生過程的組織結(jié)構(gòu)和表征模式的宏觀理解。軟計算是與傳統(tǒng)的硬計算不同的新型計算方法,傳統(tǒng)的硬計算要求計算的精確性、確定性,而軟計算則允許了不精確以及不確定的存在;軟計算與硬計算的這種差異,從根本上來講,是由于它們是基于不同的認知模型構(gòu)建的。在傳統(tǒng)的硬計算理論中,認知的本質(zhì)就是“符號+規(guī)則”,認知過程就是符號串按照一定規(guī)則變換的過程。而在軟計算理論中,認知是依賴于語境的,認知具有具身性、生成性、延展性和嵌入性,認知在功能上是模塊化的,在發(fā)生上是動態(tài)適應(yīng)的,在總體上看來是語境性的。
一、軟計算的靜態(tài)認知模型構(gòu)架
在軟計算理論系統(tǒng)內(nèi),認知不再是一個嚴密和精確的邏輯符號系統(tǒng)或邏輯運算過程,而是一個由不同的功能模塊構(gòu)成的集成系統(tǒng)??傮w來看,認知系統(tǒng)應(yīng)該被分為具有范圍非特異性的“中樞系統(tǒng)”和具有范圍特異性的“輸入系統(tǒng)”。范圍非特異的“中樞系統(tǒng)”的典型功能就是通過范圍非特異性的認知系統(tǒng)來固化信念,形成新的認知模塊,它負責陌生的語境處理。范圍特異性的“輸入系統(tǒng)”是由不同的子功能模塊構(gòu)成,它負責熟悉的語境處理,不同的功能模塊負責不同的語境,不同的功能模塊之間有一定的封閉性。
認知“中樞系統(tǒng)”主要功能在于適應(yīng)陌生的語境,解決淺層輸入系統(tǒng)無法處理的問題,并在新的語境適應(yīng)過程中形成專門處理這一問題或這一類問題的新算法。認知中樞系統(tǒng)的一個重要特征是容錯性,認知中樞系統(tǒng)不會因為一次反饋的失敗而終止或崩潰,中樞系統(tǒng)通過分析由輸入系統(tǒng)傳遞來的問題或信息,不斷提出問題的解決方案,直至問題解決或問題不需要解決為止。認知中樞系統(tǒng)的另一個重要特征是非范圍特異性,這主要表現(xiàn)在兩個方面:其一,中樞系統(tǒng)會接受來自輸入系統(tǒng)各個不同模塊傳遞來的信息,它與輸入系統(tǒng)之間不存在絕對界限;其二,中樞系統(tǒng)是以解決問題為導向,認知中樞系統(tǒng)不會拘泥于某一種反應(yīng)模式或邏輯系統(tǒng),它會根據(jù)具體問題提出不同解決方案,而這些方案也許是“輸入系統(tǒng)”某些模塊的組合和重構(gòu),或者是與這些功能模塊完全不同的全新算法。人工神經(jīng)網(wǎng)絡(luò)就是一種類似于“認知中樞系統(tǒng)”的軟計算方法,它是一個非線性的并行的、分布處理結(jié)構(gòu),具有極好的可塑性和自組織性。這就意味著,它能夠接受和處理模糊的、隨機的、陌生的問題,并形成能夠處理某一問題的固化的神經(jīng)網(wǎng)絡(luò)。
“認知輸入系統(tǒng)”的主要功能在于處理熟悉語境,是認知的初級層次,它能夠?qū)σ恍┮呀?jīng)熟悉的問題做出恰當?shù)姆答仯罢J知輸入系統(tǒng)”包含有許多的子系統(tǒng),如知覺系統(tǒng)、邏輯系統(tǒng)、語言系統(tǒng)、運動系統(tǒng)等。輸入系統(tǒng)的其中一個特征是范圍特異性,它的子系統(tǒng)各自處理不同的問題,彼此之間幾乎不存在聯(lián)系。與中樞系統(tǒng)不同,輸入系統(tǒng)對于問題的處理是被動而快速的,一個算法就是一個功能模塊,語言系統(tǒng)專門處理語言問題,識別系統(tǒng)專門處理模式識別,就如同人的條件反射一樣。而在軟計算理論中,許多的算法也具有范圍特異性,不同的算法適用于不同的問題域;如遺傳算法主要用來解決搜索問題,人工神經(jīng)網(wǎng)絡(luò)用來處理模式分類問題,模糊邏輯主要用來處理不精確的概念和模糊事件。
總體而言,軟計算不是一個已經(jīng)定型或固化的算法系統(tǒng),而是一個不斷發(fā)展的算法,基于軟計算思維可以構(gòu)造各種各樣的算法,如蟻群算法、模擬退火算法、混沌理論等;而構(gòu)成軟計算的各種具體的算法又有自身的局限性,只能處理特定的問題。因而我們可以說,軟計算理論體現(xiàn)出了“中樞系統(tǒng)+輸入系統(tǒng)”式的靜態(tài)認知模型構(gòu)架方式。
二、軟計算的動態(tài)認知模型構(gòu)架
軟計算以模糊的自然語言表達代替精確的人工符號表達,不去試圖構(gòu)造某種絕對嚴密精確的、完美的形式邏輯系統(tǒng),而是以問題解決為導向,以更為靈活的方式和貼近實際的方式解決問題,因而它不是一種純粹的造算法,它更像是一種生成算法,一種與具體語境共生的算法。傳統(tǒng)的硬計算在解決問題時,總是試圖從純粹的數(shù)學關(guān)系出發(fā),構(gòu)造出關(guān)于問題的數(shù)學模型(確定變量、常量以及它們之間函數(shù)關(guān)系)。然而,在現(xiàn)實世界中許多問題的數(shù)學模型很難構(gòu)建或無法構(gòu)建。因為,世界本身是動態(tài)的、非線性、復(fù)雜的、不確定的,而傳統(tǒng)的硬計算則要求計算是嚴密的、精確的,二者之間存在著諸多不相容之處。
而在軟計算理論系統(tǒng)內(nèi),認知不再是封閉和靜態(tài)的符號推演,而是基于語境的智能適應(yīng),也就是一個動態(tài)的進化發(fā)展過程。首先,認知不是某種先驗的邏輯系統(tǒng)或絕對理念,而是后天的語境反應(yīng)。軟計算方法的構(gòu)造都不是憑空捏造或先天就存在于人腦中的,而是根據(jù)具體問題而提出的。如模糊邏輯,它的產(chǎn)生是由于在我們的世界中總是存在著許多無法解釋、預(yù)測、確定的事物或事件,對于這些事物或事件的研究和分析我們無法依靠精確的邏輯分析,對于它們的研究我們需要借助于模糊集以及模糊邏輯。通過模糊邏輯,我們可以處理原來二值邏輯無法處理的模糊概念和模糊關(guān)系等模糊現(xiàn)象,比如“年輕與年老”“小魚還是大魚”“相像關(guān)系”。其次,認知是一個動態(tài)發(fā)展的系統(tǒng),而非靜態(tài)封閉的。因為認知總是與語境相聯(lián)系的,而語境總是在不斷變化的,所以認知也是不斷變化發(fā)展的。在應(yīng)用軟計算方法解決具體問題時,問題不會在一次計算過程中就被一勞永逸地解決;相反,問題的解決是計算方法與問題產(chǎn)生的具體語境不斷接近和契合的調(diào)整過程。以遺傳算法為例,它是模擬生物優(yōu)勝劣汰的進化過程而構(gòu)造的一種算法,遺傳算法包括幾個必要的運算過程:選擇運算、交叉運算、變異運算。在遺傳算法中,通過編碼組成初始群體后,遺傳操作的任務(wù)就是對群體中的個體按照它們對環(huán)境適應(yīng)度(適應(yīng)度評估)施加一定的操作(選擇、交叉、變異),從而實現(xiàn)優(yōu)勝劣汰的進化過程,在沒有達到適應(yīng)度要求時,遺傳操作是不能終止的,它要不斷進行交叉、變異運算,直至找到最優(yōu)運算才能終止。
簡而言之,軟計算具有很好的適應(yīng)性和可塑性,在處理問題時有較好的靈活性。這是因為在軟計算思維理念中,認知從來都不是一個封閉的靜態(tài)系統(tǒng),而是一個開放的動態(tài)適應(yīng)系統(tǒng),即“語境刺激―認知適應(yīng)”系統(tǒng)。認知是基于語境的,認知的發(fā)展與語境的變化相輔相成,二者不可分割。
三、軟計算的語境模型構(gòu)架
在傳統(tǒng)的一元論或二元論影響下,人們往往把認知看作是某種孤立的、絕對的東西,比如“理念”或“規(guī)則”等,將認知與其具體的語境割裂開來,無視具體的環(huán)境或具體的認知主體在認知過程中的作用和意義。傳統(tǒng)的硬計算受此影響,將認知歸于二值邏輯運算,把計算從語境中孤立出來。因此,傳統(tǒng)的計算思維在面對許多動態(tài)的、模糊的、不確定的問題時變得束手無策、漏洞百出。軟計算理論對此做出了深刻反思,它將認知的客體、認知的主體、認知的結(jié)果統(tǒng)一于語境,認為認知是身體―心智―世界構(gòu)成的動力耦合系統(tǒng)。
首先,認知的發(fā)生離不開認知主體的參與,也就是說認知的發(fā)生應(yīng)該有必要的載體否則就是不可能的,比如在人的認知活動中,我們的大腦和身體的其他部分都是這個過程不可或缺的組成部分,沒有身體和大腦的參與認知不可能發(fā)生。人工神經(jīng)網(wǎng)絡(luò)是模擬人腦生物神經(jīng)系統(tǒng)結(jié)構(gòu)和運行機制而構(gòu)造的一種軟計算方法,與人腦相似的物質(zhì)系統(tǒng)是人工神經(jīng)網(wǎng)絡(luò)算法運行必不可少的運行單元。其次,認知的發(fā)生具有情境性,我們的認知總是基于一定的情景,并且只有在一定的情境中才能得到解釋和說明。比如,在模糊集合中我們需要構(gòu)造隸屬度函數(shù),這里的隸屬度函數(shù)的取值取決于不同的情境,而隸屬度函數(shù)本身就是一個語境,它是一個模糊集合適用的范圍。另外,認知是身體―心智―世界三者構(gòu)成的動力耦合系統(tǒng),因而三者之間并不是絕對同一的,所以它們之間的信息傳遞必然存在著不完整、不精確、不確定。這也正是軟計算為什么允許模糊性、不精確性、不確定性存在的原因。
總之,在軟計算理論中,認知是語境性的,它是由身體―心智―世界構(gòu)成的一個動力耦合系統(tǒng),也就是由“語用反應(yīng)”“語形約定”和“語義反饋”三個語境維度構(gòu)成的一個動態(tài)系統(tǒng)。這在認知活動中,體現(xiàn)為認知主體、認知客體與認知結(jié)果之間的相互關(guān)系。其中,語用語境就是指客觀的認知對象與認知主體之間的相互聯(lián)系,如身體對于世界的感知反應(yīng),即認知的語用反應(yīng)過程,語用語境是整個認知發(fā)生的基礎(chǔ),這一過程就類似于軟計算方法提出的問題語境;語形語境指認知主體的直觀反應(yīng)與知識系統(tǒng)之間的聯(lián)系,在語形語境中,主體的直觀反應(yīng)被抽象為規(guī)范的知識,即語形規(guī)范過程,語形語境是認知的核心部分,這與軟計算方法的構(gòu)造過程是相似的;語義語境指的是認知主體對于客觀的認知對象的反饋,這也就是軟計算方法的具體運用過程,它的完成標志著一個認知過程的實現(xiàn)。
總結(jié),縱觀軟計算理論的具體內(nèi)涵和算法特征,我們可以發(fā)現(xiàn):軟計算從根本上重構(gòu)了人們對于認知的看法。在軟件理論思S中,認知首先是語境的,認知發(fā)生于語境且依賴于語境,沒有語境就沒有認知;其次認知具有模塊性,我們可以將認知劃分為不同的功能模塊(中樞系統(tǒng)和輸入系統(tǒng)),不同的功能模塊各有其特征,試圖將認知統(tǒng)一于規(guī)則或程序是徒勞的,這種嘗試往往是不可能成功的;最后認知是一個開放的智能適應(yīng)系統(tǒng),而不是封閉的靜態(tài)系統(tǒng)??偠灾?,軟計算不單單是計算方法上的一種革新,它更是認知思想上的一次變革。深入理解軟計算的認知模型構(gòu)架,不僅有利于我們更好地認識軟計算的理論內(nèi)涵,也有利于軟計算自身的發(fā)展。
參考文獻:
[1]劉曉力.哥德爾對心―腦―計算機問題的解[J].自然辯證法研究,1999(11).
[2]王大將,王敏.軟計算融合技術(shù)研究[J].計算機技術(shù)與發(fā)展,2012(4).
[3]J?A?福多.心理模塊性[M].上海:華東師范大學出版社,2001.
摘 要:基于視覺的人體運動分析是計算機領(lǐng)域中備受關(guān)注的前沿方向之一,而人行為理解由于在智能監(jiān)控、人機交互、虛擬現(xiàn)實和基于內(nèi)容的視頻檢索等方面有著廣泛的應(yīng)用前景更是成為了未來研究的前瞻性方向之一。行為理解問題一般遵從如下基本過程:特征提取與運動表征;行為識別;高層行為與場景理解。著重從這三個方面逐一回顧了近年來人行為理解研究的發(fā)展現(xiàn)狀和常用方法,并對當前該研究方向上亟待解決的問題和未來趨勢作了較為詳細的分析。
關(guān)鍵詞:特征選擇;運動表征;行為識別;高層行為與場景理解
Abstract:Human movement analysis from video sequences is an active research area in computer vision and human motion understanding is a future direction of prospective study as it has many potential application domains such as smart surveillance, human computer interface, virtual reality contendbased video indexing, etc. Human action understanding is generally pidedintothreefundamental subprocesses:feature extraction and motion representation,activity recognition and higher level activity and scene understanding.This paper analyzed the state of the art in human action understanding in detail from three fundamental processes. At the end,provided and analyzed some detailed discussions on vital problems and future directions in human action understanding.
Key words:feature extraction;motion representation;activity recognition;high level activity and scene understanding
0 引言
近年來,人運動視覺分析由于在智能監(jiān)控[1]、高級人機交互[2]、虛擬現(xiàn)實[3]和基于內(nèi)容的視頻檢索與解說[4,5]等方面有著廣泛的應(yīng)用前景和潛在的經(jīng)濟價值,激發(fā)了廣大科研工作者及相關(guān)商家的濃厚興趣,并成為了計算機領(lǐng)域中備受關(guān)注的前沿方向之一。目前,在世界范圍內(nèi)已經(jīng)開展了大量的視覺分析研究項目。例如1997年美國國防高級研究項目署(Defense Advanced Research Projects Agency,DARPA)設(shè)立了視覺監(jiān)控重大項目VSAM(visual surveillance and monitoring)[6],主要研究用于戰(zhàn)場及普通民用場景監(jiān)控的自動視頻理解技術(shù);實時視覺監(jiān)控系統(tǒng)W4[7]不僅能夠定位和分割出人的身體部分以及實現(xiàn)多人跟蹤,而且能檢測人是否攜帶物體等簡單行為;1999年歐盟Framework5程序委員會設(shè)立重大項目ADVISOR系統(tǒng)[8],旨在開發(fā)一個公共交通(如地鐵、機場)的安全管理系統(tǒng),它覆蓋了人群和個人的行為模式分析、人機交互等研究;2000年,DARPA又資助了HID(human identification at a distance)計劃[9],其任務(wù)是開發(fā)多模式監(jiān)控技術(shù)以實現(xiàn)遠距離情況下人的檢測、分類和識別,從而增強國防、民用等場所抵御恐怖襲擊的能力;英國雷丁大學(University of Reading)[10]先后開展了REASON(robust methods for monitoring and understanding people in public spaces)、ETISE(evaluation of video scene understanding)、ISCAPS(integrated surveillance of crowded areas for public security)等項目以研究基于視覺的單人行為以及人與人之間的交互行為識別和場景理解等;此外還有能夠?qū)θ诉M行跟蹤與行為理解的實時系統(tǒng)Pfinder(person finder)[11],由歐盟和奧地利科學基金會共同資助的大型視頻監(jiān)控技術(shù)研究項目AVITRACK(aircraft surroundings, categorized vehicles & inpiduals tracking for apron’s activity model interpretation & check)[12]等。國內(nèi)在該領(lǐng)域的研究起步相對要晚,但也有許多大學和研究機構(gòu)如中國科學院自動化所模式識別國家重點實驗室[13]、亞洲微軟研究院[14]、北京大學視覺與聽覺信息處理國家重點實驗室[15]以及清華大學等對人視覺分析關(guān)鍵技術(shù)進行了深入的研究。在學術(shù)方面,一些國際權(quán)威期刊如PAMI、IP、IJCV、CVIU、IVC和重要的學術(shù)會議如CVPR、ICCV和ICPR等將智能化視頻監(jiān)控技術(shù)研究,尤其是人運動視覺分析作為主題內(nèi)容之一。這些期刊為該領(lǐng)域的研究人員提供了更多的交流機會[1]。
人運動視覺分析是利用計算機技術(shù)從包含人的圖像序列中檢測、分類、跟蹤人,并對其行為進行理解與描述。其中運動檢測[16~18]、目標分類[19]、跟蹤[20~23]屬于視覺分析中的底層和中層處理部分(有興趣的讀者可參考文獻[24~28]);而行為理解和描述是經(jīng)過對運動對象的連續(xù)跟蹤觀察,分析識別目標當前處于哪種行為模式,并利用語言進行描述,以及判斷該行為是否屬于異常行為,其屬于高層處理部分。當前,人行為理解與描述受到了廣泛關(guān)注,發(fā)表在上述權(quán)威期刊和重要學術(shù)會議上的關(guān)于行為理解研究的論文正逐年增加。由圖1可見,關(guān)于人行為理解研究的會議文章從2002年起急劇增加,并且到2005和2006年每年發(fā)表的會議論文均保持在70篇以上;期刊文章從2003年也開始大幅增加,尤其是2007年前5個月的文章數(shù)量就超過2005年全年的數(shù)量并接近2006年全年發(fā)表的數(shù)量。行為理解已經(jīng)成為了未來研究的前瞻性方向之一。因為人運動視覺分析研究的最終目標就是要讓計算機能像人那樣通過視覺觀察和理解世界[29],也就是通過視覺觀察來分析和理解人類活動及場景信息等。行為理解是跟蹤器中像素測度與行為描述之間的橋梁,是使計算機向更加人性化(從“l(fā)ooking at people”向“understanding people”)轉(zhuǎn)變的關(guān)鍵所在。
通過對大量行為理解研究文獻的整理發(fā)現(xiàn):人行為理解研究一般遵從特征提取與運動表征、行為識別、高層行為與場景理解等幾個基本過程[30~33](圖2)。特征提取與運動表征是在對目標檢測、分類和跟蹤等底層和中層處理的基礎(chǔ)上,從目標的運動信息中提取目標圖像特征并用來表征目標運動狀態(tài);行為識別則是將輸入序列中提取的運動特征與參考序列進行匹配,判斷當前的動作處于哪種行為模型;高層行為與場景理解是結(jié)合行為發(fā)生的場景信息和相關(guān)領(lǐng)域知識,識別復(fù)雜行為,實現(xiàn)對事件和場景的理解。
隨著人行為理解研究的不斷發(fā)展和深入,對該領(lǐng)域的工作及進展作詳細的回顧和分析顯得很有必要。盡管Aggarwal[24]、Gavrila[25]、Moeslund[26]和Hu[27]等人對行為理解的方法有所闡述,但他們都是簡單性地總結(jié)分析其方法,并沒有對當前行為理解的研究現(xiàn)狀進行系統(tǒng)分析。為了使廣大相關(guān)科研人員能更好地了解和掌握行為理解技術(shù)發(fā)展的新動向,促進行為理解技術(shù)的發(fā)展,本文從行為理解的一般性處理框架出發(fā),對目前人行為理解的算法研究現(xiàn)狀、存在問題及發(fā)展趨勢等進行詳細介紹。
1 特征選擇與運動表征
在人運動視覺分析中,由于視角的影響,同一種行為可能有不同的投影軌跡,而不同的行為可能有相同的投影軌跡。此外,光照變化、遮擋等現(xiàn)實環(huán)境因素也都給行為理解帶來了很大困難。所以從原始視頻數(shù)據(jù)中提取何種底層特征(如形狀信息包括側(cè)影、輪廓,運動信息包括位置、速度、方向等)描述人運動,以及如何選擇充分有效的描述方法表征人運動狀態(tài)并且能夠在時間分辨率和維數(shù)上減少計算量成為行為理解的關(guān)鍵問題之一。
1.1 特征選擇
表1為2000—2007年400多篇關(guān)于行為理解研究的權(quán)威期刊與重要國際會議文章中使用特征的統(tǒng)計分析表。由表1可見,目前行為理解研究所采用的特征主要有如下四種:外觀形狀特征、運動特征、時空特征、形狀特征與運動特征兩者的混合特征。其中,形狀特征和運動特征是兩種最常用、也是最主要的特征,其比例均保持在30%以上。另外,時空特征在行為理解研究中開始得到越來越廣泛的使用。
基于外觀形狀特征[34~42]方法是先利用人體幾何結(jié)構(gòu)、輪廓或姿態(tài)以及區(qū)域顏色等信息來估計運動目標每時刻的靜止姿態(tài),然后用這些靜止姿態(tài)序列來描述人體運動。外觀形狀特征容易獲得且比較穩(wěn)定,對紋理變化不敏感。基于運動特征方法[43~47]則沒有利用有關(guān)人體結(jié)構(gòu)的任何形狀信息,而是直接從圖像序列中提取出目標運動特性(時分)信息(如光流信息、運動方向、軌跡、位置、速度等)來表征運動狀態(tài)。心理學研究表明,運動特征具有靜態(tài)形狀特征無法比擬的優(yōu)勢,即使是在遠距離或惡劣的能見度情況下和最小運動系統(tǒng)——MLD(moving light display)[48],人能夠根據(jù)運動模式輕松地區(qū)別和識別目標的運動類型,而形狀特征在此種情況下往往變得模糊不清。但目前的計算機視覺方法很難準確地提取運動特征,所以,為了充分利用形狀特征和運動特征各自的優(yōu)勢,研究人員采用兩者的混合特征[49~51]識別人的行為。此外,時空特征[52~57]是近年來行為理解研究中使用比較多的特征。時空特征通過采用二維形狀在一段時間內(nèi)形成的空時立體或差分圖像來描述行為,集合了形狀和運動特征兩者的優(yōu)點。由于時空特征考慮了運動信息,也有學者將其歸類于運動特征。
1.2 運動表征
人運動表征是指從人的運動序列中提取合適的特征數(shù)據(jù)來描述人的運動狀態(tài),這是人行為理解中至關(guān)重要的一步。依據(jù)所用的特征,運動表征方法可分成基于外觀形狀特征的和基于運動特征的。
1.2.1 基于外觀形狀特征的運動表征方法
依據(jù)是否利用人體形狀模型的先驗知識,基于外觀形狀的運動表征方法又可分成基于模型和基于外觀特征(或基于視覺特征方法)兩類。
基于模型方法的核心思想是首先建立描述空間中人體形狀模型;然后利用目標的形態(tài)特征和關(guān)節(jié)位置等信息,將模型與輸入圖像序列在首幀匹配,在后續(xù)幀的跟蹤過程中,定義損失函數(shù)描述輸入圖像數(shù)據(jù)與模型之間的近似關(guān)系,并采用人體運動參數(shù)限制條件和最優(yōu)策略如最小平方[58]或隨機采樣策略如粒子濾波[59,60]等方法最小化損失函數(shù)來求得當前的運動姿態(tài)。常用的模型結(jié)構(gòu)可以分為矩形框、棍棒形狀[61]、二維輪廓[38]和3D立體模型[58]?;谀P头椒狭讼闰?zāi)P椭R和當前輸入,能夠適合復(fù)雜行為的行為理解;但通常要求首先選擇模型,初始化較難、計算量大,而且由于人運動的高自由度,容易產(chǎn)生局部最小值,很難找到全局最優(yōu)且魯棒的模型參數(shù),此外由于在后續(xù)的跟蹤中存在累計誤差,不能分析、跟蹤長序列運動。
基于外觀方法并不試圖恢復(fù)人體運動的結(jié)構(gòu)模型,而是直接從圖像中提取物體的二維空間信息,如高度、寬度、側(cè)影輪廓和顏色等,并用這些特征直接或通過與已經(jīng)訓練好的模型進行匹配來獲得對當前運動的描述。在這類方法中,形狀分析理論常用來描述運動目標的形狀變化特征(有關(guān)形狀分析請參考文獻[62])。常用的形狀分析方法有質(zhì)心—邊界距離[34,36]、傅里葉描述符[41]、形狀上下文[42]和統(tǒng)計形狀分析[32,35,63,64]等。其中,質(zhì)心—邊界距離方法使用一維函數(shù)編碼從形狀的質(zhì)心到形狀邊界點的距離,這種描述符簡單但不能精確地對非凸起形狀進行編碼,如質(zhì)心與一個邊界點之間的距離連線可能與另一個邊界點相交,造成細節(jié)的丟失。Poppe等人[41]提出用傅里葉描述算子恢復(fù)人姿態(tài);其思想是用固定的邊界采樣點對人體二維側(cè)影輪廓進行采樣,并對采樣點進行傅里葉變換,利用變換后傅里葉系數(shù)的低頻部分描述形狀的大體特征,用高頻部分來反映形狀的微觀特征即詳細特征。由于傅里葉描述算子只能描述單個閉環(huán)曲線,這種方法一般用于描述外部邊界點;在噪聲環(huán)境下,傅里葉轉(zhuǎn)換性能不是很好。Mori和Malik[42]則提出用形狀上下文[65]描述算子表征人體側(cè)影形狀來恢復(fù)人體運動的三維姿態(tài)。一個點的形狀上下文算子就是試圖捕捉點集中其他點相對于該點的分布,它是一種基于內(nèi)部或外部邊界采樣點的局部描述算子。傅里葉描述算子和形狀上下文算子具有平移、旋轉(zhuǎn)和尺度不變性。與傅里葉算子和形狀上下文描述算子不同的是,Hu[66]提出一種基于區(qū)域的不變矩理論,并構(gòu)造出共七個不變矩,它們具有平移、旋轉(zhuǎn)和縮放不變性,目前已經(jīng)廣泛應(yīng)用于圖像的模式識別中。Poppe和Poel[67]對傅里葉描述算子、形狀上下文和不變矩三種算子在側(cè)影輪廓描述上的性能進行了比較,并且實驗結(jié)果表明傅里葉描述算子和形狀上下文直方圖在形變側(cè)影描述上比Hu更具有優(yōu)勢。20 世紀70年代后期,Dryden等人[63]提出的統(tǒng)計形狀理論發(fā)展成一種用形狀概率分布分析物體形狀的實用統(tǒng)計方法,并且在圖像分析、目標識別等領(lǐng)域得到廣泛應(yīng)用。文獻[64]進一步討論了投影形狀和不變量,以及形狀模型、特征和它們各自在高層視覺中的作用。Jin等人[32]用統(tǒng)計形方法描述每幀中的目標輪廓,并用完全Procrustes均值形狀作為極點,構(gòu)造一個與數(shù)據(jù)集近似的線性空間——切空間;然后用這個線性化的輪廓作為訓練數(shù)據(jù)去學習動態(tài)系統(tǒng)、估計系統(tǒng)參數(shù),從而識別人行為。
此外,目標形狀變化的動態(tài)特性也為目標識別和動作分類提供了重要信息。N.Vaswani等人[68]提出用形狀變化的動態(tài)特性來建模和分類動作;Liu等人[69]提出在傅里葉描述算子的基礎(chǔ)上建立自回歸模型學習形狀變化的動態(tài)信息;基于統(tǒng)計形狀理論,Veeraraghavan等人[35]提出用自回歸模型(AR)和平穩(wěn)自回歸模型(ARMA)學習形狀變化的動態(tài)特性,并用模型之間的距離量測作為兩個形狀序列之間的相似性測量,取得了較好的分類效果。
基于外觀特征方法不要求特定的模型,比較簡單,能夠適用于大量的環(huán)境條件下。但外觀特征方法由于沒有模型先驗信息限制,很難建立連續(xù)幀之間的特征對應(yīng)關(guān)系,并且很難區(qū)別信號和噪聲,一般對噪聲敏感。此外,外觀特征受視角影響大,所以許多學者[58,70~72]研究基于多視角環(huán)境中人的行為分析和識別。
1.2.2 基于運動特征的運動表征方法
基于運動特征的表征方法可以細分為:
a)基于預(yù)先確定區(qū)域(如腿、頭)跟蹤的運動軌跡分析方法。其關(guān)鍵是運動匹配[43,45,73],思想是在一幀圖像中提取出興趣點或區(qū)域、典型特征,并且在隨后圖像幀中進行跟蹤,多幀之間的這些特定點或區(qū)域位置匹配就會產(chǎn)生一條運動軌跡;然后對軌跡進行參數(shù)化處理,如將軌跡轉(zhuǎn)換成水平、垂直方向的速度以及時空曲率等來描述運動特性。
b)基于非預(yù)先確定的目標區(qū)域運動分析方法。其最典型的代表是光流法[44,46,47,74]。與運動軌跡不同的是,光流法是計算空間運動物體表面上像素點運動產(chǎn)生的瞬時速度場。它通過計算圖像序列中連續(xù)兩幀亮度信息來得到,指的是圖像亮度模式的表觀(或視在)運動(apparent motion)。例如Zhu等人[47]提出用光流直方圖來描述動作的運動信息,然后用支持向量機作分類器識別運動員的擊球動作。光流法在無須背景區(qū)域的任何先驗知識條件下就能夠?qū)崿F(xiàn)對運動目標的檢測和跟蹤。光流計算的基本等式是假設(shè)相鄰兩幅圖像中對應(yīng)兩點的灰度不變得到的。在這個假設(shè)條件下首先要求兩幅圖像相鄰時刻之間的間隔是很小的(幾十毫秒之內(nèi)),并且要求場景光照均勻。此外光流法的計算量較大。
時空特征不僅包含人動作姿態(tài)的空間信息(人體軀干和肢體的位置、方向等),而且還包含運動的動態(tài)信息(人體的全局運動和肢體的相對運動),從而避免了光流場計算可能遇到的問題(包括孔徑、全局平滑性約束、奇異性等)和外觀形狀特征跟蹤問題[75,76](自遮擋、重新初始化、外觀改變、運動信息缺乏等)等。所以近年來時空特征在行為識別中得到了大量的使用[52~57]。Bobick和Davis[52]集合時空運動特征,提出了用運動歷史圖(MHIs)和運動能量圖(MEIs)來描述運動。其中運動歷史圖反映運動是怎么產(chǎn)生的,而運動能量圖反映運動發(fā)生的位置。文獻[53,54]則提出用迭代濾波(recursive filtering)和幀分組(frame grouping)來描述運動信息。用迭代濾波方法對視頻序列中的每幀圖像進行濾波處理得到一幅濾波圖像,其反映當前幀的場景空間分布信息、相鄰幀之間的時分關(guān)系以及短時間內(nèi)的運動速度;幀分組方法思想是單獨分類視頻切片中的每個濾波圖像,然后用多數(shù)投票方法分類這些已標志的濾波圖像的運動類型。
基于運動特征和外觀形狀特征表征的方法都有各自的缺點,基于運動特征能夠描述人的近似運動方向和軌跡等,但很難準確、穩(wěn)定地捕捉目標運動特性;另一方面,外觀形狀特征能夠描述人的姿態(tài)信息,但由于沒有運動信息,描述行為動作的能力有限。所以研究人員[56~58]通過采用融合兩種特征的方法來對人行為進行建模和識別。
2 行為識別
行為識別問題可以簡單地看做是時變特征數(shù)據(jù)的分類問題,即將測試序列與預(yù)先標定的代表典型行為的參考序列進行匹配,那么其關(guān)鍵問題是如何從學習樣本中獲取參考行為序列以及如何度量參考序列與測試序列之間的相似性。由于人動作執(zhí)行的速度不一樣,學習和匹配行為序列時還必須能夠處理相似運動模式在空間和時間尺度上輕微的特征變化。目前,行為識別方法一般可以分成靜態(tài)識別和動態(tài)識別。靜態(tài)識別方法是把行為看做由一組按時間順序串連起來的靜態(tài)圖像序列,其常用的方法有模板匹配方法;動態(tài)識別方法是定義每個靜態(tài)姿勢作為圖模型上的一個節(jié)點或狀態(tài),這些節(jié)點或狀態(tài)之間通過某種關(guān)系如概率聯(lián)系起來。任何運動序列可以看做這些靜態(tài)姿勢的不同狀態(tài)之間的一次遍歷過程。常用的識別方法有隱馬爾可夫模型(hidden Markov models,HMMs)、動態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayesian network,DBN)等。這些方法可以總歸為基于狀態(tài)轉(zhuǎn)移的圖模型方法。
2.1 基于模板匹配方法
基于模板匹配方法是用從輸入圖像序列提取的特征與在訓練階段預(yù)先保存好的模板進行相似度比較,選擇與測試序列距離最小的已知模板的所屬類別作為被測試序列的識別結(jié)果。Bobick和Davis[52]將圖像序列目標運動信息轉(zhuǎn)換成運動能量圖像(MEI)和運動歷史圖像(MHI),采用馬氏距離度量測試序列與模板之間的相似性;Masoud等人[53]則采用無限沖擊響應(yīng)濾波器來描述運動,并將其投影到特征空間,然后用Hausdorff距離度量測試序列與參考序列之間的相似性。此外,還有學者采用Procrustes距離[50]來度量測試序列與模板之間的相似性。這些最近鄰方法盡管在一定程度上反映了運動的時分關(guān)系,計算量小,但并沒有對運動的時分限制條件進行建模,魯棒性較差。為此,Veeraraghavan等人[35]用動態(tài)時間規(guī)整(dynamic time warping,DTW)來匹配運動序列。DTW是一種時變數(shù)據(jù)序列匹配方法,常用于微生物學的DNA匹配、字符串和符號的比較以及語音分析[77]。DTW算法的思想是給定參考模板特征矢量序列與輸入特征矢量序列,尋找一個最佳的時間規(guī)整函數(shù),使得輸入序列的時間軸映射到參考模板的時間軸上總的累計失真最小。對DTW而言,即使測試序列模式與參考序列模式的時間尺度不能完全一致,只要時間次序約束存在,它仍能較好地完成測試序列與參考序列之間的模式匹配。DTW具有概念簡單、算法魯棒的優(yōu)點,能夠?qū)D像序列進行分類。文獻[35]在形狀空間中用動態(tài)時間規(guī)整方法計算兩個形狀序列之間的距離來識別動作和步態(tài),取得了很好的分類結(jié)果。然而,DTW算法計算量較大,缺乏考慮相鄰時序之間的動態(tài)特性,而在實際中,運動序列中相鄰序列在時間和空間上有高度的相關(guān)性。
基于模板匹配方法計算復(fù)雜度低、實現(xiàn)簡單,但缺乏考慮運動序列中相鄰時序之間的動態(tài)特性,對于噪聲和運動時間間隔變化敏感。
2.2 基于狀態(tài)轉(zhuǎn)移圖模型方法
基于狀態(tài)轉(zhuǎn)移圖模型方法[78,79]是將每個靜態(tài)姿勢或運動狀態(tài)作為圖中的一個節(jié)點或狀態(tài),對應(yīng)于各個姿勢或運動狀態(tài)節(jié)點之間的依存關(guān)系通過某種概率聯(lián)系起來,這樣任何運動序列可以看做在圖中不同節(jié)點或狀態(tài)之間的一次遍歷過程。常用于行為理解的圖模型方法有隱馬爾可夫及其改進模型[80~95]、動態(tài)貝葉斯網(wǎng)絡(luò)[96~102]、人工神經(jīng)網(wǎng)絡(luò)[45,103]、有限狀態(tài)機[104,105]和置信網(wǎng)絡(luò)[106]等。本文對前三種常用方法進行總結(jié)分析。
2.2.1 隱馬爾可夫及改進模型
與DTW相比,隱馬爾可夫模型是一種更加成熟的匹配時變數(shù)據(jù)的技術(shù)。HMMs用馬爾可夫過程建立相鄰實例之間的相互關(guān)系,并假設(shè)觀察序列由固定個數(shù)的隱狀態(tài)構(gòu)成的隱過程決定,是一種隨機狀態(tài)機。HMMs的使用涉及到訓練和分類兩個階段。訓練階段包括指定一個隱馬爾可夫模型的隱藏狀態(tài)數(shù),并且優(yōu)化相應(yīng)的狀態(tài)轉(zhuǎn)換和輸出概率,以便于產(chǎn)生的輸出符號與對特定運動類別之內(nèi)所觀察到的圖像特征相匹配。受HMMs在語音數(shù)據(jù)分析[80]成功應(yīng)用的影響,研究人員將HMMs用于視覺識別[73,81~83]。Bregler[81]基于人體動力學在不同抽象等級的統(tǒng)計分析,提出了用一個綜合性的網(wǎng)絡(luò)來識別人的運動:在底層處理階段,以混合高斯模型來估計基于運動、彩色相似度和空間接近程度等小區(qū)域塊,不同的身體部分區(qū)域在圖像序列中被跟蹤;在中層處理階段,具有一致運動特性的區(qū)域被匹配為動力學系統(tǒng)中的簡單運動(如行走被認為是兩個簡單運動的組成:一個是腿的支撐,一個是腿在空中的擺動);在高層處理階段,HMMs被用來作為這些中級動力系統(tǒng)的混合模型以表達復(fù)雜的運動,識別過程通過最大化HMMs的后驗概率來完成。實驗表明,在學習能力和處理未分割的連續(xù)數(shù)據(jù)流方面,HMMs比DTW有更好的優(yōu)越性。
HMMs有很強的輸出獨立性假設(shè)限制,其信號處理過程是一個單路馬爾可夫過程,不能處理多個且相互依存的序列,導致其不能考慮上下文的特征,限制了特征的選擇;而且其拓撲結(jié)構(gòu)是事先給定的,它的模型參數(shù)需要用EM算法來估計(BaumWelch 算法);對觀測矩陣的初始值比較敏感,如果初始值選擇不當,會造成概率函數(shù)的局部最大值。另外,分類模型不靈活,不能處理運動中分層與共享結(jié)構(gòu)。為了識別復(fù)雜動作與人們之間的交互行為,Brand等人[84]提出一種耦合隱馬爾可夫模型(coupled hidden Markov models, CHMM)[84~86]來建模行為中兩個相互關(guān)聯(lián)的隨機過程,并用CHMM對手勢進行識別。結(jié)果表明,與傳統(tǒng)HMMs相比,CHMM具有更好的分類效果,計算速度快,而且對初始條件不敏感。Fine等人[87]為處理自然序列中復(fù)雜的多尺度結(jié)構(gòu),提出了層級隱馬爾可夫模型(hierarchical hidden Markov model,HHMM)。HHMM具有多層隱馬爾可夫模型的結(jié)構(gòu),所以能夠更為清楚地表達出人運動中不同層次的行為細節(jié)。Nguyen等人[88,89]采用HHMM識別人的行為,并取得了很好的分類效果。此外還有抽象隱馬爾可夫模型(abstract hidden Markov model, AHMM)[90]、可變長馬爾可夫模型(variable length Markov model,VLMM)[91]、熵隱馬爾可夫模型[92,93]和分層隱馬爾可夫模型(layered hidden Markov model,LHMM)[94,95]等也被用于復(fù)雜行為識別。
2.2.2 動態(tài)貝葉斯網(wǎng)絡(luò)
由于HMMs不能有效處理三個或三個以上獨立的過程[86],學者提出了HMMs的推廣方法——動態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayesian networks,DBNs)[96]。動態(tài)貝葉斯網(wǎng)絡(luò)是一種對隨機過程描述的有向圖解,通過網(wǎng)絡(luò)拓撲結(jié)構(gòu)反映變量間的概率依存關(guān)系及其隨時間變化的情況,不受馬爾可夫鏈的鏈狀結(jié)構(gòu)約束,因此不但能夠在每個時刻上對多個隨機變量所對應(yīng)的不同特征之間的依存關(guān)系進行概率建模而不僅僅是一個隱藏狀態(tài)變量,而且考慮了各個時刻間的轉(zhuǎn)移概率,能夠很好地反映特征之間的時序關(guān)系,適用于不確定性和概率性事物。所以動態(tài)貝葉斯網(wǎng)絡(luò)逐漸成為人行為理解研究中一個有力的數(shù)學工具[97~102]。Park和Aggarwal[97]提出用層級貝葉斯網(wǎng)絡(luò)方法識別兩個人之間的動作。該方法在貝葉斯網(wǎng)絡(luò)的低層估計被跟蹤身體部分的姿態(tài);然后在貝葉斯網(wǎng)絡(luò)高層估計整個身體的姿態(tài);最后用動態(tài)貝葉斯網(wǎng)絡(luò)處理綜合多個身體部分組成的狀態(tài)。Muncaster等人[102]提出一個一般的d-層動態(tài)貝葉斯網(wǎng)絡(luò)識別復(fù)雜的事件,在每一層用確定性的退火聚類算法自動檢測觀測層的狀態(tài)。文獻[98,99]則用貝葉斯網(wǎng)絡(luò)識別停車場和地鐵監(jiān)控環(huán)境下的復(fù)雜行為。
貝葉斯網(wǎng)絡(luò)的主要優(yōu)點是利用先驗知識建立視覺特征之間的因果關(guān)系來處理視頻處理中固有的不確定性問題。動態(tài)貝葉斯網(wǎng)絡(luò)還可以任意改變拓撲結(jié)果或增刪變量以反映變量間各種不同的關(guān)聯(lián)關(guān)系,而不影響訓練算法本身,因此具有良好的可解釋性,其拓撲結(jié)構(gòu)具有精確及易于理解的概率語義。相比馬爾可夫鏈,貝葉斯網(wǎng)絡(luò)訓練比較復(fù)雜。
2.2.3 神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是由人工建立的以有向圖為拓撲結(jié)構(gòu)的動態(tài)系統(tǒng),它通過對連續(xù)或斷續(xù)的輸入作狀態(tài)響應(yīng)而進行信息處理,在分析時變數(shù)據(jù)時具有很大的優(yōu)勢。Buccolieri等人[103]用神經(jīng)網(wǎng)絡(luò)對輪廓進行分析來識別人的姿態(tài)。由于神經(jīng)網(wǎng)絡(luò)通常需要用大量的數(shù)據(jù)來訓練網(wǎng)絡(luò),研究學者在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出了時延神經(jīng)網(wǎng)絡(luò)(timedelay neural network,TDNN)。時延神經(jīng)網(wǎng)絡(luò)是在多層前饋感知器神經(jīng)網(wǎng)絡(luò)模型中引入時延單元使得神經(jīng)網(wǎng)絡(luò)增加記憶功能;同時,時變序列的前述值被用來預(yù)測下一個值。由于大量數(shù)據(jù)集成為可能,時延神經(jīng)網(wǎng)絡(luò)的重點就可以放在時分信息的表達,這樣由此導出的神經(jīng)網(wǎng)絡(luò)模型適合應(yīng)用于處理序列數(shù)據(jù)。Yang和Ahuja[45]應(yīng)用時延神經(jīng)網(wǎng)絡(luò)于手勢識別,并取得了較高的識別率。
除了上述兩類方法,支持向量機(support vector machine,SVM)由于能夠較好地解決常見的非線性分類問題中的小樣本、非線性、高維數(shù)和局部極小點等實際問題,同時可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點問題,成為20世紀90年代末發(fā)展最快的研究方向之一,并且在行為理解中也得到了充分的應(yīng)用[47,54,107~109]。Cao等人[54]用SVM建立濾波圖像分類器來對運動分類。文獻[109]提出一種基于光流直方圖運動描述算子,并用SVM訓練分類器識別運動員的動作。
3 高層行為與場景理解
盡管用上述行為識別方法能夠識別較復(fù)雜的動作,但要理解“場景中在發(fā)生什么事情”等復(fù)雜行為與事件,不僅需要解釋和理解視覺輸入,還需要場景中相關(guān)信息與背景知識,尤其是對涉及人活動的場景理解更需要抽象且有代表意義的策略。高層行為事件與場景理解是在對場景圖像信息的各種處理和分析的基礎(chǔ)上,解釋和描述場景圖像的內(nèi)容,包括場景中人與人、人與物體的行為以及它們之間的時空關(guān)系,這也稱為高層視覺。目前研究較多的事件檢測是對整個視頻序列內(nèi)容以及真實場景的總結(jié)分析過程。其核心思想是利用物體或環(huán)境知識去理解場景中發(fā)生的動作或?qū)⒁l(fā)生的動作,廣泛應(yīng)用于停車場、超市、地鐵以及機場等公共場所的智能監(jiān)控中檢測是否有異常行為發(fā)生并告警。VSAM、Pfinder和AVITRACK等系統(tǒng)都具有場景理解與事件檢測的功能。目前高層行為與場景理解的方法包括基于規(guī)則推理網(wǎng)絡(luò)[33,105,106,110~113]、隨機文法(包括隨機上下文無關(guān)文法:stochastic context free grammar,SCFG)[114~116]、概率狀態(tài)依存語法(probabilistic state dependent grammars,PSDG)[117]、因果分析[118]等。
Badler[105]提出一種基于運動動詞的分層框架來分析運動。一個運動動詞就是一種行為,而這些動詞是預(yù)先定義在靜態(tài)圖像的規(guī)則基礎(chǔ)上,用自動狀態(tài)機建立起行為之間的聯(lián)系。這種系統(tǒng)理論上可以解釋人行為中的復(fù)雜事件,但系統(tǒng)僅僅在人工環(huán)境中進行測試。Kojima和Tamura[111]則提出一種事件框架來識別單個人的動作。首先提取出人體頭、身體和手的運動,定義事件幀(case frame)來描述動作規(guī)則,從而建立起人運動姿態(tài)、位置信息與運動概念之間的對應(yīng)關(guān)系。Hongeng等人[112]則提出事件是由動作線程構(gòu)成,而且每個線程有單個角色執(zhí)行,每個單一動作線程通過貝葉斯方法,利用角色的軌跡和運動塊特性來識別,這樣事件可以通過許多在時分限制上相關(guān)的動作線程來表達。Robertson等人[113]組合運動軌跡信息與局部運動描述算子,借助圖像特征數(shù)據(jù)概率搜索方法來描述和識別動作,并用編碼場景規(guī)則的HMM平滑動作序列,這樣通過計算當前動作序列下的HMM概率來識別高層行為?;谝?guī)則的方法在動作分析中顯示了其優(yōu)點,但由于某些行為的模糊性,基于規(guī)則推理方法很難給每個行為定義準確的規(guī)則,而且不同的應(yīng)用領(lǐng)域定義的規(guī)則也不相同。
隨機文法由于能夠從包括HMM不能同時處理的多個過程中提取出有意思的行為,被用來有效地描述真實場景。Ivanov和Bobick[115]提出兩步策略來理解自動監(jiān)控系統(tǒng)中的高層行為和事件。在低層處理部分用HMM檢測和識別簡單的行為模式,并將輸出向量映射為離散語法字母表;在高層部分則采用隨機上下文無關(guān)文法模型分析、理解低層輸出,最終實現(xiàn)行為理解。但這種方法受其語法的上下文無關(guān)約束的限制。復(fù)雜的行為,尤其是有目的的行為,其狀態(tài)通常是前后相關(guān)的,也就是下面的行為依賴于當前的狀態(tài),這樣使得行為并不是上下文無關(guān)的。此外,兩步識別策略不支持從低層數(shù)據(jù)到高層理解的在線無縫概率推理?;谶@樣的缺點,Nguyen等人[119]提出用抽象隱馬爾可夫記憶模型(abtract hidden Markov memory model,AHMEM)識別復(fù)雜室內(nèi)環(huán)境中人的高層行為。Park和Aggarwal[118]提出一種事件語義學來表達和識別人之間的交互行為,并用語言學中的動詞元結(jié)構(gòu)按每三個運動目標一組的結(jié)構(gòu)形式來描述運動。時空限制用于決策樹來識別特殊的交互行為。在這個框架下,人的動作以“主語+動詞+賓語”結(jié)構(gòu)來自動表達,同時人的交互行為根據(jù)人動作之間的因果語義關(guān)系來描述。
當前對高層行為與場景理解的研究還很不完善,高層行為與場景理解研究受一些視覺基礎(chǔ)問題的束縛,如像素級的分割、遮擋以及處理可變性的能力。目前的研究都是針對特定領(lǐng)域應(yīng)用的研究,有些只是提取場景信息高層的語義,不可能在任意圖像中確定不同的景物。
4 行為理解存在的問題與發(fā)展趨勢
盡管近年來利用機器學習工具構(gòu)建人行為的統(tǒng)計模型、理解人行為的研究有了一定的進展,但由于動態(tài)場景中運動的快速分割、寬松的著裝、遮擋、陰影和光照變化、運動的非剛性和高自由度[24,120]、行為發(fā)生的場景和人運動的模糊性(關(guān)于行為、事件、狀態(tài)有著不同的概念)等因素的影響,使得人視覺行為理解成為一個復(fù)雜且極具挑戰(zhàn)性的任務(wù)。相對于檢測、跟蹤等技術(shù)的顯著發(fā)展,其行為理解的研究進展比較緩慢。目前行為理解的研究仍處于初級階段,即原子動作[29]分析,也就是簡單日常標準動作如行走、跳、站起、坐等[30~37]和以人行為為目標的簡單事件檢測等[97,102,121~123]。其亟待解決的問題和未來的發(fā)展趨勢有以下幾個方面:
a)運動特征選擇與表達。如何選擇特征來充分表達運動成為行為理解的關(guān)鍵問題之一。一般是盡可能選擇較多的特征或者是在連續(xù)特征的典型匹配過程中引入人運動模型的簡化約束條件來減少、消除歧義性。但如果選取的特征過多、特征向量維數(shù)過大,則會增加計算的復(fù)雜度;而選擇特征過少,又可能不足以識別與理解人行為,而引入人運動模型的簡化約束條件與一般的圖像條件卻又是不吻合的[28]。因此,能否借鑒人類的學習、識別與理解機理,定義一個動態(tài)特征模型,首先提取有關(guān)行為的主要特征,當這些特征不足以完成識別與理解時,系統(tǒng)逐步提取候選的細節(jié)特征;另外一種更好的辦法是使用行為的二維表達捕捉行為的視覺不變特征[49,124],那樣對行為理解不會引起歧義。但是如何選擇視覺不變特征卻又是一項很困難的任務(wù)。此外,提取特征的不穩(wěn)定性也為行為理解帶來很大的困難,但多模特征融合將為行為理解提供一種很好的解決辦法。例如在某些環(huán)境中,可視信息受干擾,變得敏感不可靠時,聲音特征將為基于視頻的行為理解提供一個很好的補充[125,126];在遮擋的情況下,基于多攝像機信息融合方法由于能夠很好地解決遮擋問題,在行為理解研究[70~72]也將會得到快速的發(fā)展。
對于運動特征表征來說,不同復(fù)雜程度的運動通常會采用不同的運動表達方法,即使是同一種動作在不同的場合,由于快慢速度不一致等都會產(chǎn)生不同的時空關(guān)系。如何表征這些細微的時空變化并沒有一個很好的辦法。一個可行的辦法是采用多分辨率的方法[127]來表征和分析運動,但計算量較大。
b)行為識別。目前人行為理解雖然取得一定的進展,但行為理解研究還只局限于簡單、固定視角且已切分好后的動作,對不同動作連續(xù)變化的長運動序列的研究比較少[54],而且魯棒差,在噪聲、亮度和光照變化強烈以及視角變化的復(fù)雜環(huán)境中正確識別率大大降低。目前的行為識別方法如狀態(tài)轉(zhuǎn)移的圖模型方法和模板匹配方法通常在計算代價和運動識別的準確度之間進行折中,而且都是先訓練后使用,只能識別訓練中預(yù)先定義好的動作,沒有自動學習新行為的能力,缺乏考慮場景等背景知識,很難根據(jù)目標行為和場景的先驗知識進行自動機器學習。例如HMMs等方法被看成一個黑盒,它不解釋某種行為是什么,只輸出一種未知行為與認知的模式行為之間的概率。所以仍需要尋找和開發(fā)新技術(shù),以利于在提高行為識別性能的同時,又能有效地降低計算的復(fù)雜度。
c)高層行為與場景理解。行為本身具有很強的模糊性,同一行為、事件、狀態(tài)在不同的場景有著不同的概念,當同一場景中有多個目標出現(xiàn)時其行為模糊性更加明顯。所以,如何借助于先進的視覺算法和人工智能等領(lǐng)域的成果,將現(xiàn)有的簡單行為識別與理解推廣到更為復(fù)雜場景下的事件與場景理解,是將計算機視覺低、中層次的處理推向高層抽象思維的關(guān)鍵問題。
d)行為理解與生物特征識別相結(jié)合。在智能安全監(jiān)控、智能人機交互中,行為理解與生物特征相結(jié)合顯得更加重要,不但要求系統(tǒng)能夠識別被監(jiān)控對象的當前行為狀態(tài),而且能夠識別當前被監(jiān)控的對象身份。生物特征技術(shù)識別如步態(tài)識別[50]、人臉識別等[128,129]給對象身份識別提供了一個很好的解決辦法。所以與生物特征識別相結(jié)合的行為理解將會是未來的研究方向之一。
e)算法評價。一般而言,魯棒性、準確度、速度是人行為識別的三個基本要求,要求能夠快速準確地識別運動且連續(xù)地工作,對于如噪聲、光照、天氣等因素的影響不能太敏感。但目前的識別方法更多關(guān)注的是識別率,對魯棒性和速度兩個指標研究要求很少。另外,對行為識別方法沒有統(tǒng)一的視頻測試序列,大部分研究方法都是具體問題具體分析,是用各自選擇的視頻序列進行實驗分析,無法對提出的算法進行統(tǒng)一評價。
5 結(jié)束語
人行為理解已經(jīng)成為計算機視覺領(lǐng)域一個重要的研究方向之一,在智能監(jiān)控、人機交互等方面的應(yīng)用前景引起了廣大科研人員的濃厚興趣。本文從特征選擇與運動表征、行為識別方法以及高層行為與場景理解三個方面總結(jié)了近年來人行為理解研究現(xiàn)狀和進展。其征提取和運動表征可以歸結(jié)為行為建模,即如何描述行為動作。目前的方法需要根據(jù)具體實際應(yīng)用情況,在動作模型描述精確度和計算復(fù)雜度中折中,選擇適當?shù)姆椒▉韺π袨榻?。本文將行為識別算法細分成模板匹配方法、基于圖模型的方法等,同時對各種常用的數(shù)據(jù)匹配方法進行逐一分析,并且討論了目前的高層行為與場景理解的研究發(fā)展與現(xiàn)狀。最后提出了目前行為理解存在的問題和未來的發(fā)展趨勢。盡管當前行為理解研究取得了一定的進展,但依然處于萌芽階段,需要提出新的方法來解決相關(guān)問題,提高行為理解的性能。
參考文獻:
[[1]王亮,胡衛(wèi)明,譚鐵牛.人運動的視覺分析綜述[J].計算機學報,2002,25(3):225-237.
[2]JAIMES A,SEBE N.Multimodal human computer interaction:a survey[C]//Proc ofIEEE International Workshop on Human Computer Interaction in Conjunction with ICCV2005.Beijing:[s.n.],2005.
[3]NIJHOLT A.Meetings, gatherings, and events in smart environments[C]//Proc of ACM SIGGRAPH International Conference on Virtual Reality Continuum and Its Applications in Industry.2004:229-232.
[4]KITTLER J,BALLETTE M,CHRISTMAS W J,et al. Fusion of multiple cue detectors for automatic sports video annotation[C]//Proc of Workshop on Structural, Syntactic and Statistical Pattern Recognition.2002:597-606.
[5]TJONDRONEGORO D,CHEN Y P P,PHAM B.Content ased video indexing for sports applications using integrated multimodal approach[C]//Proc of the 13th Annual ACM International Conference on Multimedia.2005:1035-036.
[6]COLLINS R,LIPTON A,KANADE T, et-al.A system for video surveillance and monitoring: VSAM final report,CMU-RI-TR-00-12[R].[S.l.]:Carnegie Mellon University,2000.
[7]HARITAOGLU I,HARWOOD D,DAVIS L S.W4: realtime surveillance of people and their activities[J].IEEE Trans on PatternAnalysis and Machine Intelligence,2000,22(8):809-830.
[8]NAYLOR M,ATTWOOD C I.Annotated digital video for intelligent surveillance and optimized retrieval:final report[R].[S.l.]:ADVISOR Conortium,2003.
[9]HID[EB/OL].www-static.cc.gatech.edu/gvu/perception//projects/hid.
[10]REASON[EB/OL].cvg.cs.reading.ac.uk/.
[11]WREN C R,AZARBAYEJANI A,DARRELL T, et-al . Pfinder:real time tracking of the human body[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1997,19(7):780-785.
[12]BLAUENSTEINER P,KAMPEL M.Visual surveillance of an airport’s apron:an overview of the AVITRACK project[EB/OL].prip.tuwien.ac.at/~kampel/ papers/blauoeagm04.pdf.
[13][EB/OL].nlpr-web.ia.ac.cn/.
[14][EB/OL].research.microsoft.com/asia/group/vc/.
[15][EB/OL].cis.pku.edu.cn/introduction.htm.
[16]SHEIKH Y,SHAH M.Bayesian modeling of dynamic scenes for object detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2005,27(11):1778-792.
[17]ELGAMMAL A,HARWOOD D,DAVIS L.Non arametric model for background subtraction[C]//Proc of the 6th European Conference on Computer Vision. Dublin,Ireland:[s.n.], 2000:751-67.
[18]左軍毅,潘泉,梁彥,等.基于模型切換的自適應(yīng)背景建模方法[J].自動化學報,2007,33(5):467-473.
[19]JAVED O,SHAH M.Tracking and object classification for automated surveillance[C]//Proc of the 7th European Conference on Computer Vision.Copenhagen:[s.n.],2002.
[20]CHEN Yun-qiang,RUI Yong,HUANG T S.Multicue HMMUKF for realtime contour tracking[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(9):1525-529.
[21]YANG Tao,LI S Z,PAN Quan, et-al . Real time multiple objects tracking with occlusion handling in dynamic scenes[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.San Diego,CA:[s.n.],2005.
[22]WANG Yong zhong,LIANG Yan,ZHAO Chun hui, et-al. Adaptive multi cue kernel tracking[C]//Proc of IEEE International Conference on Multimedia & Expo.2007:1814-1817.
[23]李培華.一種改進的Mean Shift跟蹤算法[J].自動化學報,2007,33(4):347-354.
[24]AGGARWAL J K,CAI Q.Human motion analysis: a review[C]//Proc of IEEE Nonrigid and Articulated Motion Workshop.Piscataway:IEEE Computer Society,1997:90-102.
[25]GAVRILA D M.The visual analysis of human movement: a survey[J].Computer Vision and Image Understanding,1999,73(1): 82-98.
[26]MOESLUND T B,GRANUM E.A survey of computer visionbased human motion capture[J].Computer Vision and Image Understanding,2001,81(3):231-268.
[27]HU Wei ming,TAN Tie niu,WANG Liang, et-al. A survey on visual surveillance of object motion and behaviors[J].IEEE Trans on Systems, Man, and CyberneticsPart C: Application and Reviews,2004,34(3):334-352.
[28]劉相濱,向堅持,王勝春.人行為識別與理解研究探討[J].計算機與現(xiàn)代化,2004(12):1-5,27.
[29]BUXTONH,GONG Shao gang.Advanced visual surveillance using Bayesian networks[C]//Proc of the 5th IEEE International Confe rence on Computer Vision.Massachusetts:[s.n.],1995.
[30]BREMOND F,THONNAT M,ZUNIGA M.Video understanding framework for automatic behavior recognition[J].Behavior Research Methods Journal,2006,38(3):416-426.
[31]AMER A,DUBOIS E,MITICHE A.A realtime system for high level video representation:application to video surveillance[C]//Proc of SPIE International Symposium on Electronic Imaging, Conference on Visual Communication and Image Processing.Santa Clara:[s.n.],2003:530-541.
[32]JIN Ning,MOKHTARIAN F.Human motion recognition based on statistical shape analysis[C]//Proc of IEEE Conference on Advanced Video and Signal Based Surveillance.2005.
[33]ELBASI E,ZUO Long,MEHROTRA K, et-al. Control charts approach for scenario recognition in video sequences[J].Turk J Elec Engin,2005,13:303-310.
[34]FUJIYOSHI H,LIPTON A J.Real time human motion analysis by image skeletonization[C]//Proc of the 4th IEEE Workshop on Applications of Computer Vision.1998:15-21.
[35]VEERARAGHAVAN A,ROYCHOWDHURY A K,CHELLAPPA R.Matching shape sequences in video with applications in human movement analysis[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2005,27(12):1896-1909.
[36]CHEN H S,CHEN H T,CHEN Yiwen,et al.Human action recognition using star skeleton[C]//Proc of the 4th ACM International Workshop on Video Surveillance and Sensor Networks.2006.
[37]WANG Liang,SUTER D.Learning and matching of dynamic shape manifolds for human action recognition[J].IEEE Trans on Image Processing,2007,16(6):1646-1661.
[38]JU S X,BLACKY M J,YACOOBZ Y.Cardboard people:a paramete rized model of articulated image motion[C]//Proc of International Conference on Automatic Face and Gesture Recognition.1996:38-44.
[39]MITTAL A,ZHAO Liang,DAVIS L S.Human body pose estimation using silhouette shape analysis[C]//Proc of IEEE Conference on Advanced Video and Signal Based Surveillance.2003:263-270.
[40]CORREAL P,CZYZ J,MARQUEST, et-al. Silhouette based probabilistic 2D human motion estimation for realtime applications[C]//Proc of International IEEE International Conference on Image Proce ssing.2005.
[41]POPPER,POEL M.Example based pose estimation in monocular images using compact Fourier descriptors,TRCTIT-05-49[R].Enschede:University of Twente, 2005.轉(zhuǎn)貼于
[42]MORI G,MALIK J.Recovering 3D human body configurations using shape contexts[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(7):1052-1062.
[43]CEDRASC,SHAH M.Motion based recognition:a survey[J].Image and Vision Computing,1995,13(2):129-155.
[44]BLACK M J,YACOOB Y,JU S X.Recognizing human motion using parameterized models of optical flow[M]//Motion based recognition.[S.l.]:Kluwer Academic Publishers,1997:245-269.
[45]YANG M H,AHUJA N.Recognizing hand gesture using motion trajectories[C]//Proc of IEEE International Conference on Computer Vision and Image Understanding.1999.
[46]EFROS A,BERG A,MORIG, et-al . Recognizing actions at a distance[C]//Proc of IEEE International Conference on Computer Vision.Nice,F(xiàn)rance:[s.n.],2003.
[47]ZHU Guangyu,XU Changsheng.Action recognition in broadcast tennis video[C]//Proc of the 18th International Conference on Pattern Recognition.2006.
[48]JOHANSSONG.Visual perception of biological motion and a model for its analysis[J].Perception and Psychophysics,1973,14(2):201-211.
[49]NIU Feng,ABDELMOTTALEB M.View invariant human activity recognition based on shape and motion features[C]//Proc of the 6th IEEE International Symposium on Multimedia Software Engineering.2004.
[50]WANG Liang,NING Hua zhong,TAN Tie niu, et-al. Fusion of static and dynamic body biometrics for gait recognition[J].IEEE Trans on Circuits and Systems for Video Technology,2004,14(2):149-158.
[51]FANTIC,ZWLNIKMANORL,PERONAP.Hybrid models for human motion recognition[C]//Proc of IEEE Conference Computer and Pattern Recognition.2005:1166-1173.
[52]BOBICKAF,DAVISJW.The recognition of human movement using temporal templates[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2001,23(3):257-267.
[53]MASOUDO,PAPANIKOLOPOULOS N.A method for human action recognition[J].Image and Vision Computing,2003,21:729-743.
[54]CAO Dongwei,MASOUDOT,BOLEY D.On line motion classification using support vector machines[C]//Proc of IEEE International Conference on Robotics and Automation.New Orleans:[s.n.],2004.
[55]LAPTEV I,LINDEBERG T.Local descriptors for spatio temporal recognition[C]//Proc of International Workshop on Spatial Coherence for Visual Motion Analysis.Prague:[s.n.],2004.
[56]DOLL’AR P,RABAUD V,COTTRELL G, et-al. Behavior recognition via sparse spatiotemporal features[C]//Proc of the 2nd Joint IEEE International Workshop on Visual Surveillance and Performance Eva luation of Tracking and Surveillance.2005.
[57]BLANKM,GORELICKL,SHECHTMANE, et-al. Actions as space time shapes[C]//Proc of IEEE International Conference on Computer Vision.Beijing:[s.n.],2005.
[58]GAVRILA D,DAVIS L.3D modelbased tracking of human upper body movement: a multiview approach[ C]//Proc of International Symposium on Computer Vision.1995:253-258.
[59]ISARDM,BLAKEA.Condensation-conditional density propagation for visual tracking[J].International Journal of Computer Vision,1998,29(1):5-28.
[60]DEUTSCHER J,BLAKE A,REID I.Articulated body motion capture by annealed particle filtering[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.1998.
[61]NIYOGI S,ADELSON E.Analyzing and recognizing walking figures in xyt[C]//Proc of Computer Vision and Pattern Recognition.1994:469-474.
[62]LONCARICS.A survey of shape analysis techniques[J].Pattern Recognition,1998,32(8):983-1001.
[63]DRYDENI L,MARDIA K V.Statistical shape analysis[M].[S.l.]:Wiley,1998.
[64]DRYEN I.Statistical shape analysis in high level vision[C]//Proc of IMA Workshop on Image Analysis and High Level Vision.2000.
[65]BELONGIE S,MALIK J,PUZICHA J.Shape matching and objects recognition using shape contexts[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2002,24(4):509-522.
[66]HU M K.Visual pattern recognition by moment invariants[J].IEEE Trans on Information Theory,1962,8(2):179-187.
[67]POPPE R,POEL M.Comparison of silhouette shape descriptors for example based human pose recovery[C]//Proc of the 7th IEEE International Conference on Automatic Face and Gesture Recognition.Southampton:[s.n.], 2006.
[68]VASWANI N,CHOWDHURY A R,CHELLAPPA R.Activity recognition using the dynamics of the configuration of interacting objects[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition .2003.
[69]LIU Che bin,AHUJA N.A model for dynamic shape and its applications[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2004.
[70]PARK S,TRIVEDI M M.A two stage multi view analysis framework for human activity and interactions[C]//Proc of IEEE Workshop on Motion and Video Computing.2007.
[71]TYAGI A,POTAMIANOS G,DAVIS J W, et-al. Fusion of multiple camera views for kernel based 3D tracking[C]//Proc of IEEE Workshop on Motion and Video Computing.2007.
[72]ZOUBA N,BREMOND F,THONNAT M, et-al. Multisensors analysis for everyday activity monitoring[C]//Proc of the 4th International Conference on Sciences of Electronic, Technologies of Information and Telecommunications.2007.
[73]BASHIRFI,KHOKHARA A, SCHONFELDD.Object trajectory based activity classification and recognition using hidden Markov models [J].IEEE Trans on Image Processing,2007,16(7):1912-1919.
[74]ROBERTSON N,REID I.A general method for human activity recognition in video[J].Computer Vision and Image Understanding,2006,104:232-248.
[75]YACOOB Y,BLACK M J.Parameterized modeling and recognition of activities[J].Computer Vision and Image Understanding,1999,73(2):232-247.
[76]CARLSSON S,SULLIVAN J.Action recognition by shape matching to key frames[C]//Proc ofWorkshop on Models Versus Exemplars in Computer Vision.2001.
[77]RABINER L,JUANG B.Fundamentals of speech recognition[M].[S.l.]:Prentice Hall,1993.
[78]MURPHY K P.An introduction to graphical models[R].2001.
[79]STENGEL M.Introduction to graphical Models,hidden Markov models and Bayesian networks[EB/OL].(2003-02-07).http:markusstengel.de/varions/uni/speech/tutorial.pdf.
[80]RABINER L R.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proc of the IEEE,1989,77(2):257-286.
[81]BREGLER C.Learning and recognizing human dynamics in video sequences[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Puerto Rico:[s.n.],1997:568-574.
[82]YAMATO J,OHYA J,ISHII K.Recognizing human action in timesequential images using hidden Markov model[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Champaign, Illinois:[s.n.],1992:379-385.
[83]TOREYIN B U,DEDEOGLU Y,CETIN A E.HMM based falling person detection using both audio and video[C]//Proc of IEEE International Workshop on HumanComputer Interaction.Beijing:[s.n.],2005.
[84]BRAND M,OLIVER N,PENTLAND A.Coupled hidden Markov models for complex action recognition[C]//Proc of IEEE Internatio nal Conference on Computer Vision and Pattern Recognition.1997:994-999.
[85]KRISTJANSSON T T,F(xiàn)REY B J,HUANGTS, et-al. Event coupled hidden Markov models[C]//Proc of IEEE International Conference on Multimedia and Expo.2000:385-388.
[86]OLIVER N,ROSARIO B,PENTLAND A.A Bayesian computer vision system for modeling human interactions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2000,22(8):831-843.
[87]FINES,SINGERY,TISHBYN.The hierarchical hidden Markov model: analysis and applications[J].Machine Learning,1998,32(1):41-62.
[88]NGUYEN N T,PHUNG D Q,VENKATESH S, et-al. Learning and detecting activities from movement trajectories using the hierachical hi dden Markov model[C]//Proc of Computer Vision and Pattern Re cognition. San Diego:[s.n.],2005:955-960.
[89]KAWANAKA D,OKATANI T,DEGUCHI K, et-al. Hierarchical HMM based recognition of human activity[C]//Proc of MVA.2005.
[90]BUI H H,VENKATESH S,WESTGA, et-al. Tracking and surveillance in widearea spatial environments using the abstract hidden Markov model[J].International Journal of Pattern Recognition and Artificial Intelligence,2001,15(1):177-195.
[91]GALATA A,JOHNSON N,HOGG D.Learning variable length Markov models of behavior[J].Computer Vision and Image Understan ding,2001,81(3):398-413.
[92]SMINCHISESCUC,KANAUJIA A,LI Zhiguo, et-al. Conditional models for contextual human motion recognition[C]//Proc of the 10th IEEE International Conference on Computer Vision.2005.
[93]BRAND M,KETTNAKER V.Discovery and segmentation of activities in video[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2000,22(8):844-851.
[94]OLIVER N,HORVITZ E,GARG A.Layered representations for human activity recognition[C]//Proc of the 4th IEEE International Conference on Multimodal Interfaces.2002:3-8.
[95]ZHANG Dong,GATICAPEREZ D,BENGIOS, et-al. Modeling inpidual and group actions in meetings with layered HMMs[J].IEEE Trans on Multimedia,2006,8(3):509-520.
[96]MURPHYK.DynamicBayesiannet works:representation,inference and learning[D].Berkeley:University of California,2002.
[97]PARK S,AGGARWAL J K.Recognition of twoperson interactions using a hierarchical Bayesian network[C]//Proc of ACM SIGMM International Workshop on Video Surveillance.Berkeley:[s.n.],2003:65-76.
[98]DU You tian,CHEN Feng,XU Wenli, et-al. Interacting activity recognition using hierarchical durational state dynamic Bayesian network[C]//Proc of Pacific Rim Conference on Multimedia.2006:185-192.
[99]MOENNELOCCOZN,BREMONDF,THONNAT M.Recurrent Bayesian network for the recognition of human behaviours video[C]//Proc of ICVS. Graz:IEEE Computer Society Press,2003:68-77.
[100]GONG Shao gang,XIANG Tao.Recognition of group activities using dynamic probabilistic networks[C]//Proc of International Conference on Computer Vision.2003:742-749.
[101]LUO Ying,WU T D,HWANG J N.Object based analysis and interpretation of human motion in sports video sequences by dynamic Bayesian networks[J].Computer Vision and Image Understanding,2003,92(2):196-216.
[102]MUNCASTER J,MA Yunqian.Activity recognition using dynamic Bayesian networks with automatic state selection[C]/Proc of IEEE Workshop on Motion and Video Computing.2007.
[103]BUCCOLIERI F,DISTANTE C,LEONE A.Human posture recognition using active contours and radial basis function neural network[C]//Proc of Conference on Advanced Video and Signal Based Surveillance.2005.
[104]HONG Pengyu,TURK M,HUANG T S.Gesture modeling and recognition using finite state machines[C]//Proc of IEEE Conference on Face and Gesture Recognition.2000.
[105]BADLER N.Temporal scene analysis:conceptual description of object movements,No.80[R].Toronto:University of Toronto,1975.
[106]INTILLE S,BOBICK A.Representation and visual recognition of complex, multiagent actions using belief networks,No.454[R].[S.l.]:MIT,1998.
[107]MORI T,SHIMOSAKA M,SATO T.SVMbased human action recognition and its remarkable motion features discovery algorithm[C]//Proc of International Symposium on Experimental Robotics.2003.
[108]LAPTEV S I,CAPUTO B.Recognizing human actions: a local SVM approach[C]//Proc ofInternational Conference on Pattern Recognition.2004.
[109]ZHU Guang yu,XU Chang sheng,GAO Wen, et-al. Action recognition in broadcast tennis video using optical flow and support vector machine[C]//Proc of ECCV.2006.
[110]CUTLER R,TURK M.Viewbased interpretation of real time optical flow for gesture recognition[C]//Proc of the 3rd International Confe rence on Face Gesture Recognition.1998.
[111]KOJIMA A,TAMURA T.Natural language description of human activities from video images based on concept hierarchy actions[J].International Journal of Computer Vision,2001,50:171184.
[112]HONGENGS,NEVATIA R.Multi agent event recognition[C]//Proc of International Conference on Computer Vision.2001:84-91.
[113]ROBERTSON N,REID I.Behavior understanding in video: a combined method[C]//Proc of the 10th IEEE International Conference on Computer Vision.2005:808-815.
[114]PYNADATHD V,WELLMAN M P.Generalized queries on probabilistic context free grammars[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1998,20(1):65-77.
[115]IVANOV Y,BOBICK A.Recognition of visual activities and interactions by stochastic parsing[J].IEEE Trans on Pattern Recognition and Machine Intelligence,2000,2(8):852-872.
[116]RYOOM S,AGGARWAL J K.Recognition of composite human activities through contextfree grammar based representation[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2006.
[117]PYNADATHDV,WELLMANMP.Probabilistic state dependent grammars for plan recognition[C]//Proc of the 16th Conference on Uncertainty in Artificial Intelligence.San Francisco, CA:[s.n.], 2000:507-514.
[118]PARKS,AGGARWAL J K.Event semantics in twoperson interactions[C]//Proc of International Conference on Pattern Recognition.Cambridge:[s.n.],2004.
[119]NGUYEN N T,BUI H H,VENKATESHS, et-al. Recognising and monitoring highlevel behaviours in complex spatial environments[C]//Proc of IEEE Computer Vision and Pattern Recognition Canference.2003.
[120]KAMBHAMETTUC,GOLDGOFDB,TERZOPOULOSD,et-al.Nonrigid motion analysis[M]//Handbook of PRIP:computer vision.Orlando:Academic Press,1994.
[121]FERRYMAN J,BORGM,THIRDED, et-al. Automated scene understanding for airport aprons[C]//Proc of the 18th Australian Joint Conference on Artificial Intelligence.Sidney:SpringerVerlag,2005.
[122]BIRD N D,MASOUD O,PAPANIKOLOPOULOSNP, et-al. Detection of loitering inpiduals in public transportation areas[J].IEEE Trans on Intelligent Transportation Systems,2005,6(2):167-177.
[123]LUSi jun,ZHANG Jian,F(xiàn)ENGDD.Detecting unattended packages through human activity recognition and object association[J].Journal of the Pattern Recognition,2007,40(8):2173-2184. [124]OGALEA S,KARAPURKAR A,ALOMONOS Y.Viewinvariant modeling and recognition of human actions using grammars[C]//Proc of International Conference on Computer Vision.Beijing:[s.n.],2005.
[125]GATICAPEREZD,LATHOUDG,ODOBEZJM, et-al. Audio visual probabilistic tracking of multiple speakers in meetings[J]. IEEE Trans on Audio, Speech, and Language Processing,2007,15(2):601-616.
[126]CRISTANI M,BICEGOM,MURINOV.Audio visual event recognition in surveillance video sequences[J].IEEE Trans on Multime dia,2007,9(2):257-267.
[127]LI Hong,GREENSPAN M.Multi scale gesture recognition from time varying contours[C]//Proc of the 10th IEEE International Conference on Computer Vision.2005:236-243.
關(guān)鍵詞:圖形圖像搜索 以圖搜圖 移動電子商務(wù)
中圖分類號:G350 文獻標識碼:A 文章編號:1674-098X(2016)04(a)-0090-04
1 基于移動電子商務(wù)的圖形圖像搜索
移動電子商務(wù),移動設(shè)備輕便易攜、碎片化、娛樂化特征明顯,可隨時隨地滿足用戶的即時性消費需求,由此,移動終端日漸成為用戶網(wǎng)上購物的重要選擇。同時,移動購物和生活場景相互交融,偶發(fā)性和沖動型消費快速滋長,電商情境化趨勢日益彰顯;另一方面,智能移動終端對音頻、視頻、圖像等各類信息采集方便,以圖片為例,其中適合圖像搜索的圖片為20%,假設(shè)0.5%人次成功轉(zhuǎn)移,1%平均購買轉(zhuǎn)化率,平均購物單價為200元,如,按平均10%的傭金計算,那么一年產(chǎn)業(yè)規(guī)模也超過220億元。加上其他收入,比如:廣告、手機搜索等,總體市場規(guī)模不低于600億元。
隨著移動電子商務(wù)日益興起,圖形圖像搜索已能為客戶帶來全新的用戶體驗。在購物領(lǐng)域,非常典型的就是服裝服飾等非標類產(chǎn)品,占到整個電子商務(wù)的55%市場份額。淘寶用戶只要看到了目標商品,就可以使用圖片搜索功能對比同款產(chǎn)品的市場價格,也能找到更多相似款。這是移動電子商務(wù)能帶來的極致便捷體驗。圖形圖像搜索技術(shù)一直受到巨頭們的青睞,百度為深入研究“深度學習”算法,特地設(shè)立了IDL(Institute of Deep Learning)研究院。谷歌更是在短短幾年內(nèi),陸續(xù)收購了七八家涉足圖像識別的技術(shù)公司,并試圖以谷歌眼鏡搶占智能移動終端的場景入口。圖圖搜利用微信公眾號,以微信拍照購物搜索功能,率先成為第一家接入微信的圖像搜索引擎網(wǎng)站。谷歌、騰訊、百度等大公司也都在圖片搜索領(lǐng)域有資源投入,為圖片購物搜索發(fā)展帶來了壓力的同時,更為市場帶來了各大圖像技術(shù)競相追逐的動力。
2 典型應(yīng)用舉例
2.1 手機購物網(wǎng)站相似商品搜索
可以是用戶上傳圖片搜索,也可以是站內(nèi)圖片點擊搜索。(如圖1所示)
2.2 移動拍照購物
隨手拍照―― 準確搜到相關(guān)商品。(如圖2所示)
2.3 區(qū)域搜索
給定一張時尚或明星圖片,根據(jù)自主的圖片選定區(qū)域,能夠識別與圖片選定區(qū)域內(nèi)容相似的其他商品圖片,然后根據(jù)相似度排序。(如圖3所示)
3 關(guān)鍵技術(shù)總結(jié)
3.1 圖像搜索系統(tǒng)結(jié)構(gòu)
基于移動電子商務(wù)的圖形圖像搜索技術(shù),通常的做法包括IEEE的標準,都是用圖像特征值來實現(xiàn)的。搜索引擎將目標圖片進行特征提取,形成一組特征描述或特征向量。當用戶搜索時,將查詢圖像的特征描述與數(shù)據(jù)庫中其他圖像的特征描述進行自動匹配,并返回匹配結(jié)果。(如圖4所示)
3.2 核心技術(shù)
上述圖像搜索系統(tǒng)的技術(shù)核心就是對圖像特征的提取,特征提取是計算機視覺和圖像處理中的一個概念。它指的是使用計算機提取圖像信息,決定每個圖像的點是否屬于一個圖像特征。特征被檢測后它可以從圖像中被抽取出來,這個過程可能需要許多圖像處理的計算機,其結(jié)果被稱為特征描述或者特征向量。
常用的圖像特征有顏色(Color)、紋理(Texture)、形狀(Shape)、空間(Space)關(guān)系等。
(1)顏色特征:顏色特征是一種全局特征,描述了圖像或圖像區(qū)域所對應(yīng)的景物的表面性質(zhì)。一般顏色特征是基于像素點的特征,此時所有屬于圖像或圖像區(qū)域的像素都有各自的貢獻。顏色直方圖是最常用的表達顏色特征的方法,其優(yōu)點是不受圖像旋轉(zhuǎn)和平移變化的影響,進一步借助歸一化還可不受圖像尺度變化的影響,其缺點是沒有表達出顏色空間分布的信息。此外,顏色特征提取還有顏色集、顏色矩、顏色聚合向量、顏色相關(guān)圖等方法。
(2)紋理特征:紋理特征也是一種全局特征,它與顏色特征不同,紋理特征不是基于像素點的特征,它需要在包含多個像素點的區(qū)域中進行統(tǒng)計計算。在模式匹配中,這種區(qū)域性的特征具有較大的優(yōu)越性,不會由于局部的偏差而無法匹配成功。在檢索具有粗細、疏密等方面較大差別的紋理圖像時,利用紋理特征是一種有效的方法。常用的紋理特征提取與匹配方法有灰度共生矩陣、Voronio棋盤格特征法和結(jié)構(gòu)法、隨機場模型法、Tamura紋理特征、自回歸紋理模型、小波變換等。
(3)形狀特征:各種基于形狀特征的檢索方法都可以比較有效地利用圖像中感興趣的目標來進行檢索。通常情況下,形狀特征有兩類表示方法:一類是輪廓特征;另一類是區(qū)域特征。圖像的輪廓特征主要針對物體的外邊界,而圖像的區(qū)域特征則關(guān)系到整個形狀區(qū)域。典型的形狀特征描述方法有傅里葉形狀描述符法、Hough變換檢測平行直線方法、有限元法(Finite Element Method或FEM)、旋轉(zhuǎn)函數(shù)(Turning)和小波描述符(Wavelet Deor)等方法。
(4)空間關(guān)系特征:所謂空間關(guān)系,是指圖像中分割出來的多個目標之間的相互的空間位置或相對方向關(guān)系,這些關(guān)系也可分為連接/鄰接關(guān)系、交疊/重疊關(guān)系和包含/包容關(guān)系等,空間關(guān)系特征的使用可加強對圖像內(nèi)容的描述區(qū)分能力。提取圖像空間關(guān)系特征可以有兩種方法:一種方法是首先對圖像進行自動分割,劃分出圖像中所包含的對象或顏色區(qū)域,然后根據(jù)這些區(qū)域提取圖像特征;另一種方法則簡單地將圖像均勻地劃分為若干規(guī)則子塊,然后對每個圖像子塊提取特征。
自從Hinton在2012年將深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)帶入到圖像分類領(lǐng)域后,深度學習在圖像處理相關(guān)領(lǐng)域的研究一下子變得異?;馃崞饋??;谏疃葘W習原理的圖像檢索,更多的是從一種圖像理解的角度來進行的,得到的是一種更加抽象的描述,也可以理解為“語義”,它更多的是在解釋這個圖像描繪的是什么物體或者什么場景之類的。這種仿照人腦的識別過程而設(shè)計的深度神經(jīng)網(wǎng)絡(luò)能夠自動提取圖片中的語義信息,彌補了其他傳統(tǒng)算法在這方面的不足。(如圖5所示)
3.3 應(yīng)用集成設(shè)計
應(yīng)用集成設(shè)計如圖6所示。
3.4 系統(tǒng)關(guān)鍵技術(shù)指標
(1)該平臺表現(xiàn)出良好的用戶服務(wù)支持能力。經(jīng)系統(tǒng)實際運行測試,目前平臺已入駐企業(yè)近萬家,平臺運行平穩(wěn),響應(yīng)速度快,具有良好的用戶體驗。(2)項目自上線以來,該平臺運行平穩(wěn),在高性能單服務(wù)器上支持并發(fā)搜索5 000以上。(3)擁有的圖像算法,搜索結(jié)果效率高,核心算法庫搜索響應(yīng)速度
4 產(chǎn)業(yè)機遇與面臨問題
圖像搜索,可以簡單地認為是“以圖搜圖”,但又不只是圖像識別這么簡單。如果把圖像搜索等同于圖片識別,它并不算什么高超的技術(shù),不同領(lǐng)域的圖像識別技術(shù)已經(jīng)趨于成熟。識別只是圖像搜索的第一步,第二步是理解,第三步是檢索,每一步都存在著技術(shù)難點。在移動互聯(lián)網(wǎng)時代,圖片已逐漸替代文字成為了移動終端的主要信息載體,圖形圖像搜索以圖搜圖的產(chǎn)品特點,天然貫通了移動終端到電子商務(wù)平臺圖片信息傳遞的過程,利用圖像搜索服務(wù)來引導移動電子商務(wù)消費已成為趨勢。
5 圖形圖像搜索的發(fā)展方向
在移動電子商務(wù)領(lǐng)域內(nèi),對比其他搜索產(chǎn)品,將對以下三點技術(shù)指標進行重點研究和提升:(1)實現(xiàn)“所見即所得”,讓圖像搜索由被動到主動;(2)實現(xiàn)動態(tài)圖像搜索,手機網(wǎng)絡(luò)視頻購物;(3)實現(xiàn)移動場景下對“線下實體”的搜索,成為用戶的第三只眼。
參考文獻
[1]余飛.基于HTML5的圖形圖像協(xié)同處理技術(shù)研究與實現(xiàn)[D].長江大學,2015.
[2]陳微微.基于顏色特征提取的圖像搜索引擎研究[D].重慶理工大學,2012.
OFDMA測距中一種新的定時偏移估計算法倪浩 任光亮 常義林 (783)
無線Ad Hoc網(wǎng)絡(luò)單信道并行傳輸?shù)牟┺慕鉀Q策略李曉記 陳晨 仇洪冰 莫瑋 (789)
LDPC碼串行譯碼策略的收斂速度分析楊洋 陳超 白寶明 王新梅 (795)
IP/WDM網(wǎng)絡(luò)中自適應(yīng)區(qū)分權(quán)重的HTA動態(tài)業(yè)務(wù)流疏導算法徐展琦 丁秋菊 陳曉輝 丁喆 (801)
混合雙基地雷達系統(tǒng)結(jié)構(gòu)對方位估計性能的影響劉志國 廖桂生 王亞利 (808)
LTE系統(tǒng)中可配置FFT/IFFT的設(shè)計與實現(xiàn)劉德福 雷天民 馬卓 李穎 王旸 (813)
一種超模糊熵ULPCNN圖像自動分割新方法劉勍 許錄平 馬義德 蘇哲 王勇 (817)
一種非局部擴散的圖像修復(fù)模型郝巖 馮象初 許建樓 (825)
一種高效的非均勻轉(zhuǎn)動目標成像方法王虹現(xiàn) 李亞超 全英匯 張守宏 (829)
一種基于L1稀疏正則化和非負矩陣分解的盲源信號分離新算法殷海青 劉紅衛(wèi) (835)
新型低復(fù)雜度心理聲學模型馬鴻飛 夏雨 郭澤華 (842)
免疫非支配自適應(yīng)粒子群多目標優(yōu)化馬晶晶 楊咚咚 焦李成 (846)
求解約束優(yōu)化問題M-精英協(xié)同進化算法慕彩紅 焦李成 劉逸 (852)
一種新的改進粒子濾波算法楊璐 李明 張鵬 (862)
一類廣義混雜系統(tǒng)的隨機穩(wěn)定性及穩(wěn)定化楊瑩 李俊民 陳國培 (866)
分布式調(diào)試中基于事件模型的確定性重演策略李青山 李珺 葉宏 杜林 (872)
改進的NURBS-PO法分析電大平臺附近天線方向圖黃鍇 賀之莉 梁昌洪 (879)
一種新型的微帶三通帶濾波器設(shè)計賴鑫 梁昌洪 李良 溫海賓 (884)
一種提高稀布線陣優(yōu)化布陣效率的方法張帥 龔書喜 路寶 龔琦 (888)
適用于裁剪NURBS曲面RCS預(yù)估的改進的物理光學法關(guān)瑩 龔書喜 徐云學 張帥 姜文 (893)
集成Si基低噪聲放大器的注入損傷研究柴常春 張冰 任興榮 冷鵬 (898)
一種R-C-R組合式12位逐次逼近A/D轉(zhuǎn)換器佟星元 陳杉 蔡乃瓊 朱樟明 楊銀堂 (904)
一種二階曲率補償?shù)母呔葞痘鶞孰妷涸磥硇氯?郝琦 袁冰 陳雷 葉強 (911)
模塊密度譜分的網(wǎng)絡(luò)社團發(fā)現(xiàn)方法付立東 高琳 (916)
低功耗無磁流量測量MCU的系統(tǒng)設(shè)計朱起淅 車德亮 沈緒榜 (921)
一種新的紅外復(fù)雜背景自適應(yīng)抑制算法汪大寶 劉上乾 張峰 (927)
特征選擇對FHMM性能影響研究陳昌紅 趙恒 梁繼民 焦李成 (934)
小波域中的廣義非局部平均去噪算法馮象初 劉濤 李亞峰 (941)
雙瑞利衰落下AP中繼車際通信系統(tǒng)誤符號率分析李兆訓 李峰 仵國鋒 胡捍英 (947)
異構(gòu)網(wǎng)絡(luò)中多媒體業(yè)務(wù)的聯(lián)合呼叫接納控制王亞楠 夏海輪 馮春燕 (953)
水下航行體目標成像及處理研究王志杰 楊寶民 (960)
一種寬頻帶低交叉極化傘形印刷振子陣列天線陳盼 曹祥玉 高軍 (966)
用于全局優(yōu)化問題的混合免疫進化算法劉星寶 蔡自興 王勇 彭偉雄 (971)
MU-MIMO下行鏈路雙閾值有限反饋機會通信策略李釗 楊家瑋 趙林靖 (581)
高性能EBCOT編碼加速算法及其實現(xiàn)結(jié)構(gòu)劉凱 李云松 郭杰 (587)
IEEE1900.4框架下一種有效的終端重構(gòu)策略張文柱 曾業(yè) 孫曉艷 (594)
基于時變AR模型的雷達ESM信號多徑抑制李林 姬紅兵 時銀水 (602)
雙環(huán)控制單周期PFC轉(zhuǎn)換器高層次模型及電路李婭妮 楊銀堂 朱樟明 (608)
足球視頻的語義顏色提取與語義鏡頭分割牛振興 李潔 高新波 (613)
MIMO中繼系統(tǒng)的最優(yōu)聯(lián)合MMSE決策反饋收發(fā)機設(shè)計李川 劉偉 李建東 周利華 (619)
一種多小區(qū)MIMO系統(tǒng)的分層預(yù)編碼方案郝東來 葛建華 (624)
一種FFT并行處理機的設(shè)計與實現(xiàn)張犁 李雙飛 石光明 李甫 (630)
采用粒子濾波和模糊聚類法的非線性多目標跟蹤張俊根 姬紅兵 (636)
一種社會網(wǎng)絡(luò)搜索免疫優(yōu)化算法孫奕菲 焦李成 (642)
DS-UWB系統(tǒng)中基于線性預(yù)測的盲多用戶檢測康曉非 楊家瑋 (648)
隨機集粒子濾波的快速被動數(shù)據(jù)關(guān)聯(lián)算法楊柏勝 姬紅兵 高小東 (655)
采用相干單距離多普勒干涉的太空碎片成像劉亞波 張磊 邢孟道 保錚 (660)
認知無線電中自適應(yīng)分步合并協(xié)作頻譜感知算法丁漢清 楊家瑋 趙志遠 (665)
測量目標高度的雙基地MIMO雷達虛擬陣元技術(shù)金明 李軍 廖桂生 黎薇萍 (671)
脈內(nèi)聚束SAR方位高分辨率寬測繪帶成像武其松 邢孟道 劉保昌 保錚 (676)
塊迭代線性預(yù)測的超光譜圖像分布式壓縮算法吳憲云 李云松 吳成柯 孔繁鏘 李文明 (683)
一種設(shè)計DFT調(diào)制濾波器組的新算法蔣俊正 王小龍 水鵬朗 (689)
非理想互連的傳輸線模型及串擾分析丁同浩 李玉山 張偉 曲詠哲 閆旭 (694)
一種改進的準循環(huán)LDPC碼環(huán)消除算法崔俊云 白寶明 郭旭東 (700)
一類逼近容量LDPC糾刪碼的二部圖構(gòu)造算法慕建君 焦曉鵬 曹訓志 (705)
基于S變換的混合DS/FH擴頻信號參數(shù)估計朱明哲 姬紅兵 (710)
一種簡單的UWB-TOA估計方法熊海良 汪俊 田紅心 楊宏 易克初 (716)
圖像去噪的改進迭代非局部平均濾波方法馮象初 郝彬彬 朱見廣 (722)
利用PSO同時優(yōu)化陣列天線的輻射和散射特性張帥 龔書喜 路寶 凌勁 查鋒濤 (726)
均勻橢球粒子的彩虹角分析李祥震 韓香娥 (731)
動態(tài)改變鄰域空間和搜索步的自由搜索算法李團結(jié) 曹玉巖 孫國鼎 (737)
基于循環(huán)平穩(wěn)的級聯(lián)空時GPS抗干擾方法石斌斌 程翥 錢林杰 皇甫堪 (743)
融合灰色預(yù)測和HOGI特征的紅外目標跟蹤方法張齊 曹琦 王曉薇 畢篤彥 (751)
快變信道環(huán)境下OFDMA系統(tǒng)的信道估計算法李丹 馮穗力 葉梧 莊宏成 (758)
混沌映射的粒子群優(yōu)化方法劉道華 原思聰 蘭洋 馬新建 (764)
一種鄰域一致性的NSCT域多傳感器圖像融合算法霍冠英 李慶武 石丹 (770)
《西安電子科技大學學報》征稿簡則 (F0003)
MIMO鏈路adhoc網(wǎng)絡(luò)中一種新的MAC協(xié)議陳丹 李建東 李長樂 (385)
認知無線電中衰落信道下的能量檢測信噪比墻閆琦 楊家瑋 張雯 董偉 (391)
一種自適應(yīng)的關(guān)鍵幀量化參數(shù)確定方法李明 常義林 楊付正 萬帥 (396)
基于網(wǎng)絡(luò)編碼的SVC高效傳輸系統(tǒng)盧冀 肖嵩 吳成柯 (405)
一類具有低密度生成矩陣的非二元準循環(huán)LDPC碼陳超 白寶明 王新梅 (412)
一種低速率多模MBE線性預(yù)測語音編解碼器梁彥霞 楊家瑋 李燁 (417)
CPM信號的多分支分數(shù)多比特差分檢測孫錦華 吳小鈞 (423)
基于張量局部和全局信息的人臉識別算法溫浩 孫蕾 (429)
基于循環(huán)正交序列和廣義AIC的信道估計李丹萍 張海林 (436)
一種高分辨的稀疏孔徑ISAR成像方法李軍 邢孟道 張磊 吳順君 (441)
基于最小化測量誤差的被動定位算法陳金廣 李潔 高新波 (447)
利用先驗知識的空時自適應(yīng)檢測方法周宇 張林讓 劉楠 劉昕 (454)
快速增量主分量算法的近似協(xié)方差矩陣實現(xiàn)曹向海 劉宏偉 吳順君 (459)
高效的寬帶數(shù)字信道化接收機設(shè)計常虹 趙國慶 牛新亮 (464)
解線頻調(diào)步進頻率ISAR成像研究劉亞波 李軍 李亞超 邢孟道 (469)
一種用于低壓Boost型DC-DC轉(zhuǎn)換器的啟動電路陳富吉 來新泉 李玉山 葉強 袁冰 (476)
窄帶信號頻率和角度估計新方法劉曉軍 劉聰鋒 廖桂生 (481)
一種寬帶數(shù)字信道化接收機王宏偉 趙國慶 王玉軍 鮑丹 (487)
融合Ratio邊緣信息的水平集SAR圖像分割方法呂雁 馮大政 (492)
共形天線陣列方向圖分析與綜合張凡 張福順 趙鋼 林晨 (496)
電大尺寸輻射問題的預(yù)修正多層快速多極子分析王元源 謝擁軍 王鵬 (502)
一種傳感器網(wǎng)絡(luò)訪問控制機制劉云 裴慶祺 (507)
考慮電感效應(yīng)和工藝波動影響的互連延時建模與計算楊楊 柴常春 董剛 楊銀堂 冷鵬 (513)
(4,4)碳納米管/碳化硅納米管異質(zhì)結(jié)的輸運特性劉紅霞 宋久旭 張鶴鳴 (520)
一種空時域結(jié)合濾波的運動弱小目標檢測方法王博 張建奇 (524)
一種檢測局部放電信號的新方法李亞峰 王保保 馮象初 (529)
圖像特征匹配中一種快速關(guān)鍵維過濾搜索算法何周燦 王慶 楊恒 (534)
一種細節(jié)保持的Retinex圖像增強算法馬時平 張明 畢篤彥 許悅雷 (541)
傳感器網(wǎng)絡(luò)密鑰傳播與進化劉文菊 劉志宏 裴慶祺 楊超 (547)
一種容量上界最大化的量化反饋方法解芳 袁超偉 程鐵錚 趙偉 (554)
框架時序邏輯語言MSVL中面向?qū)ο髾C制的實現(xiàn)王小兵 段振華 (559)
記憶功放的BP神經(jīng)網(wǎng)絡(luò)分離預(yù)失真方法崔華 趙祥模 艾渤 (565)
一種高性能低復(fù)雜度的V-BLAST檢測方案郭明喜 賈沖 沈越泓 高媛媛 (570)
基于正交投影的寬帶相干信源空間譜測向算法謝锘 張潤生 葛建華 張建立 (576)
相關(guān)信道下多用戶MIMO系統(tǒng)聯(lián)合收發(fā)機設(shè)計陳睿 李建東 劉偉 李川 (181)
認知網(wǎng)絡(luò)中快速自適應(yīng)功率控制算法李建東 薛富國 楊春剛 李維英 石華 (186)
采用獨立分量分析的多用戶MIMO下行傳輸策略李釗 楊家瑋 姚俊良 陳婷 (192)
導向矢量不確定集約束的穩(wěn)健Capon波束形成算法劉聰鋒 廖桂生 (197)
一種最小模級聯(lián)相消器黃慶東 張林讓 盧光躍 (204)
一種直接回波數(shù)據(jù)域雷達自適應(yīng)通道均衡方法劉向陽 廖桂生 朱圣棋 毛志杰 (210)
組網(wǎng)無源雷達變數(shù)目多目標跟蹤算法時銀水 姬紅兵 楊柏勝 (218)
一種復(fù)合的SAR圖像去噪算法尹奎英 胡利平 劉宏偉 金林 (224)
雙站SAR圖像幾何失真校正方法研究易予生 張林讓 劉昕 劉楠 張波 (231)
機載三通道SAR/GMTI快速目標運動參數(shù)估計錢江 呂孝雷 邢孟道 李涼海 張振華 (235)
基于實值特征子空間迭代的DOA估計算法楊雪亞 陳伯孝 朱根生 (242)
自適應(yīng)的改進Goldstein干涉相位圖濾波算法嚴衛(wèi)東 倪維平 趙亦工 蘆穎 吳俊政 (248)
一種新的Contourlet域魯棒水印算法同鳴 馮瑋 姬紅兵 (254)
高分辨距離像數(shù)據(jù)的檢測新方法夏宇垠 馮大政 李濤 (260)
一種新的非相干積累算法李濤 馮大政 夏宇垠 (267)
對動目標檢測雷達的正弦波調(diào)頻干擾朱燕 崔艷鵬 趙國慶 (273)
一種無線傳感器網(wǎng)絡(luò)移動性支持自適應(yīng)MAC協(xié)議陳晨 高新波 (279)
基于模糊函數(shù)零點切片特征優(yōu)化的輻射源個體識別王磊 姬紅兵 李林 (285)
一種寬帶低散射印刷振子天線陣列袁宏偉 龔書喜 王文濤 張鵬飛 (290)
一種微帶貼片天線RCS減縮新方法凌勁 龔書喜 張鵬飛 袁宏偉 路寶 王文濤 (295)
結(jié)合波原子和Cycle Spinning的圖像去噪宋宜美 宋國鄉(xiāng) (300)
一種實用的傳感器網(wǎng)絡(luò)廣播認證協(xié)議杜志強 沈玉龍 馬建峰 周利華 (305)
一種Tanner圖短環(huán)計數(shù)新方法焦曉鵬 慕建君 周利華 (311)
一種用于14位1.28MS/sΣΔADC的數(shù)字抽取濾波器設(shè)計楊銀堂 李迪 石立春 (315)
全數(shù)字接收機中一種低功耗插值濾波器結(jié)構(gòu)及其VLSI實現(xiàn)鄧軍 楊銀堂 (320)
降低OFDM信號PAPR的低復(fù)雜度PTS方法王進祥 吳新春 毛志剛 周彬 (326)
一種全速率的多天線中繼STBC協(xié)作機制張?zhí)炜?程婕 馮春燕 (334)
一種無需次級通道模型的有源噪聲控制算法張瑞華 謝智波 (340)
結(jié)構(gòu)相似性灰關(guān)聯(lián)在強噪聲圖像增強中的應(yīng)用馬苗 焦莉莉 (346)
采用遺傳算法的雙頻Wilkinson功分器的優(yōu)化設(shè)計王巍 李文宬 蘭中文 陳丹 張凱 (353)
一種用于實時業(yè)務(wù)的無縫切換方案張載龍 孫建 張順頤 孫雁飛 李君 (359)
基于指數(shù)小波分形特征的SAR圖像特定目標檢測劉冬 張弓 (366)
一、引言
隨著互聯(lián)網(wǎng)的飛速發(fā)展,消費類電子、通信、影視及廣播、計算機技術(shù)日益緊密地結(jié)合起來,使得基于互聯(lián)網(wǎng)的多媒體產(chǎn)業(yè)成為本世紀初發(fā)展最快、規(guī)模最大的產(chǎn)業(yè)之一。
多媒體是建立在計算機圖形學、人機接口技術(shù)、傳感技術(shù)和人工智能等學科基礎(chǔ)上的綜合性極強的高新信息技術(shù),由其帶來的虛擬現(xiàn)實技術(shù)能創(chuàng)造身臨其境的神奇效果,從而廣泛應(yīng)用于影視、廣告、游戲、教育、會展等領(lǐng)域。2002年全球多媒體產(chǎn)業(yè)產(chǎn)值達300億美元,今年將突破400億美元。在中國市場,視訊技術(shù)主要應(yīng)用于政府會議。
由于政府的工作性質(zhì)和政府對提高辦公效率的需求,這部分應(yīng)用還會繼續(xù)增加。另一方面,隨著以中國電信、中國聯(lián)通為代表的新電信運營商的崛起和企業(yè)內(nèi)部基于IP技術(shù)的寬帶基礎(chǔ)網(wǎng)絡(luò)建設(shè),把需要占用較多帶寬的視頻通訊應(yīng)用到寬帶網(wǎng)絡(luò)上,將成為視訊技術(shù)加速發(fā)展的新動力。
二、視頻壓縮標準的發(fā)展
傳統(tǒng)的壓縮編碼是建立在香農(nóng)(Shannon)信息論基礎(chǔ)上的,它以經(jīng)典的集合論為基礎(chǔ),用統(tǒng)計概率模型來描述信源,但它未考慮信息接受者的主觀特性及事件本身的具體含義、重要程度和引起的后果。因此,壓縮編碼的發(fā)展歷程實際上是以香農(nóng)信息論為出發(fā)點,一個不斷完善的過程。
從不同角度考慮,數(shù)據(jù)壓縮縮碼具有不同的分類方式。按信源的統(tǒng)計特性可分為預(yù)測編碼、變換編碼、矢量量化編碼、子帶-小波編碼、神經(jīng)網(wǎng)絡(luò)編碼方法等。按圖像傳遞的景物特性可分為分形編碼、基于內(nèi)容的編碼方法等。
隨著產(chǎn)業(yè)化活動的進一步開展,國際標準化組織于1986年、1998年先后成立了聯(lián)合圖片專家組JPEG和運動圖像壓縮編碼組織MPEG。GPEG專家組主要致力于靜態(tài)圖像的幀內(nèi)壓縮編碼標準ISO/IEC10918的制定;MPEG專家組主要致力于運動圖像壓縮編碼標準的制定。經(jīng)過專家組不懈的努力,基于第一代壓縮編碼方法(如預(yù)測編碼、變換編碼、熵編碼及運動補償?shù)?的三種壓縮編碼國際標。
三、視頻壓縮技術(shù)
眾所周知,人類通過視覺獲取的信息量約占總信息量的70%,而且視頻信息具有直觀性、可信性等一系列優(yōu)點。所以,視訊技術(shù)中的關(guān)鍵技術(shù)就是視頻技術(shù)。
目前,視頻技術(shù)的應(yīng)用范圍很廣,如網(wǎng)上可視會議、網(wǎng)上可視電子商務(wù)、網(wǎng)上政務(wù)、網(wǎng)上購物、網(wǎng)上學校、遠程醫(yī)療、網(wǎng)上研討會、網(wǎng)上展示廳、個人網(wǎng)上聊天、可視咨詢等業(yè)務(wù)。
但是,以上所有的應(yīng)用都必須壓縮。傳輸?shù)臄?shù)據(jù)量之大,單純用擴大存儲器容量、增加通信干線的傳輸速率的辦法是不現(xiàn)實的,數(shù)據(jù)壓縮技術(shù)是個行之有效的解決辦法,通過數(shù)據(jù)壓縮,可以把信息數(shù)據(jù)量壓下來,以壓縮形式存儲、傳輸,既節(jié)約了存儲空間,又提高了通信干線的傳輸效率,同時也可使計算機實時處理音頻、視頻信息,以保證播放出高質(zhì)量的視頻、音頻節(jié)目??梢?多媒體數(shù)據(jù)壓縮是非常必要的。由于多媒體聲音、數(shù)據(jù)、視像等信源數(shù)據(jù)有極強的相關(guān)性,也就是說有大量的冗余信息。數(shù)據(jù)壓縮可以將龐大數(shù)據(jù)中的冗余信息去掉(去除數(shù)據(jù)之間的相關(guān)性),保留相互獨立的信息分量,因此,多媒體數(shù)據(jù)壓縮是完全可以實現(xiàn)的。
圖像編碼方法可分為兩代:第一代是基于數(shù)據(jù)統(tǒng)計,去掉的是數(shù)據(jù)冗余,稱為低層壓縮編碼方法;第二代是基于內(nèi)容,去掉的是內(nèi)容冗余,其中基于對象(Object-Based)方法稱為中層壓縮編碼方法,其中基于語義(Syntax-Based)方法稱為高層壓縮編碼方法。基于內(nèi)容壓縮編碼方法代表新一代的壓縮方法,也是目前最活躍的領(lǐng)域,最早是由瑞典的Forchheimer提出的,隨后日本的Harashima等人也展示了不少研究成果。
1.形狀編碼。形狀信息的獲得首先要對圖形進行分析和分割,把各個代表不同內(nèi)容的目標分割后再用形狀表示。形狀信息通常用二值A(chǔ)lpha平面和灰度Alpha平面來表示。二值A(chǔ)lpha平面可用臨近信息進行算術(shù)編碼(CAE);灰度Alpha平面可用運動補償加DCT變換方式類似紋理編碼一樣進行編碼。
其中用于圖像壓縮的變換有離散Forier變換(DFT)、離散小波變換(DWT)、奇異值分解(SVD)、K-L變換、Walsh變換、Hadamard變換、Harr變換、Slant變換、離散余弦變換(DCT)。其中K-L變換的去相關(guān)性最好,而DCT是接近K-L變換效果的最便于實現(xiàn)的變換。和MPEG-1/2一樣,MPEG-4也選擇了DCT。通常,用于數(shù)據(jù)壓縮的熵編碼方法有霍夫曼(Huffman)編碼、矢量量化、算術(shù)編碼、游程編碼、LZW編碼等。對于紋理編碼,MPEG-4選擇了把游程編碼、矢量量化和Huffman編碼進行混合編程編碼(VLC)。紋理編碼要經(jīng)過DCT變換、量化、DC/AC預(yù)測、掃描、基于Hufman的VLC編碼。
2.運動估計和補償。MPEG-4中提供了基于塊的運動估計和補償技術(shù)來有效地利用各個VOP中視頻內(nèi)容上的時間冗余。一般,運動估計和補償可以看作針對任意形狀圖像序列的塊匹配技術(shù)的延伸。塊匹配過程對于標準宏塊使用;預(yù)測誤差和用于預(yù)測的宏塊運動向量一起被編碼;高級運動補償模式支持重疊塊運動補償,可對8×8塊運動向量進行編碼。為了使運動估計得到高編碼效率,預(yù)測圖像和被預(yù)測圖像越相似越好,所以在運動估計之前要先進行補償。在目標邊界上的MB先用水平填補而后用垂直填補,其余完全在VOP之外的MB用擴張?zhí)钛a。
3.紋理編碼。紋理指的是I-VOP圖像和P/B-VOP經(jīng)運動補償后殘留的圖像信息。紋理一般在變換域進行壓縮編碼和熵編碼。
準正式編輯已經(jīng)出版:靜態(tài)圖像壓縮編碼標準(JPEG);數(shù)字聲像儲存壓縮編碼標準(MPEG-1);通用視頻圖像壓縮編碼標準(MPEG-2)。隨后,MPEG專家組于1999年2月正式公布了MPEG-4(ISO/IEC14496)V1.0版本。同年底MPEG-4V2.0版本亦告完成,且于2000年年初正式成為國際標準。MPEG-4標準將眾多的多媒體應(yīng)用集成于一個完整的框架內(nèi),旨在為多媒體通信及應(yīng)用環(huán)境提供標準的算法及工具,從而建立起一種能被多媒體傳輸、存儲、檢索等應(yīng)用普遍采用的統(tǒng)一數(shù)據(jù)格式,并根據(jù)不同的應(yīng)用需求,現(xiàn)場配置解碼器,開放的編碼系統(tǒng)也可隨時加入新的有效的算法模塊。為支持對視頻內(nèi)容的訪問,MPEG-4提出了“視頻對象”的概念。
目前,MPEG專家組又推出了專門支持多媒體信息且基于內(nèi)容檢索的編碼方案MPEG-7及多媒體框架標準MPEG-21。另外,由ITU-T和MPEG聯(lián)合開發(fā)的新標準H.264是最新的視頻編碼算法。為了降低碼率,獲得盡可能更好圖像質(zhì)量,H.264標準吸取了MPEG-4的長處,具有更高的壓縮比、更好的信道適應(yīng)性,必將在數(shù)字視頻的通信和存儲領(lǐng)域得到廣泛的應(yīng)用,其發(fā)展?jié)摿Σ豢上蘖俊?/p>
四、MPEG-4的主要技術(shù)
MPEG-4具有很多優(yōu)點。它的壓縮率可以超過100倍,而仍保有極佳的音質(zhì)和畫質(zhì);它可利用最少的數(shù)據(jù),獲取最佳的圖像質(zhì)量,滿足低碼率應(yīng)用的需求;它更適合于交互式AV服務(wù)及遠程監(jiān)控。為了滿足各種應(yīng)用的需求,MPEG-4標準的使用范圍相當龐大,具有廣泛的適應(yīng)性和可擴展性。
關(guān)鍵詞:網(wǎng)絡(luò)培訓學院;知識元;知識管理體系
中圖分類號:F61 文獻標識碼:A
中國郵政網(wǎng)絡(luò)培訓學院服務(wù)于中國郵政80余萬名郵政員工,擔負著服務(wù)社會公眾的職能。如何利用飛速發(fā)展的Web技術(shù)為郵政企業(yè)員工提供更加有效的信息服務(wù)和更加正確、精簡的知識,是未來發(fā)展過程中需要解決的問題。作為當前知識管理大多采用的有效工具,基于“知識元”構(gòu)建中國郵政網(wǎng)絡(luò)培訓學院知識管理體系值得探討。
1 “知識元”和“知識元庫”的基本含義
人們對知識的需求一般不是以文獻為單位的,從“知識元”層面研究標引,揭示單篇文獻個體中的“知識元”信息與某領(lǐng)域共性中的“知識結(jié)構(gòu)”的鏈接關(guān)系,從而找出信息與知識導航鏈接的普遍規(guī)律,為用戶提供直接獲取有效知識元而不是大量文獻的有效方法。因此,知識元標引是知識管理的起點。
1.1 “知識元”的基本含義
知識元是構(gòu)造知識結(jié)構(gòu)的基元。常見的知識元定義:指不可再分割的具有完備知識表達的知識單位。比如,一節(jié)教材是由若干個知識點組成,每個知識點又是由若干個內(nèi)容相對獨立的部分組成,這些相對獨立的部分被稱為知識元。
人類知識結(jié)構(gòu)是由不同的知識單元組成的知識體系,每個知識單元又是由不同的獨立知識元通過知識元鏈接排列組合而成;那么不同知識單元之間就可以通過知識元鏈接形成不同的知識鏈,進而編織成為整個知識結(jié)構(gòu)的知識網(wǎng)絡(luò)。
1.2 “知識元庫”的基本含義
知識元數(shù)據(jù)庫(簡稱知識元庫)是由獨立的現(xiàn)行知識元構(gòu)成的數(shù)據(jù)庫,經(jīng)分類、加工、序化和組織過的知識集合,并按一定規(guī)則存儲在計算機中。知識元的不同排列組合構(gòu)成不同的知識單元,知識單元按照一定的組合構(gòu)成知識元庫。
知識元數(shù)據(jù)庫架構(gòu)主要由知識網(wǎng)絡(luò)、知識倉庫、基本信息庫、鏈接系統(tǒng)等組成;由淺入深可分為基本信息庫、知識倉庫、知識元數(shù)據(jù)庫三個層次,如圖1所示。
2 構(gòu)建基于“知識元”的中國郵政網(wǎng)絡(luò)培訓學院知識管理體系的必要性和可行性分析
知識管理的過程包括知識的識別、獲取、保存、傳遞、共享、保護及知識的資本化和產(chǎn)品化。目前,知識元被廣泛應(yīng)用于知識資源庫的建設(shè)、文獻管理和專業(yè)領(lǐng)域的知識設(shè)計等方面。
2.1 基于“知識元”郵政知識管理體系構(gòu)建的必要性
2.1.1 構(gòu)建基于“知識元”郵政知識管理體系是提升郵政員工素質(zhì)和能力的需要
在信息化郵政中,知識是郵政競爭力的主導因素。廣泛開展學習郵政知識、特別是信息技術(shù)知識活動,是提高郵政員工素質(zhì)的重要舉措。隨著近年來郵政業(yè)務(wù)發(fā)展、郵政市場開拓、新技術(shù)應(yīng)用以及流程的優(yōu)化,新的郵政知識內(nèi)容不斷涌現(xiàn),因此,發(fā)展信息化郵政必須培養(yǎng)高素質(zhì)員工。實現(xiàn)郵政員工的知識信息化,已成為郵政業(yè)企業(yè)乃至世界各國郵政適應(yīng)信息化發(fā)展的要求、加快信息化建設(shè)的共同做法。
2.1.2 構(gòu)建基于“知識元”郵政知識管理體系是實施郵政知識服務(wù)發(fā)展的需要
基于“知識元”郵政知識管理體系就是在網(wǎng)絡(luò)環(huán)境下,以知識信息的搜尋、組織、分析重組為基礎(chǔ),根據(jù)用戶的問題和環(huán)境,提供能夠有效支持知識應(yīng)用和知識創(chuàng)新的服務(wù)。它是從各種顯性和隱性知識資源中,針對人們的需要將知識提煉出來的過程。網(wǎng)絡(luò)環(huán)境下,在知識處理、挖掘、過濾、檢索、推送等技術(shù)和其他信息技術(shù)的研究和應(yīng)用都比較成熟的條件下,將知識服務(wù)通過知識管理服務(wù)系統(tǒng),實行比較科學和行之有效的服務(wù)模式,是中國郵政網(wǎng)絡(luò)培訓學院實現(xiàn)知識服務(wù)的有效手段。
2.1.3 構(gòu)建基于“知識元”郵政知識管理體系是實施郵政知識管理改革發(fā)展的需要
通過建立基于“知識元”郵政知識管理體系,將郵政知識的控制單元從文獻深化到文獻中的知識元,實現(xiàn)知識元的鏈接,是知識管理的一場革命,有利于深化人們對郵政知識的檢索、學習、理解和發(fā)現(xiàn)以及知識的利用、增值和創(chuàng)新,是從信息服務(wù)向知識服務(wù)過渡的基礎(chǔ)。目前信息采集、傳輸、檢索的傳統(tǒng)理論與方法已成為制約人類利用知識的瓶頸,基于“知識元”知識管理體系將有利于知識發(fā)現(xiàn)、創(chuàng)造、組織和應(yīng)用,是知識創(chuàng)新鏈中不可缺少的智能工具和關(guān)鍵環(huán)節(jié)。尋找新的知識創(chuàng)新鏈的有效方法與工具將成為認知科學、信息科學、計算機科學、知識管理科學領(lǐng)域共同努力的目標。
2.1.4 構(gòu)建基于“知識元”郵政知識管理體系是促進網(wǎng)絡(luò)教學效果提升的需要
基于“知識元”郵政知識管理體系是對依托中國郵政網(wǎng)絡(luò)培訓學院相關(guān)學科文獻信息資源庫的補充、完善和深化,對郵政員工利用網(wǎng)絡(luò)探索自主學習、協(xié)同學習、探究學習個性化教學等新型教學模式,培養(yǎng)學員的創(chuàng)新意識和能力必將起到積極的促進作用。建立基于“知識元”郵政知識管理體系,可通過網(wǎng)絡(luò)鏈接和影像,將知識元數(shù)據(jù)庫嵌入到郵政員工崗位培訓體系、各學科專業(yè)數(shù)據(jù)庫中,使所有數(shù)據(jù)庫在知識元這一神經(jīng)網(wǎng)絡(luò)支配下成為一個內(nèi)容高度關(guān)聯(lián)的有機整體。當用戶對某個知識點不理解時,只需借助文獻資源數(shù)據(jù)庫中的主題詞檢索相關(guān)的知識元名稱,相關(guān)知識內(nèi)容即以圖片、文本、聲音、動畫及視頻形式呈現(xiàn),使學習者快速、簡潔地查找知識、理解知識,并通過文獻信息進一步認識和掌握知識發(fā)現(xiàn)、知識創(chuàng)新的規(guī)律。
2.2 基于“知識元”郵政知識管理體系構(gòu)建的可行性
2.2.1 具有豐富的知識管理資源基礎(chǔ)
基于“知識元”構(gòu)建郵政知識管理體系需要以各種類型豐富的知識資源為基礎(chǔ)。隨著中國郵政網(wǎng)絡(luò)培訓學院服務(wù)功能的不斷拓展和知識內(nèi)容的不斷豐富,知識資源將日趨具有較強的系統(tǒng)性和完整性,而且中國郵政網(wǎng)絡(luò)培訓學院和全網(wǎng)31個省二級中心的學習資源日益豐富,積累了豐富的郵政類課件資源和綜合知識資源,為構(gòu)建基于“知識元”郵政知識管理體系打下了堅實的基礎(chǔ)。
2.2.2 具有相對完備的知識管理網(wǎng)絡(luò)保證
中國郵政網(wǎng)絡(luò)培訓學院和全網(wǎng)31個省二級中心的服務(wù)功能和管理功能日趨完善,這為構(gòu)建基于“知識元”郵政知識管理體系提供了堅實的技術(shù)基礎(chǔ)和人才保證。
2.2.3 知識元技術(shù)已得到廣泛應(yīng)用
在網(wǎng)絡(luò)環(huán)境下,知識元技術(shù)廣泛應(yīng)用于知識資源庫的建設(shè)、文獻管理和專業(yè)領(lǐng)域的知識設(shè)計范疇,知識處理、挖掘、過濾、檢索、推送等技術(shù)和其他信息技術(shù)的研究和應(yīng)用都比較成熟,為中國郵政網(wǎng)絡(luò)培訓學院把知識服務(wù)通過知識管理服務(wù)系統(tǒng),實行比較科學和行之有效的服務(wù)模式提供了保障。
3 基于“知識元”的中國郵政網(wǎng)絡(luò)培訓學院知識管理體系構(gòu)建
3.1 構(gòu)建基于“知識元”的中國郵政網(wǎng)絡(luò)培訓學院知識管理體系的原則
3.1.1 系統(tǒng)化原則
構(gòu)建基于“知識元”的中國郵政網(wǎng)絡(luò)培訓學院知識管理體系,應(yīng)以中國郵政網(wǎng)絡(luò)培訓學院涉及的知識體系為基礎(chǔ),避免簡單或孤立地針對某一課程的知識或某一理論,應(yīng)對所有知識、理論在某一分類框架下進行綜合、聚集,實現(xiàn)知識集成,具有系統(tǒng)性。因此,中國郵政網(wǎng)絡(luò)培訓學院知識體系應(yīng)覆蓋所有郵政業(yè)務(wù)、網(wǎng)絡(luò)組織、郵政生產(chǎn)及經(jīng)營管理、郵政技術(shù)等內(nèi)容。
3.1.2 層次性原則
為保證知識體系邏輯清晰,便于日后系統(tǒng)開發(fā),中國郵政網(wǎng)絡(luò)培訓學院知識管理體系在具有系統(tǒng)化的條件下,還應(yīng)體現(xiàn)不同知識歸屬不同的層級,以便明確知識之間的聯(lián)系及其所屬不同層級。
3.1.3 衍生性原則
隨著人類認識自然和改造自然能力的提高。在原有基礎(chǔ)上,新知識不斷被創(chuàng)造出來。尤其是在全球化以及信息技術(shù)與互聯(lián)網(wǎng)快速發(fā)展的背景下,郵政知識、管理知識等甚至呈幾何級增長,新的理論和知識不斷被總結(jié)和歸納出來,并被納入郵政企業(yè)管理體系中。因此,在現(xiàn)有知識的基礎(chǔ)上,中國郵政網(wǎng)絡(luò)培訓學院知識管理體系應(yīng)能體現(xiàn)創(chuàng)新知識,實現(xiàn)知識衍生。
3.2 中國郵政網(wǎng)絡(luò)培訓學院知識體系框架
3.2.1 總體框架
從中國郵政網(wǎng)絡(luò)培訓學院涉及的相關(guān)知識看,郵政知識是所有知識的基礎(chǔ)和核心,因此,中國郵政網(wǎng)絡(luò)培訓學院知識元庫體系可以按照郵政業(yè)務(wù)知識、郵政生產(chǎn)組織管理知識、郵政網(wǎng)運知識、郵政營銷知識、郵政經(jīng)營管理知識、郵政技術(shù)知識、郵政其他知識等七部分作為總體框架。總體框架如圖2所示。
3.2.2 具體架構(gòu)
根據(jù)對中國郵政網(wǎng)絡(luò)培訓學院所含知識的研究,可以將知識元庫分為以下三類:概念型(Concept)知識庫——依據(jù)主題或概念組織而成,只包含敘述性知識;流程型(Process)知識庫——依據(jù)活動流程組織而成,包含敘述性知識與程序性知識;關(guān)聯(lián)型(Competency)知識庫——依據(jù)人員與知識間的關(guān)系組織而成,也包含敘述性知識與程序性知識。在總體框架指導下,對某些知識和理論,可根據(jù)其產(chǎn)生的來源和背景,按照系統(tǒng)的“等級層次原理”進行分類,不同子系統(tǒng)可按照各自的系統(tǒng)特質(zhì)區(qū)別開來。
3.2.2.1 郵政業(yè)務(wù)知識概念型知識庫
概念型知識庫匯集了所有跟郵政業(yè)務(wù)相關(guān)的概念,不同概念又可以通過層次關(guān)系進行鏈接。以郵政業(yè)務(wù)知識為例,如圖3所示。
3.2.2.2 郵政業(yè)務(wù)知識流程型知識庫
郵政業(yè)務(wù)流程型知識庫將郵政業(yè)務(wù)中涉及到的所有流程型知識匯聚到一起,按照業(yè)務(wù)流程組織知識。郵政業(yè)務(wù)中掛號信函的處理流程如圖4所示。
3.2.2.3 郵政業(yè)務(wù)知識關(guān)聯(lián)型知識庫
關(guān)聯(lián)型知識庫主要體現(xiàn)知識之間的聯(lián)系,包括概念型知識和流程型知識之間的關(guān)聯(lián)、概念型知識與概念型知識的關(guān)聯(lián)、流程型知識與流程型知識的關(guān)聯(lián)等。如郵政企業(yè)大學中內(nèi)訓師與培訓授課之間的聯(lián)系,四位老師都是內(nèi)訓師,與其培訓授課之間的聯(lián)系,如圖5所示。
3.3 基于“知識元”的中國郵政網(wǎng)絡(luò)培訓學院知識管理服務(wù)體系
按照中國郵政網(wǎng)絡(luò)培訓學院知識結(jié)構(gòu),運用知識元抽取和知識元標引技術(shù),中國郵政網(wǎng)絡(luò)培訓學院可以搭建四層服務(wù)管理體系,即基礎(chǔ)資料、知識元庫、郵政分專業(yè)資源庫以及應(yīng)用平臺。以當前郵政網(wǎng)絡(luò)培訓學院積累的各種教學、視頻、案例資源為基礎(chǔ),通過知識元標引技術(shù)形成知識元庫,結(jié)合郵政各專業(yè)業(yè)務(wù)結(jié)構(gòu),形成郵政分專業(yè)的資源庫,最后利用知識地圖、知識查詢和知識推送技術(shù)搭建應(yīng)用平臺。具體搭建思路如圖6所示。
3.3.1 基礎(chǔ)數(shù)據(jù)源
基礎(chǔ)數(shù)據(jù)源在這里指知識元庫建立的原始數(shù)據(jù),它是整個郵政企業(yè)大學知識管理服務(wù)體系建立的基礎(chǔ)。對于郵政企業(yè)大學來說,基礎(chǔ)數(shù)據(jù)源是能夠反映和覆蓋郵政所有專業(yè)核心知識內(nèi)容的資源。包括所有的教材資料、視頻資料、全國各專業(yè)優(yōu)秀案例資料、期刊雜志資料和其他相關(guān)資料。
3.3.2 知識元庫
郵政企業(yè)大學知識元庫是將各類基礎(chǔ)數(shù)據(jù)源通過知識標引技術(shù)產(chǎn)生概念型知識元、流程型知識元以及關(guān)聯(lián)型知識元,并在知識元產(chǎn)生的過程中,將各類知識元之間的關(guān)系標注出來。比如同義關(guān)系、包含關(guān)系、上下位關(guān)系等。
3.3.3 郵政專業(yè)資源庫
在知識元庫的基礎(chǔ)上,依據(jù)當前郵政專業(yè)分類框架,將不同專業(yè)知識元分別人庫,既方便郵政各專業(yè)人員學習,又可以容易地做到各專業(yè)知識元庫的維護和拓展。
3.3.4 應(yīng)用平臺
應(yīng)用平臺是以建立的郵政各專業(yè)資源庫為基礎(chǔ),利用較先進的知識地圖、知識檢索和知識推送技術(shù)開發(fā)的應(yīng)用服務(wù)平臺。
3.3.4.1 知識地圖
知識地圖(Knowledge Map)是一種能在語義和知識層次上描述知識的模型,是一種有效的知識管理工具,它在領(lǐng)域知識管理的實際應(yīng)用中發(fā)揮了一定作用。知識地圖實質(zhì)上是利用現(xiàn)代化信息技術(shù)制造的企業(yè)知識資源的總目錄及各知識款目之間關(guān)系的綜合體。
3.3.4.2 知識查詢
知識查詢是由用戶提交查詢關(guān)鍵詞,由系統(tǒng)利用SQL查詢服務(wù)實現(xiàn),查詢結(jié)果是一系列有組織的知識元。用戶通過系統(tǒng)提供的瀏覽功能進行瀏覽,尋找自己感興趣的知識元。查詢過程如圖7所示。
3.3.4.3 知識推送服務(wù)
知識推送服務(wù)是通過知識推送服務(wù)中心完成的,知識推送服務(wù)中心既是知識服務(wù)系統(tǒng)向用戶提供知識推送服務(wù)的門戶,也是知識服務(wù)系統(tǒng)獲取用戶知識獲取習慣的主要渠道,它同時向知識服務(wù)系統(tǒng)和用戶提供知識。知識推送服務(wù)中心由知識需求獲取模塊、知識需求分析處理模塊、用戶知識發(fā)現(xiàn)模塊、知識定制模塊、搜索引擎、推送引擎和知識空間等7個主要部件構(gòu)成,如圖8所示。
參考文獻
1 姚海法.關(guān)于建立軍事知識元管理服務(wù)俸系的思考.信息管理,2007,1
2 溫有奎,徐國華.知識元鏈接理論.情報學報,2003,6
3 溫有奎.基于“知識元”的知識組織與檢索Ⅱ.計算機工程與應(yīng)用,2005,1
收稿日期:2012-09-28
關(guān)鍵詞:大數(shù)據(jù) 情報分析 競爭情報 商務(wù)智能 生物醫(yī)學 政府治理 軍事情報
中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2014)05-0007-06
Intelligence Analysis in Different Domains and Its Development under the Environment of Big Data
Abstract Big data has caught the attention of five domains: competitive intelligence, business management, bioinformatics, government governance and military intelligence. In order to understand the differences between different domains of intelligence analysis, this article reviews the current status of the conception and practice on intelligence analysis across five domains, reveals the characteristics of intelligence analysis, and then illustrates the development of intelligence analysis across five domains under the big data environment, and points out the effects of big data for intelligence analysis.
Key words big data; intelligence analysis; competitive intelligence; business intelligence; bioinformatics; government governance; military intelligence
1 前言
不同研究領(lǐng)域有其自身的研究對象、理論源流、學術(shù)習慣以及概念框架體系,它們會深刻影響各領(lǐng)域?qū)ν恍g(shù)語的界定和理解。如競爭情報、商業(yè)管理、生物醫(yī)學、政府治理及軍事情報等領(lǐng)域不僅都會涉及“情報分析”這一概念,而且都是圍繞著情報分析而開展相關(guān)研究工作的。但是,這些領(lǐng)域中的情報分析的內(nèi)涵與外延、實施情報分析的過程等均有其自身的特點,不可一概而論。本文的目的,是分析競爭情報、商業(yè)管理、生物醫(yī)學、政府治理及軍事情報等五個領(lǐng)域中“情報分析”概念與實踐的特點,以及大數(shù)據(jù)環(huán)境下這些領(lǐng)域中情報分析的發(fā)展動向,揭示情報分析的學科差異,為建立統(tǒng)一的情報分析方法體系提供理論素材。
2 不同領(lǐng)域的情報分析及其在大數(shù)據(jù)環(huán)境下的發(fā)展
信息與情報是不同概念,情報是對信息進行深度加工或從各種文本中挖掘的知識,可以是一種產(chǎn)品、活動、組織,或是一組知識的專門表達形式[1-2];生成情報所采取的分析方法與執(zhí)行過程稱為情報分析研究。對于競爭情報、商業(yè)管理、生物醫(yī)學、政府治理及軍事情報等學科領(lǐng)域而言,它們的產(chǎn)生與發(fā)展與情報分析研究在具體問題域中的應(yīng)用有著直接、密切的關(guān)系,盡管這五個領(lǐng)域?qū)η閳蠓治龅母拍罾斫饧皩嵺`特點不盡相同,但情報分析都是這些領(lǐng)域知識的核心內(nèi)容,也是支持該領(lǐng)域研究的關(guān)鍵,而且,在大數(shù)據(jù)環(huán)境下,大數(shù)據(jù)理念與方法正在對這五個領(lǐng)域產(chǎn)生著深刻的影響。這是本文選取競爭情報、商業(yè)管理、生物醫(yī)學、政府治理及軍事情報等領(lǐng)域作為研究對象的重要原因。
2.1 競爭情報領(lǐng)域
“競爭情報”(Competitive Intelligence,CI)是企業(yè)用來提高競爭優(yōu)勢的情報分析工作,它通過感知外部環(huán)境變化、競爭對手的技術(shù)跟蹤等手段,建立一個關(guān)于競爭對手或外部環(huán)境的預(yù)警系統(tǒng),并支持決策服務(wù),使企業(yè)在激烈的競爭中維持優(yōu)勢地位[3-5]。由此可見,CI是對外部競爭環(huán)境進行全面監(jiān)控的過程,是一種“知己知彼”的交互分析過程。與其他領(lǐng)域的情報分析相比,通過CI分析所得到的情報更具有目的性、針對性及對抗性等特征,同時對自身跟對手的差距、潛在的機會等問題給出了解答。
企業(yè)進行CI活動時,合法性是開展整個活動的基礎(chǔ),即CI活動必須遵守法律或商業(yè)道德規(guī)范。競爭對手或市場的相關(guān)信息主要是通過公開信息來源(如出版資料、科研報告、互聯(lián)網(wǎng)、新聞、數(shù)據(jù)庫、政策法規(guī)等)獲得,其它在不違法的前提下所能獲得的非公開發(fā)表的信息(如通過第三方獲取的信息、錄用對手公司的離職人員所獲得信息、人際網(wǎng)絡(luò)等灰色信息等)也是CI的重要信息來源[3][6]。也就是說,CI主要的信息來源是基于“文本型式”的科技文獻、網(wǎng)絡(luò)信息、政府信息、新聞、政策研究、產(chǎn)品信息等類型,并結(jié)合灰色信息來提高CI分析的有效性及真實性。從分析方法來看,因外部競爭環(huán)境復(fù)雜性與競爭對手多樣性而產(chǎn)生出多種CI方法,常見如定標比超、SWOT、專利分析、五力分析、財務(wù)分析等方法[5];此外,利[7]根據(jù)五力分析與SWOT分析拓展出基于競爭要素的CI四維分析框架。在技術(shù)工具方面,分析人員可選擇數(shù)據(jù)挖掘、文本挖掘、網(wǎng)絡(luò)挖掘、可視化技術(shù)、信息抽取、一般統(tǒng)計分析、軟件等方法或工具[8],將數(shù)據(jù)或信息轉(zhuǎn)化為“可操作的情報”(Actionable Intelligence),再根據(jù)企業(yè)的不同需求(如管理決策、營運能力、市場監(jiān)控等)形成各種情報產(chǎn)品(如每月情報通訊、咨詢報告、競爭對手文檔、形勢分析等),提供企業(yè)作為戰(zhàn)略行動依據(jù)、危機預(yù)警判斷、商業(yè)談判等重大決策參考。
大數(shù)據(jù)環(huán)境下,公開信息來源越來越多樣化,考驗著企業(yè)的情報獲取與分析能力,特別是企業(yè)對外部環(huán)境變化的及時感知與動態(tài)應(yīng)變能力, CI在企業(yè)戰(zhàn)略預(yù)警與危機管理等方面發(fā)揮著越來越重要的作用[9]。從當前的研究與實踐來看,CI 面臨著“全信息源獲取”、“分析復(fù)雜化與實時化”兩個急迫解決的問題,就前者而言,企業(yè)可以通過信息技術(shù)解決全信息源獲取的技術(shù)性問題;對后者來說,隨著企業(yè)可以獲取越來越多的異構(gòu)的數(shù)據(jù)及信息,要求CI能夠處理更加復(fù)雜的分析對象,其分析方法需要結(jié)合更多智能化技術(shù),工作流程需要結(jié)合多種方法來解決問題[10-11],例如,除了上述常見的分析方法之外,非結(jié)構(gòu)化數(shù)據(jù)處理、關(guān)聯(lián)關(guān)系分析、網(wǎng)絡(luò)挖掘(如輿情分析、觀點挖掘等)、實時分析及云計算等方法或技術(shù)都是企業(yè)進行CI分析的新挑戰(zhàn)[12]。此外,除了獲取公開信息來源之外,由社交媒體產(chǎn)生的社會化數(shù)據(jù)[13],也引發(fā)了企業(yè)CI對競爭對手進行實時監(jiān)控與分析的需求??傃灾?,從基本目的來看CI分析在大數(shù)據(jù)環(huán)境下的發(fā)展,會發(fā)現(xiàn)CI正從對現(xiàn)有競爭對手和外部環(huán)境進行分析以輔助企業(yè)保持競爭優(yōu)勢,轉(zhuǎn)向?qū)崟r數(shù)據(jù)或信息進行快速分析響應(yīng),通過多種分析方法的結(jié)合做到知識發(fā)現(xiàn)以及構(gòu)建適應(yīng)外部環(huán)境的持續(xù)應(yīng)變分析模式[14],用來支持企業(yè)在競爭環(huán)境中做出高效精準決策。
2.2 商業(yè)管理領(lǐng)域
商業(yè)管理領(lǐng)域所涉及的情報分析是指“商務(wù)智能”(Business Intelligence,BI)或商業(yè)情報。BI通常被定義為由數(shù)據(jù)倉庫、ETL、聯(lián)機分析、數(shù)據(jù)挖掘、客戶關(guān)系管理、知識管理等多種技術(shù)融合而成的方法及系統(tǒng),用來管理企業(yè)內(nèi)的相關(guān)商業(yè)數(shù)據(jù)、專家信息及知識。不同于CI關(guān)注外部情報,BI針對企業(yè)內(nèi)部的各種數(shù)據(jù)及信息進行分析,從而達到企業(yè)績效管理、客戶關(guān)系優(yōu)化、監(jiān)控商業(yè)活動等管理目的[15-16]。由此可見,BI是一種用來提高企業(yè)營銷管理能力的一套集成分析方法與系統(tǒng),分析所得的情報被應(yīng)用在解決客戶及產(chǎn)品的需求趨勢、潛在服務(wù)與產(chǎn)品的關(guān)系、銷售預(yù)測、營銷策略創(chuàng)新等問題。
從實踐角度看, BI的實施包括了輸入、流程及輸出等三個主要步驟:①輸入是指數(shù)據(jù)來源,BI的信息源是基于“數(shù)值型式”的業(yè)務(wù)數(shù)據(jù)、客戶相關(guān)數(shù)據(jù)、專家信息、檢索日志記錄等,或是企業(yè)內(nèi)部現(xiàn)有數(shù)據(jù)倉庫的存儲內(nèi)容。②流程是指數(shù)據(jù)處理與分析過程,在BI的實施過程中,利用ETL等技術(shù)方法將企業(yè)的各種業(yè)務(wù)數(shù)據(jù)導入數(shù)據(jù)倉庫、或是進行數(shù)據(jù)集成,并進行數(shù)據(jù)分析與挖掘,再將分析結(jié)果結(jié)合企業(yè)的戰(zhàn)略、運營、關(guān)鍵績效指標或模型庫等加以實踐應(yīng)用,最終達到組織層次的商業(yè)績效管理、以及戰(zhàn)略層次的戰(zhàn)略規(guī)劃[17]。③輸出是指BI系統(tǒng)或平臺產(chǎn)生的各種情報產(chǎn)品,如產(chǎn)品銷售報表、客戶分析報表、產(chǎn)品定價方案、績效管理報表、財務(wù)報表等。從技術(shù)角度來看,Chen等人[18]認為BI分析經(jīng)歷過三個演化階段:第一個階段是BI1.0,其技術(shù)基礎(chǔ)是結(jié)構(gòu)化數(shù)據(jù)管理與數(shù)據(jù)倉庫;到了2000年的互聯(lián)網(wǎng)出現(xiàn)后,BI進入了BI2.0階段,即以網(wǎng)絡(luò)環(huán)境為主的商業(yè)情報分析,BI開始重視實時數(shù)據(jù)分析、集體智慧、觀點挖掘、關(guān)聯(lián)數(shù)據(jù)、網(wǎng)絡(luò)分析或文本挖掘等技術(shù)[19],表明了基于企業(yè)內(nèi)及結(jié)構(gòu)化數(shù)據(jù)的情報分析已無法滿足決策要求了,而是需要結(jié)合更多的企業(yè)外部及非結(jié)構(gòu)化數(shù)據(jù),來挖掘用戶對企業(yè)業(yè)務(wù)開展、市場活動的想法;第三階段是BI3.0階段,它是在移動終端、RFID及情景感測等技術(shù)發(fā)展背景下產(chǎn)生的,對企業(yè)而言,如何高效處理這類移動性強、與位置相關(guān)、以人為中心、情境敏感的數(shù)據(jù),將是BI分析的巨大挑戰(zhàn)。
大數(shù)據(jù)環(huán)境下,各種新型信息技術(shù)改變了企業(yè)的營銷決策與商業(yè)模式,也對BI的架構(gòu)、功能和所要發(fā)揮的作用產(chǎn)生了巨大的影響。馮芷艷等人[20]從管理學角度提出大數(shù)據(jù)背景下現(xiàn)代企業(yè)商業(yè)管理研究的前沿課題,例如,企業(yè)應(yīng)利用智能化技術(shù)等手段,挖掘提煉出社會化網(wǎng)絡(luò)環(huán)境中典型的行為模式、個性化行為,其中對新型數(shù)據(jù)源的實時清洗、實時挖掘、實時建模、實時輿情監(jiān)測等都是值得發(fā)展的分析技術(shù),同時,還要在精準性與實時分析之間尋求企業(yè)績效管理的平衡點。由此可以看出,企業(yè)的BI分析在大數(shù)據(jù)環(huán)境下,正從過去基于歷史數(shù)據(jù)的情報分析向“實時分析”(Real-Time Analysis)的方向轉(zhuǎn)變。具體來說,BI若要進行實時分析,必須先解決數(shù)據(jù)采集、數(shù)據(jù)分析、決策支持及信息反饋等環(huán)節(jié)中的滯后問題,Seufert及Schiefer等人[21]認為必須通過信息集成設(shè)施與商業(yè)環(huán)境集成來解決這些問題,包括以事件(Events)驅(qū)動機制替代周期性的批量處理方式來解決數(shù)據(jù)采集滯后的問題,利用聯(lián)機分析或數(shù)據(jù)挖掘來解決分析滯后的問題等等。此外,Lim等人[22]強調(diào)新型數(shù)據(jù)源對BI分析的影響,并指出現(xiàn)有的BI系統(tǒng)與大數(shù)據(jù)分析技術(shù)(如Hadoop、MapReduce)、文本挖掘(如從搜索引擎轉(zhuǎn)向企業(yè)搜索系統(tǒng)、從情感分析轉(zhuǎn)向觀點挖掘、從信息抽取轉(zhuǎn)向Q&A系統(tǒng))、網(wǎng)絡(luò)分析(如鏈接挖掘、社區(qū)發(fā)現(xiàn)、社會化推薦)等技術(shù)進行整合,是最值得深入研究的內(nèi)容。
2.3 生物醫(yī)學領(lǐng)域
生物醫(yī)學領(lǐng)域中的情報分析主要是指“生物醫(yī)學信息學”(Biomedical Informatics,BMI)[23],它是由信息計量學、醫(yī)學信息學(Medical Informatics)與生物信息學(Bioinformatics)等多種學科融合而產(chǎn)生的新興領(lǐng)域,主要利用情報學、護理學、生物工程、統(tǒng)計學和計算機科學等領(lǐng)域的分析方法與技術(shù)來研究生物醫(yī)學問題,支持衛(wèi)生保健、臨床實驗及醫(yī)學知識發(fā)現(xiàn)過程中的決策與服務(wù)。具體來說,BMI分析的基本目的在于了解生命的起源、進化、遺傳和發(fā)育的本質(zhì),通過相關(guān)分析方法或技術(shù)挖掘出潛藏在眾多生物信息數(shù)據(jù)庫中的新知識,輔助或直接開展基因組序列分析、基因進化分析、藥物設(shè)計、預(yù)測蛋白質(zhì)分子結(jié)構(gòu)與功能、基因區(qū)域預(yù)測及基因功能預(yù)測等工作[24-26]。
BMI的分析對象是生物醫(yī)學數(shù)據(jù)(Biomedical Data),包括患者的敘述性數(shù)據(jù)(如病征描述內(nèi)容)、數(shù)據(jù)測量的文本數(shù)據(jù)、遺傳信息、記錄信號、圖紙或影像數(shù)據(jù)等[27],這些素材除了可從綜合數(shù)據(jù)庫(如Web of Knowledge、Science Direct等)獲得之外,BMI領(lǐng)域的專業(yè)數(shù)據(jù)庫(如Genebank、EMBL、DDBJ、Swiss2Port等)、醫(yī)學中心或生物信息中心(如EBI、EMBL、NCBI、NIH等)也是主要的獲取渠道。由于生物醫(yī)學領(lǐng)域的數(shù)據(jù)復(fù)雜性,促使人們必須開發(fā)更新、更靈敏的計算機技術(shù)或算法來處理及分析生物醫(yī)學數(shù)據(jù)。從分析方法來看,BMI除了沿用生物醫(yī)學領(lǐng)域的專門分析方法(如序列對比、結(jié)構(gòu)對比、功能對比預(yù)測等)之外,也借鑒了數(shù)據(jù)挖掘、文本挖掘、本體構(gòu)建、知識發(fā)現(xiàn)等相關(guān)方法和技術(shù)[25][28-29],借鑒相關(guān)領(lǐng)域的分析方法原因有二:一是幫助加快及改進生物計算分析效率,并降低人工分析及物力投入成本;二是解決遺傳語言中存在的語義鴻溝(Semantic Gap)、生物醫(yī)學本體構(gòu)建及其概念分類與檢索等障礙。通過BMI分析所得到的情報產(chǎn)出有各種形式,如研究論文、特定主題分析報告、診斷報告書、基因表達圖譜等,其產(chǎn)出結(jié)果可用來解釋生命進化、人體生理與病理關(guān)系等現(xiàn)象,同時對疾病診斷、藥物研發(fā)或遺傳解碼等實踐應(yīng)用提供了有效支持。
大數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析及信息處理方法已經(jīng)成為BMI分析的基礎(chǔ)工作,同時,大數(shù)據(jù)理念與方法,對BMI分析從“發(fā)現(xiàn)及關(guān)聯(lián)”轉(zhuǎn)向“組合及預(yù)測”、從系統(tǒng)層次的分析轉(zhuǎn)向分子層次的分析,起到了重大影響[28]。Miller[30]也認為BMI面對急速增加的生物醫(yī)學數(shù)據(jù)數(shù)量的問題,特別是下一世代的序列分析技術(shù),將能解析出更多的基因序列,致使數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜化,因此需要在全基因組層面上開展多中心、大樣本、反復(fù)驗證的基因關(guān)聯(lián)研究(Genome-wide Association Studies),從而輔助科研人員對基因組或疾病做深入的科學探究。此外,BMI也開始關(guān)注生物醫(yī)學數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)的結(jié)合,通過社會網(wǎng)絡(luò)分析、網(wǎng)絡(luò)分析或云計算等方法來鑒別、預(yù)測或追蹤藥物治療、不同地區(qū)人口的關(guān)注疾病等問題[31]??傃灾瑸榱四苤С稚鲜鯞MI分析,分析前的預(yù)處理工作必須做到真正意義上的“整合”,即情報分析活動的第一步驟,對多源數(shù)據(jù)進行抽取、比對、清洗與轉(zhuǎn)換,從而提高及保證生物醫(yī)學多源數(shù)據(jù)融合的效率與質(zhì)量。
2.4 政府治理領(lǐng)域
Web2.0與開放數(shù)據(jù)(Open Data)對政府治理產(chǎn)生了許多刺激作用,說明了公共數(shù)據(jù)(Public Data)開放對提高政府運作的透明度、治理效率及影響決策等的重要性。目前,政府治理領(lǐng)域所指的情報分析尚無公認定義,整體來說,更傾向通過“政府數(shù)據(jù)挖掘”(Government Data Mining,GDM),即通過對稅務(wù)、就業(yè)、執(zhí)法、國家安全(如航空運輸、金融交易、監(jiān)視等)等相關(guān)數(shù)據(jù)的深入挖掘,分離出潛藏在數(shù)據(jù)中的噪音及有價值的情報,用來提高政府治理的水平[32]。由此可見,GDM的基本目的是促進公共治理與解決社會服務(wù)問題,即強化數(shù)據(jù)-治理-服務(wù)三者之間的關(guān)聯(lián)關(guān)系,并涉及了信息公開與共享、信息增值與再利用、數(shù)據(jù)訪問與存取、數(shù)據(jù)保密、數(shù)據(jù)整合等研究課題。
GDM的分析對象是政府開放的公共數(shù)據(jù),如,美國政府以數(shù)據(jù)共享及再利用為目標,建立了開放美國政府數(shù)據(jù)的Data.gov網(wǎng)站,對用戶提供多種數(shù)據(jù)集和輸出接口,以方便政府數(shù)據(jù)再利用及增值開發(fā),并結(jié)合Data.gov與云計算,構(gòu)建了面向美國所有政府部門的Apps.gov云服務(wù)門戶[33]。以美國Data.gov網(wǎng)站開放的數(shù)據(jù)類型為例,截至2014年7月5日,網(wǎng)站上共開放了110,875個數(shù)據(jù)集,涉及了企業(yè)、地球觀測、教育、地理空間等21類。從分析方法來看,數(shù)據(jù)挖掘是GDM的關(guān)鍵技術(shù),常見如統(tǒng)計分析、分類、聚類、關(guān)聯(lián)規(guī)則、決策樹、神經(jīng)網(wǎng)絡(luò)等。劉典文[34]梳理了數(shù)據(jù)挖掘在公共管理領(lǐng)域的各種應(yīng)用,如通過孤立點分析找出詐欺行為的特征、通過聚類分析找出城市交通系統(tǒng)規(guī)劃及站點分布等,而電子政務(wù)、政府績效管理、公共危機管理等也是廣泛運用數(shù)據(jù)挖掘來找出更多有價值的情報。通過GDM分析得到的情報,可通過每月統(tǒng)計報表、問題解決方案、特定事件監(jiān)測匯報等型式呈現(xiàn)結(jié)果,向決策者或管理者提供政府信息資源增值、信息孤島與社會服務(wù)問題解決、城市管理與監(jiān)控等方面的治理支持。
大數(shù)據(jù)環(huán)境下,Yiu[35]認為大數(shù)據(jù)分析是改變政府治理與社會服務(wù)的重要方法或技術(shù),它強化了跨部門之間的數(shù)據(jù)共享與關(guān)聯(lián)、支持組織學習與績效管理,并將管理顆粒度細化到個人,從而可廣泛地應(yīng)用于各種政府服務(wù)管理,如實時信息管理、多源數(shù)據(jù)融合分析稅務(wù)詐欺、個性化服務(wù)、城市人口監(jiān)控與預(yù)測等。為了解決部門條塊分割的管理碎片化及資源分配問題,陳美[36]認為可以通過建立集成各種交通數(shù)據(jù)的綜合多維交通信息體系,實現(xiàn)各種政府數(shù)據(jù)的綜合分析,快速解決交通事故、應(yīng)對惡劣氣候?qū)煌ǖ牟涣加绊?、及時實施道路養(yǎng)護等等。王志軍[37]以北京石景山區(qū)的城市供水管網(wǎng)漏損應(yīng)用示范點為例,以流量法、壓力法和噪音法分析該區(qū)的供水管網(wǎng)相關(guān)數(shù)據(jù),找出漏損情況及匹配適合的檢漏方法,達到了精細化分析、智能化管理,并取得了節(jié)約耗能的效果。除了分析公共數(shù)據(jù)外,喻國明[38]利用數(shù)據(jù)挖掘及社會語義分析工具分析百度搜索詞,探討了中國社會的輿情現(xiàn)實的走勢與發(fā)展,發(fā)現(xiàn)社會民生、公共安全、衛(wèi)生及環(huán)境生態(tài)是近年來中國社會輿論持續(xù)關(guān)注的基本問題,對于社會管理和社會協(xié)調(diào)有重要的啟示。由此可見,在大數(shù)據(jù)環(huán)境下GDM分析的發(fā)展重點在于,從公共數(shù)據(jù)或其他開放數(shù)據(jù)分析中,精準、及時掌握政府部門在各種社會服務(wù)中的運行規(guī)律,以及深刻察覺其中的治理問題,并提供以數(shù)據(jù)為支撐的決策情報與問題解決方案。
2.5 軍事情報領(lǐng)域
軍事情報(Military Intelligence,MI)是指是為了保障軍事斗爭,有目的地搜集敵方、我方、友方、中立方等相關(guān)方面的素材信息(包括公開信息、秘密信息、部隊及技術(shù)偵查情報、軍事戰(zhàn)備相關(guān)情報等),再經(jīng)深入的綜合分析后得到的情報[39]。在這種情報分析中,特別強調(diào)要避免因忽視危機信號、過度過濾信息、信息交流不暢、情報政治化等因素造成的情報失察(Intelligence Failure)或情勢誤判[40]。也就是說,MI分析的基本目的在于情報保障及避免情報失察,其分析任務(wù)是面向國家安全的情報偵察探測、分析模擬、戰(zhàn)略研擬、決策參考等方面。
MI的分析對象依據(jù)不同標準而劃分不同類型,按真實程度可劃分真假情報;按性質(zhì)可劃分軍事指揮、后勤、裝備等情報;按載體可劃分文字、聲像、實物等情報[40]。具體來說,MI是從公開與非公開數(shù)據(jù)源、軍事信息系統(tǒng)、衛(wèi)星預(yù)警系統(tǒng)等各種渠道取得的基于“戰(zhàn)事局勢”的偵查情報、傳感數(shù)據(jù)、地理數(shù)據(jù)、照片、聲音、武器裝備等等相關(guān)素材。從分析方法來看,MI除了一般的基礎(chǔ)分析方法(如數(shù)學方法、文獻研究等)之外,情報素材鑒別方法(先期過濾工作)、作戰(zhàn)想定方法(基于軍事任務(wù))、成果評估方法(確定軍事情報價值)都是體現(xiàn)軍事情報領(lǐng)域研究特點的專門分析方法[41]。經(jīng)過MI分析得到的情報,可通過戰(zhàn)略分析評估報告、戰(zhàn)情模擬分析報告、特定目標監(jiān)控報告等形式呈現(xiàn)內(nèi)容,并支撐軍事情報單位的軍事斗爭準備,達到戰(zhàn)事情況監(jiān)控、戰(zhàn)勝對手、及時預(yù)測客觀情況等各項目標。
大數(shù)據(jù)環(huán)境下,面對公開信息來源及新型網(wǎng)絡(luò)環(huán)境的數(shù)據(jù)過剩問題,情報人員沒有足夠時間篩選潛在的有價值情報[42],例如,軍事情報單位得知可能在某日下午發(fā)動網(wǎng)絡(luò)攻擊,但這樣的情報量是不足夠的,必須具體知道何人、何時、何地及如何阻止他們,而該網(wǎng)絡(luò)恐怖事件即將發(fā)生,不允許情報人員花費時間分析該網(wǎng)絡(luò)攻擊的時間、地點與人物。又例如,2012年美國國防部高級研究計劃局推出XDATA項目,目的是開發(fā)大數(shù)據(jù)處理與分析相關(guān)的計算技術(shù)與開放源碼軟件,用來滿足國防軍事需求。但除了開發(fā)軟件工具包之外,項目更涉及了可拓展的分析與數(shù)據(jù)處理技術(shù)、可視化用戶界面技術(shù)、軟件集成研究及評價等等技術(shù),將來可以具體應(yīng)用在網(wǎng)絡(luò)科技、電子戰(zhàn)、電子防護、數(shù)據(jù)決策、大規(guī)模殺傷性武器防御、工程化彈性系統(tǒng)及監(jiān)視偵察系統(tǒng)等[43]。上述例子說明,大數(shù)據(jù)環(huán)境給MI分析智能化帶來巨大的挑戰(zhàn),研究的課題包括但不限于:信息情報的自動監(jiān)控與關(guān)鍵信息的自動識別定位;不同來源的數(shù)據(jù)與同一事件的對應(yīng)關(guān)系發(fā)現(xiàn);非關(guān)鍵信息之間的隱藏關(guān)聯(lián)規(guī)則等等。
3 結(jié)語
本文梳理了競爭情報、商業(yè)管理、生物醫(yī)學、政府治理及軍事情報五個領(lǐng)域中情報分析的概念與實踐的特點,揭示了不同領(lǐng)域的情報分析的特征,以及大數(shù)據(jù)理念與技術(shù)對五個領(lǐng)域中的情報分析帶來的影響。為更加清楚起見,本文從基本目的、問題情景、研究任務(wù)、數(shù)據(jù)類型、數(shù)據(jù)來源、分析活動、分析技術(shù)、產(chǎn)出形式、結(jié)果價值以及大數(shù)據(jù)的影響等十個方面列出了不同領(lǐng)域情報分析的特征(見表1),期望能幫助我們更加清楚地認識情報分析的內(nèi)涵和外延。
參考文獻:
[1]包昌火. 情報研究方法論[M]. 北京: 科學技術(shù)文獻出版社, 1990.
[2]Moore D T. Critical Thinking and Intelligence Analysis[M].Washington, D.C.: Joint Military Intelligence College,2010.
[3]陳峰. 競爭情報概念及相關(guān)因素分析[J]. 圖書情報知識,2003,(1): 20-22.
[4]包昌火.加強競爭情報工作 提高我國企業(yè)競爭能力[J].中國信息導報,1998,(11): 30-33.
[5]王知津. 競爭情報[M]. 北京: 科學技術(shù)文獻出版社, 2005.
[6]李正中,許蕾. 競爭情報行為的正當性與灰色信息收集方式的研究[J].情報學報,2000,19(1): 77-81.
[7]利.基于要素細分的競爭情報四維分析框架[J]. 情報學報,2007,26(1): 89-99.
[8]Bose R. Competitive intelligence process and tools for intelligence analysis[J].Industrial Management & Data Systems,2008,108(4):510-528.
[9]包昌火,趙剛,黃英,等. 略論競爭情報的發(fā)展走向[J]. 情報學報,2004,23(3):352-366.
[10]化柏林.網(wǎng)絡(luò)海量信息環(huán)境下的情報方法體系研究[J]. 情報理論與實踐,2012,35(11):1-5.
[11]李廣建,楊林. 大數(shù)據(jù)視角下的情報研究與情報研究技術(shù)[J]. 圖書與情報,2012,(6): 1-8.
[12]劉高勇,汪會玲,吳金紅. 大數(shù)據(jù)時代的競爭情報發(fā)展動向探析[J]. 圖書情報知識,2013,(2):105-111.
[13]謝志航,冷洪霞,楊晶晶. 大數(shù)據(jù)背景下社會化媒體數(shù)據(jù)的情報價值探討[J]. 情報探索,2013,(10):6-8.
[14]黃曉斌,鐘輝新. 基于大數(shù)據(jù)的企業(yè)競爭情報系統(tǒng)模型構(gòu)建[J]. 情報雜志,2013,32(3): 37-43.
[15]Negash S. Business intelligence[J]. Communications of the Association for Information Systems,2004,(13):177-195.
[16]Ranjan J. Business Intelligence: Concepts, Components,Techniques and Benefits[J]. Journal of Theoretical and Applied Information Technology,2009,9(1): 60-70.
[17]朱曉武. 商務(wù)智能的理論和應(yīng)用研究綜述[J]. 計算機系統(tǒng)應(yīng)用,2007,(1): 114-117.
[18]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012,36(4):1165-1188.
[19]Trujillo J, Maté A. Business Intelligence 2.0: A General Overview[M].Aufaure M,Zimányi E,Springer Berlin Heidelberg,2012:96,98-116.
[20]馮芷艷,郭迅華,曾大軍,等. 大數(shù)據(jù)背景下商務(wù)管理研究若干前沿課題[J].管理科學學報,2013,16(1): 1-9.
[21]Seufert A, Schiefer J. Enhanced business intelligence - supporting business processes with real-time business analytics: 16th International Workshop on Database and Expert Systems Applications[Z]. Copenhagen,Denmark: IEEE Computer Society, 2005.
[22]Lim E P, Chen H C, Chen G Q. Business Intelligence and Analytics: Research Directions[J]. ACM Transactions on Management Information Systems,2013,3(4): 1-10.
[23]Bernstam E V, Smith J W, Johnson T R. What is biomedical informatics?[J]. Journal of Biomedical Informatics,2010,43(1):104-110.
[24]黃科,曹家樹,吳秋云,等. 生物信息學[J].情報學報,2002, 21(4): 491-496.
[25]陳銘. 后基因組時代的生物信息學[J]. 生物信息學, 2004,(2):29-34.
[26]陳潤生. 當前生物信息學的重要研究任務(wù)[J]. 生物工程進展,1999,19(4):11-14.
[27]Shortliffe E, Barnett G O. Biomedical Data: Their Acquisition,Storage,and Use[M].London:Springer, 2014:
39-66.
[28]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine, 2011,
50(6): 536-544.
[29]Pardue J H, Gerthoffer W T. Knowledge acquisition, semantic text mining, and security risks in health and biomedical informatics[J]. World Journal of Biological
Chemistry,2012,(2): 27-33.
[30]Miller K. Big Data Analytics in Biomedical Research[J]. Biomedical Computation Review,2012,(2):14-21.
[31]Costa F F. Social networks, web-based tools and diseases: implications for biomedical research[J]. Drug Discovery Today,2013, 18(5-6):272-281.
[32]Cate F H. Government data mining: The need for a legal framework[J]. Harvard Civil Rights-Civil Liberties Law Review,2008,43(2):435-489.
[33]劉增明,賈一葦. 美國政府Data.gov和Apps.gov的經(jīng)驗與啟示[J]. 電子政務(wù),2011,(4):90-95.
[34]劉典文.數(shù)據(jù)挖掘技術(shù)在公共管理領(lǐng)域的應(yīng)用[J]. 行政論壇,2010, 17(2): 42-46.
[35]Yiu C. The Big Data Opportunity: Making government faster, smarter and more personal[R]. London: Policy Exchange, 2012.
[36]陳美. 大數(shù)據(jù)在公共交通中的應(yīng)用[J]. 圖書與情報, 2012,(6): 22-28.
[37]王志軍.大數(shù)據(jù)時代下的城市供水管網(wǎng)漏損管理[J]. 中國科技產(chǎn)業(yè),2014,(2):74-75.
[38]喻國明. 大數(shù)據(jù)分析下的中國社會輿情:總體態(tài)勢與結(jié)構(gòu)性特征[J]. 中國人民大學學報,2013,(5): 2-9.
[39]周軍.試論軍事情報的概念[J].情報雜志,2004,(1): 33-34.
[40]沈固朝. 情報失察――西方情報研究的重要課題及其對我們的啟示[J].圖書情報工作,2009,(2):34-37.
[41]程立斌,林春應(yīng). 軍事情報研究方法體系探析[J]. 情報雜志,2007,(2):87-89.
[42]Magnuson S. Defense, Intel Communities Wrestle With the Promise and Problems of 'Big Data' (UPDATED)[J/OL].[2014-08-20].https:///read/1G1-323351157/defense-intel-communities-wrestle-with-the-promise.