前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘論文主題范文,僅供參考,歡迎閱讀并收藏。
1.1GPUGPU之所以在某些應用中較CPU能夠獲得更高的性能,主要是因為GPU和CPU在硬件結(jié)構(gòu)設計上存在很大差異。如圖1所示[10],GPU將大量的晶體管用作ALU計算單元,從而適應密集且可并行的圖像渲染計算處理需要。相對GPU而言,CPU卻是將更多的晶體管用作復雜的控制單元和緩存等非計算功能,并以此來提高少量執(zhí)行單元的執(zhí)行效率。此外,存儲帶寬是另一個重要問題。存儲器到處理器的帶寬已經(jīng)成為許多應用程序的瓶頸。目前GPU的芯片帶寬是CPU芯片帶寬的6倍左右。
1.2CPU/GPU協(xié)同并行計算在諸多適用于高性能計算的體系結(jié)構(gòu)中,采用通用多核CPU與定制加速協(xié)處理器相結(jié)合的異構(gòu)體系結(jié)構(gòu)成為構(gòu)造千萬億次計算機系統(tǒng)的一種可行途徑。而在眾多異構(gòu)混合平臺中,基于CPU/GPU異構(gòu)協(xié)同的計算平臺具有很大的發(fā)展?jié)摿?。在協(xié)同并行計算時,CPU和GPU應各取所長,即CPU承擔程序控制,而密集計算交由GPU完成。另外,除管理和調(diào)度GPU計算任務外,CPU也應當承擔一部分科學計算任務[12]。新型異構(gòu)混合體系結(jié)構(gòu)對大規(guī)模并行算法研究提出了新的挑戰(zhàn),迫切需要深入研究與該體系結(jié)構(gòu)相適應的并行算法。事實上,目前基于GPU加速的數(shù)據(jù)挖掘算法實現(xiàn)都有CPU參與協(xié)同計算,只是討論的重點多集中在為適應GPU而進行的并行化設計上。實踐中,需要找出密集計算部分并將其遷移到GPU中執(zhí)行,剩余部分仍然由CPU來完成。
1.3CUDA為了加速GPU通用計算的發(fā)展,NVIDIA公司在2007年推出統(tǒng)一計算設備架構(gòu)(ComputeUnifiedDeviceArchitecture,CUDA)[10,13]。CUDA編程模型將CPU作為主機,GPU作為協(xié)處理器,兩者協(xié)同工作,各司其職。CPU負責進行邏輯性強的事務處理和串行計算,GPU則專注于執(zhí)行高度線程化的并行處理任務。CUDA采用單指令多線程(SIMT)執(zhí)行模式,而內(nèi)核函數(shù)(kernel)執(zhí)行GPU上的并行計算任務,是整個程序中一個可以被并行執(zhí)行的步驟。CUDA計算流程通常包含CPU到GPU數(shù)據(jù)傳遞、內(nèi)核函數(shù)執(zhí)行、GPU到CPU數(shù)據(jù)傳遞三個步驟。CUDA不需要借助于圖形學API,并采用了比較容易掌握的類C/C++語言進行開發(fā),為開發(fā)人員有效利用GPU的強大性能提供了條件。CUDA被廣泛應用于石油勘探、天文計算、流體力學模擬、分子動力學仿真、生物計算和圖像處理等領域,在很多應用中獲得了幾倍、幾十倍,乃至上百倍的加速比[13]。
1.4并行編程語言和模型過去幾十年里,人們相繼提出了很多并行編程語言和模型,其中使用最廣泛的是為可擴展的集群計算設計的消息傳遞接口(MessagePassingInterface,MPI)和為共享存儲器的多處理器系統(tǒng)設計的OpenMP[14]。OpenMP最初是為CPU執(zhí)行而設計的。OpenACC[15]是計算機廠商為異構(gòu)計算系統(tǒng)提出的一種新編程模型,其主要優(yōu)勢是為抽象掉許多并行編程細節(jié)提供了編譯自動化和運行時系統(tǒng)支持。這使得應用程序在不同廠商的計算機和同一廠商不同時代的產(chǎn)品中保持兼容性。然而,學習OpenACC需要理解所有相關的并行編程細節(jié)。在MPI編程模型中,集群中的計算節(jié)點之間相互不共享存儲器;節(jié)點之間的數(shù)據(jù)共享與交互都通過顯式傳遞消息的方式實現(xiàn)。MPI成功應用于高性能科學計算(HPC)領域。現(xiàn)在很多HPC集群采用的是異構(gòu)的CPU/GPU節(jié)點。在集群層次上,開發(fā)人員使用MPI進行編程,但在節(jié)點層次上,CUDA是非常高效的編程接口。由于計算節(jié)點之間缺乏共享存儲器機制,要把應用程序移植到MPI中需要做大量針對性分析和分解工作。包括蘋果公司在內(nèi)的幾大公司在2009年共同開發(fā)了一套標準編程接口,稱之為OpenCL[16]。與CUDA類似,OpenCL編程模型定義了語言擴展和運行時API,使程序員可以在大規(guī)模并行處理中進行并行管理和數(shù)據(jù)傳遞。與CUDA相比,OpenCL更多地依賴API,而不是語言的擴展,這允許廠商快速調(diào)整現(xiàn)有編譯器和工具來處理OpenCL程序。OpenCL和CUDA在關鍵概念和特性上有諸多相似之處,因此CUDA程序員可以很快掌握OpenCL。
1.5MATLAB因提供豐富的庫函數(shù)庫以及諸多其他研究者貢獻和共享的函數(shù)庫,MATLAB是研究人員實現(xiàn)算法的常用平臺。通過封裝的數(shù)據(jù)容器(GPUArrays)和函數(shù),MATLAB允許沒有底層CUDA編程能力的研究人員可以較容易獲得GPU計算能力,因此MATLAB較OpenCL更容易上手。截止準備本文時,2014版本的MATLAB提供了226個內(nèi)置的GPU版本的庫函數(shù)。對于有CUDA編程經(jīng)驗的人員,MATLAB允許直接集成CUDA內(nèi)核進MATLAB應用。本文第四節(jié)的實驗亦基于MATLAB實現(xiàn)。
1.6JACKET引擎JACKET[17]是一個由AccelerEyes公司開發(fā)專門用于以MATLAB為基礎的基于GPU的計算引擎,其最新版本已經(jīng)包含了高層的接口,完全屏蔽了底層硬件的復雜性,并支持所有支持CUDA的GPU計算,降低了進行CUDA開發(fā)的門檻。JACKET是MATLAB代碼在GPU上運行的插件。JACKET允許標準的MATLAB代碼能夠在任何支持CUDA的GPU上運行,這使得廣大的MATLAB及C/C++用戶可以直接使用GPU強大的計算能力進行相關應用領域的快速原型開發(fā)。JACKET包含了一套運行于MATLAB環(huán)境中優(yōu)化并行計算的基礎函數(shù)庫。并且支持MATLAB數(shù)據(jù)類型,可將任何存儲于MATLABCPU內(nèi)存中的變量數(shù)據(jù)轉(zhuǎn)換為GPU上的數(shù)據(jù)類型,對以往的MATLAB程序來說,只需更改數(shù)據(jù)類型,就能遷移到GPU上運行。本文的第四節(jié)的實驗亦基于JACKET在MATLAB上實現(xiàn)。
2相關工作綜述
2.1基于CPU的數(shù)據(jù)挖掘算法實現(xiàn)數(shù)據(jù)挖掘算法的研究一直很活躍,許多成熟和經(jīng)典的算法已經(jīng)實現(xiàn)在諸多研究或商用軟件包/平臺,例如開源的Weka[18]和KNIME,以及商用的IBM公司的PASWModeler(即之前SPSS公司的Clementine®)。這些軟件默認都是單機版本,可運行在普通PC或高性能服務器上,基于CPU的計算能力。為了適應目前大規(guī)模的計算,出現(xiàn)了基于Google公司提出的MapReduce[19]計算框架實現(xiàn)的開源數(shù)據(jù)挖掘平臺Mahout[20]。相關的研究起源于斯坦福大學AndrewNg研究組2006年的經(jīng)典論著[21]。由于現(xiàn)有的算法需要先找到可“遷移”到MapReduce的方式,因此目前Mahout平臺上僅有幾個能支持分布式部署的數(shù)據(jù)挖掘算法,包括用于分類的樸素貝葉斯、隨機森林,用于聚類的k-Means,基于項目的協(xié)同過濾等。目前Mahout仍然是基于CPU的計算能力。
2.2聚類算法聚類是數(shù)據(jù)挖掘中用來發(fā)現(xiàn)數(shù)據(jù)分布和隱含模式的一種無監(jiān)督學習,每個訓練元組的類標號是未知的,并且要學習的個數(shù)或集合也可能事先不知道。對于給定的數(shù)據(jù)集,聚類算法按照一定的度量,將數(shù)據(jù)對象分組為多個簇,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別很大[22-23]。k-Means算法是經(jīng)典的基于距離/劃分的聚類分析算法,也是應用得最廣泛的算法之一,采用距離作為相似性的評價指標,即認為兩個對象距離越近,其相似度就越大。k-Means算法的流程如下[24]:輸入:簇的數(shù)目k和包含n個對象數(shù)據(jù)集D。輸出:k個簇的集合。方法:1)從D中任意選擇k個對象作為初始簇中心。計算每個數(shù)據(jù)對象到各簇中心的歐氏距離,將每個數(shù)據(jù)對象分配到最相似的簇中。2)重新計算每個簇中對象的均值。3)循環(huán)執(zhí)行步驟2-3兩個步驟,直到各個簇內(nèi)對象不再變化。上述算法步驟2屬于計算密度最大的部分,且具備并行化的條件。計算各個數(shù)據(jù)對象到各簇中心的歐氏距離和將數(shù)據(jù)對象分配到最近的簇的時候,數(shù)據(jù)對象之間都是相互獨立的,不需要進行交換,且沒有先后順序,后計算的對象不需要等待前一次計算的結(jié)果,僅在完成全部分配過程之后,才需要進行一次數(shù)據(jù)匯總。所以文獻[25]的作者們使用GPU并行優(yōu)化了一維數(shù)據(jù)的k-Means算法的步驟2,并使用帶緩存機制的常數(shù)存儲器保存中心點數(shù)據(jù),能獲得更好的讀取效率。文獻中還展示了實驗結(jié)果,在8600GT上取得了14倍左右的加速效果。DBSCAN屬于基于密度的聚類算法中最常被引用的,G-DBSCAN是它的一個GPU加速版本[26]。文獻[26]的實驗顯示較DBSCAN可以實現(xiàn)高達112倍的加速。BIRCH是經(jīng)典的基于層次的聚類算法,文獻[27]中基于CUDA實現(xiàn)的GPU加速版本在實驗中獲得了高達154倍的加速。
2.3分類算法分類是數(shù)據(jù)挖掘中應用領域極其廣泛的重要技術之一,至今已經(jīng)提出很多算法。分類算法[28]是一種監(jiān)督學習,通過對已知類別訓練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預測新數(shù)據(jù)的類別。分類算法是將一個未知樣本分到幾個已存在類的過程,主要包含兩個步驟:首先,根據(jù)類標號已知的訓練數(shù)據(jù)集,訓練并構(gòu)建一個模型,用于描述預定的數(shù)據(jù)類集或概念集;其次,使用所獲得的模型對新的數(shù)據(jù)進行分類。近年來,許多研究已經(jīng)轉(zhuǎn)向?qū)崿F(xiàn)基于GPU加速分類算法,包括k-NN(k近鄰)分類算法[29],支持向量機分類算法[30],貝葉斯分類算法[31-32]等。kNN算法[33]是數(shù)據(jù)挖掘中應用最廣泛的一種分類算法,簡單易實現(xiàn)。它是一種典型的基于實例的學習法,將待判定的檢驗元組與所有的訓練元組進行比較,挑選與其最相似的k個訓練數(shù)據(jù),基于相應的標簽和一定的選舉規(guī)則來決定其標簽。在ShenshenLiang等人的文章[34]指出,由于kNN算法是一種惰性學習法,對于每個待分類的樣本,它都需要計算其與訓練樣本庫中所有樣本的距離,然后通過排序,才能得到與待分類樣本最相鄰的k個鄰居。那么當遇到大規(guī)模數(shù)據(jù)并且是高維樣本時,kNN算法的時間復雜度和空間復雜度將會很高,造成執(zhí)行效率低下,無法勝任大數(shù)據(jù)分析任務。所以加速距離的計算是提高kNN算法的核心問題。因為每個待分類的樣本都可以獨立地進行kNN分類,前后之間沒有計算順序上的相關性,因此可以采用GPU并行運算方法解決kNN算法串行復雜度高的問題。將計算測試集和訓練集中點與點之間的距離和排序一步采用GPU并行化完成,其余如判斷類標號一步難以在GPU上高效實現(xiàn),由CPU完成。文獻[34]通過GPU并行化實現(xiàn)kNN算法,讓kNN算法時間復雜度大幅度減少,從而說明GPU對kNN算法的加速效果是非常明顯的。
2.4關聯(lián)分析算法關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中較成熟和重要的研究方法,旨在挖掘事務數(shù)據(jù)庫頻繁出現(xiàn)的項集。因此,挖掘關聯(lián)規(guī)則的問題可以歸結(jié)為挖掘頻繁項集[35]。關聯(lián)分析算法首先找出所有的頻繁項集,然后根據(jù)最小支持度和最小置信度從頻繁項集中產(chǎn)生強關聯(lián)規(guī)則。Apriori算法[36]是最有影響力的挖掘布爾關聯(lián)規(guī)則頻繁項目集的經(jīng)典算法。Apriori算法使用逐層搜索的迭代方法產(chǎn)生頻繁項目集,即利用k頻繁項集來產(chǎn)生(k+1)項集,是一種基于生成候選項集的關聯(lián)規(guī)則挖掘方法。在劉瑩等人的文章[37]中指出,產(chǎn)生候選項和計算支持度,占據(jù)Apriori的大部分計算量。產(chǎn)生候選項的任務是連接兩個頻繁項集,而這個任務在不同線程之間是獨立的,所以這個過程適合在GPU上被并行化。通過掃描交易數(shù)據(jù)庫,計算支持度程序記錄一個候選項集出現(xiàn)的次數(shù)。由于每個候選項集的計數(shù)與其他項集的計數(shù)相對獨立,同樣適合于多線程并行。所以文獻[37]的作者們在實現(xiàn)Apriori時使用GPU并行化了產(chǎn)生候選項和計算支持度這兩個過程,取得了顯著的加速效果。文獻[38]是目前發(fā)現(xiàn)的對于在GPU上實現(xiàn)頻繁項集挖掘最全面細致的研究。他們使用的是早期的CUDA平臺,采用了bitmap和trie兩種數(shù)據(jù)結(jié)構(gòu)來實現(xiàn)GPU的挖掘算法,并且根據(jù)不同數(shù)據(jù)集和支持度進行了算法性能的對比,均相對于CPU版本的算法獲得的一定的加速比。
2.5時序分析由于越來越多的數(shù)據(jù)都與時間有著密切的關系,時序數(shù)據(jù)作為數(shù)據(jù)挖掘研究的重要分支之一,越來越受到人們的重視。其研究的目的主要包括以下兩個方面:一是學習待觀察過程過去的行為特征;二是預測未來該過程的可能狀態(tài)或表現(xiàn)。時序數(shù)據(jù)挖掘主要包含以下幾個主要任務:數(shù)據(jù)預處理,時序數(shù)據(jù)表示,分割,相似度度量,分類,聚類等。這些任務中很多都涉及到相當大的計算量。由于問題規(guī)模的不斷擴大,并且對于實時性能的要求,時序數(shù)據(jù)挖掘的任務就必須要求充分地提高計算速度或者通過優(yōu)化減少計算量。時序數(shù)據(jù)的表示有時候會采取特征來表示,這就涉及到了特征提取問題,當特征數(shù)量龐大的時候就需要進行維數(shù)約簡,主要的方法有奇異值分解法,離散小波變換。這些計算都涉及到很大的時間復雜度,為了減少計算的時間消耗,SheetalLahabar等人使用GPU加速SVD的計算,獲得了60多倍的加速效果[39]。動態(tài)時間彎曲(DynamicTimeWarping,DTW)起初被應用于文本數(shù)據(jù)匹配和視覺模式識別的研究領域,是一種相似性度量算法。研究表明這種基于非線性彎曲技術的算法可以獲得很高的識別、匹配精度。Berndt和Clifford提出了將DTW的概念引入小型時間序列分析領域,在初步的實驗中取得了較好的結(jié)果[40]。隨著問題規(guī)模的擴大,對于DTW的計算成為了時序數(shù)據(jù)挖掘的首先要處理的問題。在DTW中,搜索需要找出與訓練數(shù)據(jù)最近距離的樣本,這就需要搜索與每個訓練樣本的距離,這就可以很好的利用GPU進行并行化處理。DorukSart等人在對DTW加速的處理中,獲得了兩個數(shù)量級的加速效果[41]。而對于分類和聚類任務的加速,上面已經(jīng)提到,這里不再累贅。
2.6深度學習深度學習雖然隸屬機器學習,但鑒于機器學習和數(shù)據(jù)挖掘領域的緊密聯(lián)系,深度學習必定將在數(shù)據(jù)挖掘領域獲得越來越多的應用。從2006年Hinton和他的學生Salakhutdinov在《科學》上發(fā)表的文章[42]開始,深度學習在學術界持續(xù)升溫。深度學習的實質(zhì)是通過構(gòu)建具有很多隱層的機器學習模型和海量的訓練數(shù)據(jù),來學習更有用的特征,從而最終提升分類預測的準確性[43]。如何在工程上利用大規(guī)模的并行計算平臺來實現(xiàn)海量數(shù)據(jù)訓練,是各個機構(gòu)從事深度學習技術研發(fā)首先要解決的問題。傳統(tǒng)的大數(shù)據(jù)平臺如Hadoop,由于數(shù)據(jù)處理延遲太高而不適合需要頻繁迭代的深度學習。神經(jīng)網(wǎng)絡一般基于大量相似的神經(jīng)元,故本質(zhì)上可以高度并行化訓練;通過映射到GPU,可以實現(xiàn)比單純依賴CPU顯著地提升。谷歌搭建的DistBelief是一個采用普通服務器的深度學習并行計算平臺,采用異步算法,由很多計算單元獨立更新同一個參數(shù)服務器的模型參數(shù),實現(xiàn)了隨機梯度下降算法的并行化,加快了模型訓練速度。百度的多GPU并行計算平臺克服了傳統(tǒng)SGD訓練不能并行的技術難題,神經(jīng)網(wǎng)絡的訓練已經(jīng)可以在海量語料上并行展開。NVIDIA在2014年9月推出了深度學習GPU加速庫cuDNN,可以方便地嵌入高層級機器學習框架中使用,例如Caffe[45]。cuDNN支持NVIDIA的全系列GPU,包括低端的TegraK1和高端的TeslaK40,并承諾可向上支持未來的GPU。
2.7小結(jié)并行化能帶來多少倍的加速取決于算法中可并行化的部分。例如,如果可并行部分的時間占整個應用程序執(zhí)行時間的20%,那么即使將并行部分加速100倍,總執(zhí)行時間也只能減少19.8%,整個應用程序的加速只有1.247倍;即使無限加速也只能減少約20%的執(zhí)行時間,總加速不會超過1.25倍。對于一個數(shù)據(jù)挖掘(學習和預測)算法進行GPU加速實現(xiàn),首先要思考是否存在可并行執(zhí)行的部分,之后再結(jié)合GPU的架構(gòu)特點進行針對性實現(xiàn)優(yōu)化。然而,由于數(shù)據(jù)挖掘算法普遍是數(shù)據(jù)密集型計算,而GPU片內(nèi)存儲容量有限,如何降低與內(nèi)存交換數(shù)據(jù)集是一個要解決的關鍵問題。通過以上相關工作的分析,可以發(fā)現(xiàn)數(shù)據(jù)挖掘算法在GPU上的加速具有數(shù)據(jù)獨立,可并行化共同特征。本文提出數(shù)據(jù)挖掘算法在GPU上加速實現(xiàn)的一種解決思路:在大數(shù)據(jù)下,分析算法的性能瓶頸,從而確定算法中耗時大,時間復雜度高的部分,將此部分在GPU上執(zhí)行,不耗時部分在CPU上串行執(zhí)行,以達到加速效果。為了更充分利用GPU的并行計算的體系結(jié)構(gòu),可深入分析耗時大的部分,將具有數(shù)據(jù)獨立,可并行化的部分在GPU上并行執(zhí)行,達到更進一步的加速效果。
3實踐和分析:協(xié)同過濾推薦
當前主要的協(xié)同過濾推薦算法有兩類:基于用戶(r-based)和基于項目(item-based)的協(xié)同過濾推薦算法?;陧椖康膮f(xié)同過濾推薦算法[46-50]認為,項目間的評分具有相似性,可以通過用戶對目標項目的若干相似項目的評分來估計該項目的分值。基于用戶的協(xié)同過濾推薦算法認為,如果用戶對一些項目的評分比較相似,那么他們對其他項目的評分也比較相似。本文根據(jù)以上總結(jié)的算法特征圍繞兩種經(jīng)典協(xié)同過濾算法的實現(xiàn),通過大規(guī)模數(shù)據(jù)的實驗來驗證GPU相對于傳統(tǒng)CPU的優(yōu)勢。
3.1算法實現(xiàn)
3.1.1基于CPU實現(xiàn)協(xié)同過濾推薦的兩類經(jīng)典算法本文基于MATLAB實現(xiàn)CPU版本的基于用戶和基于項目的兩種經(jīng)典協(xié)同過濾推薦算法。實現(xiàn)的步驟:1)數(shù)據(jù)表示:收集用戶的評分數(shù)據(jù),并進行數(shù)據(jù)清理、轉(zhuǎn)換,最終形成一個mn的用戶-項目評分矩陣R,m和n分別代表矩陣中的用戶數(shù)和項目數(shù),矩陣中的元素代表用戶對項目的評分值。2)最近鄰居搜索:主要完成對目標用戶/項目的最近鄰居的查找。通過計算目標用戶/項目與其他用戶/項目之間的相似度,算出與目標用戶/項目最相似的最近鄰居集。該過程分兩步完成:首先采用協(xié)同過濾推薦算法中運用較多的度量方法“Pearson相關系數(shù)”計算用戶/項目之間的相似度得到相應的相似度矩陣,其次是采用最近鄰方法找到目標用戶/項目的最近的K個鄰居,這些鄰居是由與目標相似度最高的一些用戶/項目組成的。3)產(chǎn)生推薦:根據(jù)之前計算好的用戶/項目之間的相似度,并使用相應的預測評分函數(shù)對用戶未打分的項目進行預測,得到預測評分矩陣,然后選擇預測評分最高的Top-n項推薦給目標用戶。4)性能評估:本研究擬采用平均絕對誤差MAE作為評價推薦系統(tǒng)預測質(zhì)量的評價標準。MAE可以直觀地對預測質(zhì)量進行度量,是最常用的一種方法。MAE通過計算預測的用戶評分與實際評分之間的偏差度量預測的準確性;MAE越小,預測質(zhì)量越高。
3.1.2基于GPU實現(xiàn)協(xié)同過濾推薦的兩類經(jīng)典算法在大數(shù)據(jù)下,協(xié)同過濾算法中主要的時間消耗在于相似度計算模塊,占了整個算法的大部分時間,且每個用戶/項目之間的相似度可以被獨立計算,不依靠其他用戶/項目,具備并行化的條件,所以在以下的實驗中,將相似度計算模塊在GPU上執(zhí)行,其他部分在CPU上執(zhí)行,進而提高整個算法的執(zhí)行效率。使用MATLAB編程技術和JACKET編程技術在GPU上分別實現(xiàn)基于用戶和基于項目的兩種經(jīng)典協(xié)同過濾推薦算法。實現(xiàn)步驟如下:1)數(shù)據(jù)表示:收集用戶的評分數(shù)據(jù),并進行數(shù)據(jù)清理、轉(zhuǎn)換,最終形成用戶-項目評分矩陣。2)將收集的數(shù)據(jù)從CPU傳輸至GPU。3)對傳輸?shù)紾PU上的數(shù)據(jù)執(zhí)行GPU操作,調(diào)用相關函數(shù)庫,采用公式(1)和(2)分別計算并獲取用戶/項目間的相似度矩陣。4)將GPU計算結(jié)果返回CPU中以便后續(xù)操作。5)采用公式(3)和(4)在CPU上分別獲取兩種經(jīng)典算法的評分預測矩陣。6)選擇預測評分最高的Top-n項推薦給目標用戶。7)采用公式(5)求兩種經(jīng)典算法的平均絕對誤差MAE。
3.2實驗結(jié)果與分析
3.2.1實驗環(huán)境本實驗所用的CPU是IntelXeonE52687W,核心數(shù)量是八核,主頻率是3.1GHz,內(nèi)存大小是32GB;所使用的GPU是NVIDIAQuadroK4000,顯存容量是3GB,顯存帶寬是134GB/s核心頻率是811MHz,流處理器數(shù)是768個。使用Windows764位操作系統(tǒng),編程環(huán)境使用最新的CUDA。
3.2.2實驗數(shù)據(jù)本實驗使用目前比較常用的MovieLens[56]數(shù)據(jù)集作為測試數(shù)據(jù),該數(shù)據(jù)集從MovieLens網(wǎng)站采集而來,由美國Minnesota大學的GroupLens研究小組提供,數(shù)據(jù)集1包含943個用戶對1682部電影約10萬的評分數(shù)據(jù),數(shù)據(jù)集2包含6040個用戶對3952部電影約100萬的評分數(shù)據(jù),其中每個用戶至少對20部電影進行了評分。評分的范圍是1~5,1表示“很差”,5表示“很好”。實驗需要將每個數(shù)據(jù)集劃分為一個訓練集和一個測試集,每次隨機選出其中80%的評分數(shù)據(jù)用作訓練集,另20%用作測試集。
3.2.3實驗結(jié)果與分析本文采用加速比來比較算法的CPU實現(xiàn)和GPU實現(xiàn)的運行效率。計算加速比的方法如式(6)所示:在公式中,TimeCPU表示算法在CPU上的平均運行時間,TimeGPU表示算法在GPU上的平均運行時間。所有實驗中均取最近鄰居數(shù)為20,且各實驗結(jié)果均為5次獨立測試的平均值。圖2是關于兩個算法核心步驟的加速效果,而圖3則展示了算法整體加速效果??梢钥闯?,(1)整體加速效果取決于核心步驟的加速效果,(2)GPU版本的算法在性能上較CPU版本有較顯著地優(yōu)勢,且面對大數(shù)據(jù)集的加速效果更為明顯。例如在基于100萬條數(shù)據(jù)集時,Item-based的整體算法的加速比達到了14倍左右,而面對10萬條數(shù)據(jù)集時,加速比不到8倍。這可以解釋為GPU的多核優(yōu)勢在面對大數(shù)據(jù)集時被更為充分地得到釋放;(3)算法對r-based和Item-based兩種算法的加速比相近。圖4是關于算法預測效果的評估,可以看出基于GPU加速的兩類經(jīng)典協(xié)同過濾算法與基于CPU的兩類經(jīng)典協(xié)同過濾算法在預測效果上相近。如果結(jié)合圖2和圖3,可獲得結(jié)論-能夠基于GPU獲得得可觀的計算加速而不犧牲應用效果。
3.3小結(jié)
本文通過使用JACKET加快開發(fā)過程。目前國內(nèi)還缺少對JACKET的了解和應用,JACKET的出現(xiàn)為科學領域進行大規(guī)模計算仿真提供了新的研究方法,并使得研究人員可以在熟悉的MATLAB平臺上實現(xiàn)相關算法。
4結(jié)束語
在電子商務進行應用的數(shù)據(jù)挖掘技術的實現(xiàn)過程大致要劃分為三個不同的階段:第一部分對需要挖掘的數(shù)據(jù)信息的準備階段,第二部分對數(shù)據(jù)信息的挖掘階段,第三部分的主要任務是對數(shù)據(jù)挖掘的結(jié)果進行解釋與評價.
1.1數(shù)據(jù)信息的準備準備部分又可以分成數(shù)據(jù)的選取、數(shù)據(jù)信息的預處理.對數(shù)據(jù)進行選取的主要目的就是對操作對象進行確定,即是對目標數(shù)據(jù)進行確定,所謂的目標數(shù)據(jù)是在經(jīng)過對用戶的需要進行細致分析之后,對最有可能得到有利用價值的信息的那些從數(shù)據(jù)庫中抽取出來的數(shù)據(jù).獲取到這些數(shù)據(jù)以后需要進行預處理,主要包含數(shù)據(jù)的去噪、計算缺值數(shù)據(jù)的推導、數(shù)據(jù)類型的轉(zhuǎn)換,數(shù)據(jù)類型轉(zhuǎn)換舉個例子來說比如把連續(xù)型數(shù)據(jù)轉(zhuǎn)化成離散數(shù)據(jù),以方便進行符號的歸納.
1.2挖掘過程數(shù)據(jù)信息的挖掘階段是在上一步的基礎之上,即在目標數(shù)據(jù)已經(jīng)確定,并且已經(jīng)完成了初始化的基礎之上,需要確定數(shù)據(jù)挖掘的目的與挖掘的類型.在對挖掘任務的目標確定之后,要根據(jù)數(shù)據(jù)挖掘的知識類型選取合適的數(shù)據(jù)挖掘方法,最終完成數(shù)據(jù)挖掘具體操作即采用特定的數(shù)據(jù)挖掘方法從數(shù)據(jù)倉庫中抽取所需的挖掘目標.
1.3挖掘結(jié)果的解釋和評價數(shù)據(jù)挖掘的結(jié)果的解釋和評價是在完成數(shù)據(jù)挖掘階段之后對發(fā)現(xiàn)的知識,進行評估,對于冗余或者無關的知識要進行刪除;對于獲得的知識不符合用戶的要求的要進行重新的挖掘.與此同時,因為數(shù)據(jù)挖掘需要面臨用戶,所以,在得到目標知識以后還需要對所挖掘的知識附加相關解釋,來用一種便于用戶理解的方式供用戶使用.綜上所述,整個數(shù)據(jù)信息的挖掘在實際情況下是一個不斷地循環(huán)與反復的過程,所以要對所挖掘出來的知識不斷求精和深化,最終要獲得用戶所需要的結(jié)果.
2電子商務中數(shù)據(jù)挖掘的特點
由于電子商務自身的某些獨特的特點,同其他的應用于普通商業(yè)領域中的數(shù)據(jù)挖掘相比,應用于電子商務的數(shù)據(jù)挖掘具有如下幾個特點:(1)應用于電子商務的數(shù)據(jù)挖掘的最終目的主要表現(xiàn)在企業(yè)與客戶之間的關系管理方面,電子商務利用因特網(wǎng)的技術能夠使企業(yè)和客戶之間的關系處理變得更加方便.所以,其主要的功能是怎樣使企業(yè)采用這些頻繁的交流信息,快速的掌握客戶的趨向、改善與客戶交流情況或者獲取交流方向等;(2)電子商務本身就是一個信息化程度比較高的系統(tǒng),其自身累積的數(shù)據(jù)信息會存放在電子商務數(shù)據(jù)庫內(nèi),用戶可以比較便捷地得到這些信息,所以對于電子商務的數(shù)據(jù)挖掘的數(shù)據(jù)信息的準備階段的相關工作就變得相對容易;(3)電子商務領域的數(shù)據(jù)挖掘的主要目標一般是使電子商務系統(tǒng)得到有效的改進.例如為客戶提供個性化頁面、把用戶比較感興趣的信息展現(xiàn)在網(wǎng)站首頁或得到哪一些商品比較受到客戶的歡迎等.
3電子商務中的數(shù)據(jù)挖掘運用
首先要講的是關聯(lián)規(guī)則在電子商務中的運用,利用比較通俗的語言來講,從一個事件的發(fā)生與否方面進行解釋,所謂的關聯(lián)規(guī)則法在大量的事件發(fā)生或者不發(fā)生的條件下,對這些事件中的任意兩個或者多個事件提取出來,通過一定的統(tǒng)計分析算法,最終確定兩個或者多個事件的發(fā)生與否是否存在著某種關系,而這種可能存在的管理,我們稱之為關聯(lián)規(guī)則.列舉一個有趣的故事,就是在一個超市里面,店家把小孩的尿布同啤酒放到了一起,來供購買者進行購買,結(jié)果是二者的銷量都提升了一倍,其實這就是因為二者之間有著某種潛在聯(lián)系,店家通過數(shù)據(jù)挖掘的方法發(fā)現(xiàn)的這個規(guī)則,并對這一關聯(lián)規(guī)則進行了實際的運用,從中得到了益處.同樣在電子商務中通過數(shù)據(jù)挖掘得到關聯(lián)規(guī)則,有著類似的意義.其次在電子商務中數(shù)據(jù)挖掘聚類分析方法的應用.在大量數(shù)據(jù)倉庫中,數(shù)據(jù)與數(shù)據(jù)之間,往往會有某些性質(zhì)的類型相似,同樣也會有某些性質(zhì)或者特點相異,我們把這些性質(zhì)或者特點稱為觀察指標,聚類分析就是對于某一個特點指標而言,把指標相差不多的數(shù)據(jù)劃分為同一個類型,若相差較大則要劃分為不同的類型、這種操作的主要意義就是將具有某種特定的相似特性的客戶或者數(shù)據(jù)分成一個類.在電子商務活動中,這一方法的應用主要集中在市場細分的工作之中.分類分析系統(tǒng)的建立以生物的遺傳算法為基礎,屬于其中的自學習的一種,它一般會包含三個子系統(tǒng),第一個是以串規(guī)則為基礎的并行生成子系統(tǒng)、第二個是規(guī)則評價子系統(tǒng).第三個是遺傳算法子系統(tǒng).分類分析可以說是電子商務中運用到數(shù)據(jù)挖掘最多的一種挖掘方式.主要原因就是在于其能夠形成一種預測模型能夠?qū)σ恍I銷方式或者其他的一些商業(yè)措施做出正確的預測.
4數(shù)據(jù)挖掘在電子商務中的應用
更高效的利用企業(yè)現(xiàn)有資源以及開發(fā)新資源是當代企業(yè)發(fā)展的關鍵.電子商務通過采用數(shù)據(jù)挖掘的技術,能夠更加及時和正確的獲得企業(yè)當前所有資源的具體使用情況,而且通過數(shù)據(jù)挖掘的技術可以分析以往的各種企業(yè)數(shù)據(jù),比如說企業(yè)財務數(shù)據(jù)、企業(yè)庫存數(shù)據(jù)或者企業(yè)交易數(shù)據(jù),能夠較為及時的發(fā)現(xiàn)企業(yè)資源過度消耗的主要問題所在,或者能夠得到各種商務活動的投入與產(chǎn)出的比例,來為企業(yè)領導進行經(jīng)營決策提供有力的根據(jù)[6].另外在企業(yè)的經(jīng)營過程中,人們不斷推崇“以客戶為中心”的經(jīng)營理念,在這一趨勢下,如何正確快速的分析和了解客戶的需求已成為企業(yè)提高自身市場競爭力的一大課題.通過把數(shù)據(jù)挖掘應用到電子商務之中,能夠使企業(yè)最準確的分析客戶資源并最有效的利用企業(yè)客戶資源,通過對已有客戶行為進行相關性分析,可以形成潛在客戶資源的預測模型.除此之外在企業(yè)經(jīng)營過程中,利用數(shù)據(jù)挖掘可以解決另外一個嚴重影響了商業(yè)正常秩序的重要問題.即當前時區(qū)商務活動中的地下的信用狀況問題,這一問題的嚴重程度已經(jīng)引起了人們的廣泛關注.在電子商務經(jīng)營過程中,因為網(wǎng)上詐騙公司或者企業(yè)財務的現(xiàn)象屢見不鮮,信用危機已經(jīng)成為影響其快速正常發(fā)展的一個重要因素.而通過在電子商務中采用數(shù)據(jù)挖掘技術實現(xiàn)對企業(yè)經(jīng)營活動的跟蹤,在此基礎上實現(xiàn)企業(yè)的資產(chǎn)評估、利潤收益分析以及發(fā)展?jié)摿︻A測分析等,為電子商務在經(jīng)營過程中提供了完善的安全保障體系,同時利用數(shù)據(jù)挖掘?qū)崿F(xiàn)企業(yè)網(wǎng)上全程監(jiān)控.另外通過實現(xiàn)基于數(shù)據(jù)挖掘的信用評估模型,可以在很大程度上進行防范或者化解信用風險,從而提高企業(yè)的信用度以及應對風險能力.
5結(jié)束語
1.1數(shù)據(jù)挖掘技術概述
發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識應當能夠被接受、理解和運用。也就是發(fā)現(xiàn)全部相對的知識,是具有特定前提與條件,面向既定領域的,同時還容易被用戶接受。數(shù)據(jù)挖掘?qū)儆谝环N新型的商業(yè)信息處理技術,其特點為抽取、轉(zhuǎn)化、分析商業(yè)數(shù)據(jù)庫中的大規(guī)模業(yè)務數(shù)據(jù),從中獲得有價值的商業(yè)數(shù)據(jù)。簡單來說,其實數(shù)據(jù)挖掘是一種對數(shù)據(jù)進行深入分析的方法。因此,可以描述數(shù)據(jù)挖掘為:根據(jù)企業(yè)設定的工作目標,探索與分析企業(yè)大量數(shù)據(jù),充分揭示隱藏的、未知的規(guī)律性,并且將其轉(zhuǎn)變?yōu)榭茖W的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的最常見知識包括:
1.1.1廣義知識體現(xiàn)相同事物共同性質(zhì)的知識,是指類別特點的概括描述知識。按照數(shù)據(jù)的微觀特點對其表征的、具有普遍性的、極高概念層次的知識積極發(fā)現(xiàn),是對數(shù)據(jù)的高度精煉與抽象。發(fā)現(xiàn)廣義知識的方法與技術有很多,例如數(shù)據(jù)立方體和歸約等。
1.1.2關聯(lián)知識體現(xiàn)一個事件與其他事件之間形成的關聯(lián)知識。假如兩項或者更多項之間形成關聯(lián),則其中一項的屬性數(shù)值就能夠借助其他屬性數(shù)值實行預測。
1.1.3分類知識體現(xiàn)相同事物共同特點的屬性知識與不同事物之間差異特點知識。
1.2數(shù)據(jù)挖掘過程
1.2.1明確業(yè)務對象對業(yè)務問題清楚定義,了解數(shù)據(jù)挖掘的第一步是數(shù)據(jù)挖掘目的。挖掘結(jié)果是無法預測的,但是研究的問題是可預見的,僅為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘一般會體現(xiàn)出盲目性,通常也不會獲得成功?;谟脩籼卣鞯碾娮由虅諗?shù)據(jù)挖掘研究劉芬(惠州商貿(mào)旅游高級職業(yè)技術學校,廣東惠州516025)摘要:隨著互聯(lián)網(wǎng)的出現(xiàn),全球范圍內(nèi)電子商務正在迅速普及與發(fā)展,在這樣的環(huán)境下,電子商務數(shù)據(jù)挖掘技術應運而生。電子商務數(shù)據(jù)挖掘技術是近幾年來數(shù)據(jù)挖掘領域中的研究熱點,基于用戶特征的電子商務數(shù)據(jù)挖掘技術研究將會解決大量現(xiàn)實問題,為企業(yè)確定目標市場、完善決策、獲得最大競爭優(yōu)勢,其應用前景廣闊,促使電子商務企業(yè)更具有競爭力。主要分析了電子商務內(nèi)容、數(shù)據(jù)挖掘技術和過程、用戶細分理論,以及基于用戶特征的電子商務數(shù)據(jù)挖掘。
1.2.2數(shù)據(jù)準備第一選擇數(shù)據(jù):是按照用戶的挖掘目標,對全部業(yè)務內(nèi)外部數(shù)據(jù)信息積極搜索,從數(shù)據(jù)源中獲取和挖掘有關數(shù)據(jù)。第二預處理數(shù)據(jù):加工選取的數(shù)據(jù),具體對數(shù)據(jù)的完整性和一致性積極檢查,并且處理數(shù)據(jù)中的噪音,找出計算機丟失的數(shù)據(jù),清除重復記錄,轉(zhuǎn)化數(shù)據(jù)類型等。假如數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的對象,則在產(chǎn)生數(shù)據(jù)庫過程中已經(jīng)形成了數(shù)據(jù)預處理。
1.2.3變換數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)為一個分析模型。這一分析模型是相對于挖掘算法構(gòu)建的。構(gòu)建一個與挖掘算法適合的分析模型是數(shù)據(jù)挖掘獲得成功的重點??梢岳猛队皵?shù)據(jù)庫的相關操作對數(shù)據(jù)維度有效降低,進一步減少數(shù)據(jù)挖掘過程中數(shù)據(jù)量,提升挖掘算法效率。
1.2.4挖掘數(shù)據(jù)挖掘獲得的經(jīng)濟轉(zhuǎn)化的數(shù)據(jù)。除了對選擇科學挖掘算法積極完善之外,其余全部工作都自行完成。整體挖掘過程都是相互的,也就是用戶對某些挖掘參數(shù)能夠積極控制。
1.2.5評價挖掘結(jié)果這個過程劃分為兩個步驟:表達結(jié)果和評價結(jié)果。第一表達結(jié)果:用戶能夠理解數(shù)據(jù)挖掘得到的模式,可以通過可視化數(shù)據(jù)促使用戶對挖掘結(jié)果積極理解。第二評價結(jié)果:用戶與機器對數(shù)據(jù)挖掘獲得的模式有效評價,對冗余或者無關的模式及時刪除。假如用戶不滿意挖掘模式,可以重新挑選數(shù)據(jù)和挖掘算法對挖掘過程科學執(zhí)行,直到獲得用戶滿意為止。
2用戶細分理論
用戶細分是指按照不同用戶的屬性劃分用戶集合。目前學術界和企業(yè)界一般接受的是基于用戶價值的細分理論,其不僅包含了用戶為企業(yè)貢獻歷史利潤,還包含未來利潤,也就是在未來用戶為企業(yè)可能帶來的利潤總和。基于用戶價值的細分理論選擇客戶當前價值與客戶潛在價值兩個因素評價用戶。用戶當前價值是指截止到目前用戶對企業(yè)貢獻的總體價值;用戶潛在價值是指未來用戶可能為企業(yè)創(chuàng)造的價值總和。每個因素還能夠劃分為兩個高低檔次,進一步產(chǎn)生一個二維的矩陣,把用戶劃分為4組,價值用戶、次價值用戶、潛在價值用戶、低價值用戶。企業(yè)在推廣過程中根據(jù)不同用戶應當形成對應的方法,投入不同的資源。很明顯對于企業(yè)來說價值用戶最重要,被認為是企業(yè)的玉質(zhì)用戶;其次是次價值用戶,被認為是金質(zhì)用戶,雖然數(shù)量有限,卻為企業(yè)創(chuàng)造了絕大部分的利潤;其他則是低價值用戶,對企業(yè)來說價值最小,成為鉛質(zhì)用戶,另外一類則是潛在價值用戶。雖然這兩類用戶擁有較多的數(shù)量,但是為企業(yè)創(chuàng)造的價值有限,甚至很小。需要我們注意的是潛在價值用戶利用再造用戶關系,將來極有可能變成價值用戶。從長期分析,潛在價值用戶可以是企業(yè)的隱形財富,是企業(yè)獲得利潤的基礎。將采用數(shù)據(jù)挖掘方法對這4類用戶特點有效挖掘。
3電子商務數(shù)據(jù)挖掘分析
3.1設計問卷
研究的關鍵是電子商務用戶特征的數(shù)據(jù)挖掘,具體包含了價值用戶特征、次價值用戶特征、潛在價值用戶特征,對電子商務用戶的認知度、用戶的需求度分析。問卷內(nèi)容包括3部分:其一是為被調(diào)查者介紹電子商務的概念與背景;其二是具體調(diào)查被調(diào)查對象的個人信息,包含了性別、年齡、學歷、感情情況、職業(yè)、工作、生活地點、收入、上網(wǎng)購物經(jīng)歷;其三是問卷主要部分,是對用戶對電子商務的了解、需求、使用情況的指標設計。
3.2調(diào)查方式
本次調(diào)查的問卷主體是電腦上網(wǎng)的人群,采用隨機抽象的方式進行網(wǎng)上訪問。一方面采用大眾聊天工具,利用電子郵件和留言的方式發(fā)放問卷,另一方面在大眾論壇上邀請其填寫問卷。
3.3數(shù)據(jù)挖掘和結(jié)果
(1)選擇數(shù)據(jù)挖掘的算法利用Clementine數(shù)據(jù)挖掘軟件,采用C5.O算法挖掘預處理之后數(shù)據(jù)。
(2)用戶數(shù)據(jù)分析
1)電子商務用戶認知度分析按照調(diào)查問卷的問題“您知道電子商務嗎?”得到對電子商務用戶認知情況的統(tǒng)計,十分了解20.4%,了解30.1%,聽過但不了解具體使用方法40.3%,從未聽過8.9%。很多人僅聽過電子商務,但是并不清楚具體的功能與應用方法,甚至有一小部分人沒有聽過電子商務。對調(diào)查問卷問題“您聽過電子商務的渠道是什么?”,大部分用戶是利用網(wǎng)了解電子商務的,占40.2%;僅有76人是利用紙質(zhì)報刊雜志上知道電子商務的并且對其進行應用;這也表明相較于網(wǎng)絡宣傳紙質(zhì)媒體推廣電子商務的方法缺乏有效性。
2)電子商務用戶需求用戶希求具體是指使用產(chǎn)品服務人員對應用產(chǎn)品或服務形成的需求或者期望。按照問題“假如你曾經(jīng)使用電子商務,你覺得其用途怎樣,假如沒有使用過,你覺得其對自己有用嗎?”得到了認為需要和十分需要的數(shù)據(jù),覺得電子商務有用的用戶為40.7%,不清楚是否對自己有用的用戶為56.7%,認為不需要的僅有2.4%。
3)電子商務用戶應用意愿應用意愿是指消費者對某一產(chǎn)品服務進行應用或者購買的一種心理欲望。按照問題“假如可以滿足你所關心的因素,未來你會繼續(xù)應用電子商務嗎?”獲得的數(shù)據(jù)可知,在滿足各種因素時,將來一年之內(nèi)會應用電子商務的用戶為78.2%,一定不會應用電子商務的用戶為1.4%。表明用戶形成了較為強烈的應用電子商務欲望,電子商務發(fā)展前景很好?;谟脩籼卣鞯碾娮由虅諗?shù)據(jù)研究,電子商務企業(yè)通過這一結(jié)果能夠更好地實行營銷和推廣,對潛在用戶積極定位,提高用戶體驗,積極挖掘用戶價值。分析為企業(yè)準確營銷和推廣企業(yè)提供了一個有效的借鑒。
4結(jié)語
1.1數(shù)據(jù)挖掘產(chǎn)生的背景
進入新時代后,計算機技術取得了巨大的成就,人們獲取信息和儲存數(shù)據(jù)的方式更加快捷和便利。所需要搜集的數(shù)據(jù)日漸增多,由此一來,使得數(shù)據(jù)和信息量以幾何倍數(shù)增長,各式各樣的信息,難以進行統(tǒng)一;真假信息混為一體,且信息安全無法保證。而如何有效的利用這大量數(shù)據(jù)背后隱藏的重要信息,是人們關注的焦點,隨著計算機數(shù)據(jù)挖掘技術的發(fā)展這些問題都迎面而解。
1.2數(shù)據(jù)挖掘的發(fā)展過程
此過程分為5個階段,第一,業(yè)務理解,業(yè)務理解指的是站在業(yè)務的角度去理解項目的最終目標和需求,它是將項目的目標和需求轉(zhuǎn)化為一個問題的定義,再制定一個初步計劃來主義實現(xiàn)這些目標。第二,數(shù)據(jù)理解,指的是全面調(diào)查數(shù)據(jù)挖掘所需要的數(shù)據(jù),并收集再熟悉,鑒別數(shù)據(jù)的質(zhì)量問題,產(chǎn)生對數(shù)據(jù)的洞察力,形成對數(shù)據(jù)中隱藏內(nèi)容的假象。第三,數(shù)據(jù)準備,數(shù)據(jù)準備階段包括,數(shù)據(jù)清洗、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換等。第四,建立模型。在此階段,對于不同的建模技術進行選擇和應用,并且認真校對他們的參數(shù)直到達到最優(yōu)值為止。最后就是實施,由相關人員進行實施操作。數(shù)據(jù)挖掘融合了多個學科,包含數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學、機器學習、可視化、算法等等。
2數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取或“挖掘”知識的過程。就針對功能這方面,可以完成以下五種功能:
2.1分類
將收集到的數(shù)據(jù),根據(jù)它們的屬性進行分類定義,并建立組別。
2.2推算估計
根據(jù)估計對象的變量相關的其他變量,并利用已有的數(shù)據(jù)來推算它的未來值。
2.3預測
根據(jù)對象的特點,推算估計它的過去觀察值,來預測它的未來值。
2.4關聯(lián)分析
把所有的相關對象根據(jù)某種特點分為與之相關的類,再將它們放一起。
2.5聚類分析
將不同成分組成的總體分割成若干個其性質(zhì)相同的群。
3網(wǎng)絡優(yōu)化的概述
3.1網(wǎng)絡優(yōu)化定義
網(wǎng)絡優(yōu)化指的是利用各種硬軟件技術來達到網(wǎng)絡性能最優(yōu)平衡點的目的。而硬件方面是指對系統(tǒng)進行合理分析后,其中在性能和價格方面給出最優(yōu)解。另外,軟件方面指的是為取得最高性能負載對其進行參數(shù)的設置。網(wǎng)絡優(yōu)化也等同于SEO。
3.2網(wǎng)絡優(yōu)化的目標
其目標分為兩部分,其一,針對網(wǎng)絡運行當中存在的問題,包括信號不好、語音質(zhì)量差、網(wǎng)絡擁堵、數(shù)據(jù)業(yè)務方面性能差等,網(wǎng)絡優(yōu)化都能很好的解決,使之網(wǎng)絡處于最佳運行狀態(tài);其二,為適應社會的要求和發(fā)展的需要,有效的優(yōu)化資源配置,來使網(wǎng)絡資源得到合理的調(diào)配和運用,從而發(fā)揮設備的最大潛能,實現(xiàn)投資效益的最大化。移動通信網(wǎng)始終處于一個變化的狀態(tài),各種各樣的因素都會影響到當前的性能運行狀態(tài)未達到最初的設計要求。所以需要網(wǎng)絡優(yōu)化來對其進行不間斷調(diào)整以便適應各種變化。由此可見,網(wǎng)絡優(yōu)化并非一項短期的工程,而是需要在摸索中積累經(jīng)驗,才能解決各種各樣的網(wǎng)絡問題。
3.3網(wǎng)絡優(yōu)化的意義
在原有網(wǎng)絡的基礎上,不再擴大規(guī)模及投資的前提下,可使網(wǎng)絡的投資效益顯著提高,以及網(wǎng)絡運行的質(zhì)量、服務質(zhì)量、網(wǎng)絡的容量均有一定程度的提高,這些都是網(wǎng)絡優(yōu)化存在的意義。
4數(shù)據(jù)挖掘在網(wǎng)絡優(yōu)化中的應用
4.1數(shù)據(jù)挖掘在站點選擇中的應用
移動通信網(wǎng)絡運營商首先會對不同技術體系的鏈路進行預算工作,計算出不同地區(qū)各個站點的覆蓋半徑,從而得出所要設置的站點個數(shù)。其次,由工程師通過專業(yè)的分析選擇有利的站點,因為站點位置的選擇決定著網(wǎng)絡的質(zhì)量。如果沒有數(shù)據(jù)挖掘技術,那么在選擇站點個數(shù)及位置的時候,僅僅取決于人為因素。但是如果我們將數(shù)據(jù)挖掘應用到站點選擇當中,這樣得出多種更加有效的方案,大大的減少人力、物力和財力。
4.2數(shù)據(jù)挖掘在話務預測中的應用
1.1數(shù)據(jù)準備數(shù)據(jù)準備過程有三個主要步驟,分別是數(shù)據(jù)選取、數(shù)據(jù)預處理以及數(shù)據(jù)變換。不管是哪一個行業(yè)的檢測系統(tǒng),其所檢測得到的數(shù)據(jù)都具有多樣性與復雜性以及海量行的特點,正是這些造成人們分析數(shù)據(jù)的困難。所以想要解決問題,首先就要先確定挖掘目標,這樣在檢測數(shù)據(jù)庫與歷史數(shù)據(jù)庫中才能夠獲得相對應的數(shù)據(jù),并且進行預處理與變化和歸化等。不過如果挖掘出來的數(shù)據(jù)質(zhì)量不高會影響最終結(jié)果,所以提高挖掘質(zhì)量,就要花費大量時間與精力去進行,大部分這個挖掘過程需要耗費整個過程的百分之八十以上。
1.2數(shù)據(jù)挖掘這個過程是不斷反復與重復的過程,在這個過程中可以不斷發(fā)現(xiàn)一些潛藏的知識與信息,可以利用決策樹或者規(guī)則學習等多種方法來進行分析統(tǒng)計。
1.3結(jié)果分析和評估在不斷檢測數(shù)據(jù)的情況下,得到的數(shù)據(jù)也在不斷發(fā)生變化,大量數(shù)據(jù)下需要不斷的分析與建模,這樣才能不斷發(fā)現(xiàn)新設備的運行過程與故障,從而保證在較短時間內(nèi)獲得故障診斷結(jié)果。
2數(shù)據(jù)挖掘的常用技術
數(shù)據(jù)挖掘技術算法的好快直接影響到所發(fā)現(xiàn)信息質(zhì)量的好壞,目前對該技術的研究方向也集中在算法與應用方面,常用的技術主要有以下幾點:
2.1粗糙集理論這項研究數(shù)據(jù)的不確定性的數(shù)學工具由波蘭科學家第一次提出,并且在經(jīng)過二十年的不斷發(fā)展中已經(jīng)廣泛應用到人工智能的各分支中,不管是在模式識別還是機械學習等方面都帶來了成功。成功應用主要還在于存在的幾點優(yōu)點:其一該理論不用事先給出額外信息,可以減掉冗余信息的輸入,減輕數(shù)據(jù)的復雜度與輸入時間。其二算法簡單,更方便人們操作。雖然優(yōu)點明顯,但是缺點也存在,在對實際發(fā)生問題的處理過程中,抗干擾的能力十分差,有可能會直接影響故障分類。
2.2決策樹技術決策樹算法是一種外形像樹的預測模型結(jié)構(gòu),樹的節(jié)點表述所屬類別,非終端節(jié)點表示問題屬性。根據(jù)數(shù)據(jù)不同取值來進行分類,建立樹的分叉,從而形成決策樹。決策樹的規(guī)則是可直觀容易理解的,這一點是與神經(jīng)元網(wǎng)絡存在的最大不同點,由于算法直觀所以分類不需要很多時間,所以十分適用于記錄故障分類和分析預測。
2.3人工神經(jīng)元網(wǎng)絡技術這是目前數(shù)據(jù)挖掘技術使用最多也是最廣泛的一項技術,該項技術主要是模仿人的神經(jīng)系統(tǒng)來建立數(shù)據(jù)庫的,從而分析數(shù)據(jù)庫中的數(shù)據(jù)并進行預測與分類。與上述技術不同的是,神經(jīng)元網(wǎng)絡技術在機械故障十分復雜的情況下還能夠得到較為準確的預測技術,因此可以處理一些連續(xù)變量的問題,但對于高維變量數(shù)據(jù)則不適合,主要原因在于其最大的特點是不透明性,不能夠就是分析結(jié)果是怎樣產(chǎn)生的,以及產(chǎn)生結(jié)果的推算過程,所以神經(jīng)元網(wǎng)絡技術比較適合于較為復雜數(shù)據(jù)的分析,比如聚類模式。典型三層前饋神經(jīng)網(wǎng)絡結(jié)構(gòu)如圖1所示。
2.4遺傳算法這種算法來自于生物進化理論,其使用的適者生存觀點,也救贖常把一些任務看成一項可以搜索的問題,進行遺傳算法搜索,從而得到最優(yōu)解。遺傳算法可以解決很多數(shù)據(jù)類型的問題,還能夠同時處理不同類型的數(shù)據(jù),但計算的時候由于使用的參數(shù)過多,不少編碼問題十分困難,計算量也十分大。
3數(shù)據(jù)挖掘技術在工業(yè)優(yōu)化中的應用
工業(yè)優(yōu)化也分類型,根據(jù)不同的優(yōu)化類型的不同要求,要采取不同的挖掘技術來實現(xiàn)找出問題解決的辦法。一些需要解決的優(yōu)化目標比較容易獲得評價或者說需要優(yōu)化的問題是比較容易表達的這些情況下,通常使用遺傳算法進行全局搜索,這樣比較方便。比如工業(yè)配方、工藝工序組成等。粗糙集方法可以用于需要學習目標值與其相關變量間的定量關系,利用技術來挖掘數(shù)據(jù)庫中的目標數(shù)據(jù)間的關聯(lián)規(guī)律,當然也可以利用神經(jīng)網(wǎng)絡技術來找尋目標值與數(shù)據(jù)間的模糊關系。想要確定優(yōu)化目標邊界,可以采用隧道映射方法。通過假定各變量目標需要優(yōu)化的邊界在二維空間中體現(xiàn)出來的是一個凸出來的多面體來包圍顯示的。定量預測的一個十分好的方法就是非線性回歸預測,可以先利用模式識別方法來收集數(shù)據(jù),建立數(shù)據(jù)結(jié)構(gòu),再根據(jù)相關數(shù)據(jù)確定非線性回歸的方程式,最后再進行非線性回歸,不過這樣做會存在一個明顯缺點就是要在進行非線性回歸預測之前要主觀確定方式公式。向外推廣尋找更優(yōu)化的方式在工業(yè)應用上更為有效,可以采用多種方法配合使用,形成一種比較適用于各種數(shù)據(jù)結(jié)構(gòu)外推尋優(yōu)的數(shù)據(jù)處理過程。
4數(shù)據(jù)挖掘技術在設備故障診斷中的實現(xiàn)步驟
4.1基本原理數(shù)據(jù)挖掘技術主要是利用歷史數(shù)據(jù)里的設備運行記錄來對現(xiàn)在機械設備出現(xiàn)故障的原因進行診斷,分析其原因并找出解決方法,并對未來可能出現(xiàn)的故障做出預測。機械設備故障的根本性質(zhì)就是模式識別,所以對其診斷的過程也就是模式獲得并匹配的過程。
4.2故障診斷的數(shù)據(jù)挖掘方法建模對機械設備故障診斷,首先要做的就是要收集與本設備相關的大量數(shù)據(jù),不僅要有機械正常運行工作時的數(shù)據(jù),更要有機械出現(xiàn)問題時產(chǎn)生的數(shù)據(jù),一般現(xiàn)場的監(jiān)控系統(tǒng)都存有歷史數(shù)據(jù)與故障數(shù)據(jù),而且現(xiàn)在的檢測系統(tǒng)十分先進,出現(xiàn)故障的時候已經(jīng)對此進行分類,這樣數(shù)據(jù)收集的時候更加方便。進一步完成各項數(shù)據(jù)的獲取并建立完整的數(shù)據(jù)庫。而數(shù)據(jù)挖掘技術的目標就是要從這些雜亂無章的大量數(shù)據(jù)中找出潛藏在里面的相關規(guī)律與信息,并且提取信息特征。一般故障類型的劃分,可以根據(jù)概率統(tǒng)計來進行,這也是現(xiàn)在剛出現(xiàn)的一種新方法。目前故障模式識別理論中比較成熟的理論是關聯(lián)規(guī)則理論,這是一種利用數(shù)據(jù)間相互關聯(lián)關系來達到分類的最終目的。根據(jù)相關之間的關聯(lián)關系劃分出類別,并對新數(shù)據(jù)進行歸納,分析故障類別,這樣更快速的找到故障原因并進行解決。數(shù)據(jù)挖掘系統(tǒng)總體設計策略如圖2所示。
5結(jié)束語
數(shù)據(jù)挖掘技術是當前數(shù)據(jù)分析和處理領域一項十分重要的技術,具體而言數(shù)據(jù)挖掘技術可以看成是信息技術不斷發(fā)展和演進的結(jié)果,是在人們對于數(shù)據(jù)庫技術不斷發(fā)展和創(chuàng)新的基礎上發(fā)展而來的。在初期階段,商業(yè)數(shù)據(jù)往往只是簡單的進行存儲,然后有了對相關數(shù)據(jù)的查詢功能,再繼續(xù)發(fā)展為對相關數(shù)據(jù)的即時遍歷。數(shù)據(jù)挖掘技術使得數(shù)據(jù)查詢已經(jīng)不僅僅局限于數(shù)據(jù)本身,同時還可以通過相關的算法和技術發(fā)現(xiàn)數(shù)據(jù)之間潛在的關聯(lián)性,從而在很大程度上增加了數(shù)據(jù)利用的深度和層次。隨著當前大數(shù)據(jù)時代的到來以及高性能計算機和數(shù)據(jù)挖掘算法的成熟,數(shù)據(jù)挖掘技術開始在商業(yè)領域進行應用,并且取得了快速的發(fā)展。在目前的醫(yī)院信息管理系統(tǒng)中已經(jīng)積累了大量的數(shù)據(jù)信息,因此如何實現(xiàn)對這一部分信息的深層次數(shù)據(jù)挖掘是至關重要的,這也將直接決定著醫(yī)院將來的發(fā)展和命運。在醫(yī)院信息管理系統(tǒng)中應用數(shù)據(jù)挖掘技術可以在更深層次上對醫(yī)院的管理數(shù)據(jù)進行分析,從而可以為醫(yī)院從業(yè)人員的相關決策、管理以及研究提供更加有力的技術支持。因此數(shù)據(jù)挖掘技術在醫(yī)院信息管理系統(tǒng)中的應用具有十分重要的意義。在目前的數(shù)據(jù)挖掘技術中,其關鍵技術是數(shù)據(jù)的預處理。當需要進行分析的數(shù)據(jù)庫包含大量的噪聲或者存在數(shù)據(jù)不一致性時,數(shù)據(jù)預處理就顯得更加有必要。根據(jù)對相關數(shù)據(jù)挖掘過程的統(tǒng)計顯示,超過一半的時間用于進行數(shù)據(jù)預處理,而真正用于數(shù)據(jù)信息挖掘的時間則僅占到10%左右。目前的數(shù)據(jù)預處理技術主要分析對數(shù)據(jù)的清洗、集成、轉(zhuǎn)換以及消減等。另一關鍵技術是匿名化以及轉(zhuǎn)換技術,這主要是由于在目前的醫(yī)院信息管理中涉及到病人的隱私問題,因此在進行數(shù)據(jù)處理的同時需要對患者的相關記錄進行匿名化處理,以更好的保護患者的個人隱私。
2基于數(shù)據(jù)挖掘技術的醫(yī)院信息管理系統(tǒng)
2.1基于數(shù)據(jù)挖掘技術的醫(yī)院信息管理系統(tǒng)
關聯(lián)規(guī)則是目前進行數(shù)據(jù)挖掘的重要手段,在醫(yī)院信息管理系統(tǒng)中引入關聯(lián)規(guī)則可以進一步發(fā)現(xiàn)數(shù)據(jù)之間的相互關聯(lián),并且在對病人的相關數(shù)據(jù)的分析和進一步挖掘過程中,嘗試分析患者年齡與醫(yī)療費用之間潛在的關聯(lián),并且進一步通過這種關聯(lián)關系加強對醫(yī)院資源的合理優(yōu)化配置,實現(xiàn)對不同年齡段患者的醫(yī)療費用的有效控制,進而實現(xiàn)醫(yī)院效益的最大化。具體而言,將關聯(lián)數(shù)據(jù)集合記為D{=t1,t2,...tn},tk={i1,i2,im..ip},tk為數(shù)據(jù)庫中的事務,im為數(shù)據(jù)庫中的項。在數(shù)據(jù)集合D中,其包含的集X的項數(shù)為集的支持數(shù),將其記為σx,支持度為suppor(tX),則有suppor(tX)=σx/|D|×100%。假設X和Y為數(shù)據(jù)庫集合D中的項集,則有:假如XY,則有X項的支持度大于Y項的支持度,同時假如X是非頻繁項,則此時Y項也是非頻繁;則假如Y項是頻繁的,則X項也是頻繁的。在數(shù)據(jù)挖掘的關聯(lián)規(guī)則中有兩個至關重要的概念,即支持度與置信度。通常而言,支持度只要用于衡量采用的關聯(lián)規(guī)則的可信度,而置信度則用于表示在生成數(shù)據(jù)集中關聯(lián)規(guī)則的統(tǒng)計角色。在實際的應用過程中,假如support(XY)大于支持集,并且置信度大于最小置信度,此時XY可以稱之為強規(guī)則,否則將其稱之為弱規(guī)則。在數(shù)據(jù)挖掘的過程中,尋找強規(guī)則是整個數(shù)據(jù)挖掘過程的關鍵。在強規(guī)則XY所對應的項集中,必定存在著頻集?;陉P聯(lián)規(guī)則的數(shù)據(jù)挖掘模型如圖1所示,其中主要包括數(shù)據(jù)集D、關聯(lián)規(guī)則搜索算法、數(shù)據(jù)挖掘結(jié)果R以及用戶與數(shù)據(jù)挖掘之間的交互,對相關的數(shù)據(jù)挖掘結(jié)果信息結(jié)果進行合理的評價。在實際的關聯(lián)規(guī)則數(shù)據(jù)挖掘過程中還需要考慮到以下兩個方面的問題:其一,盡量減少I/O操作的次數(shù),這主要是由于數(shù)據(jù)挖掘過程中的數(shù)據(jù)量是非常大的,因此頻繁的進行I/O操作將會對數(shù)據(jù)挖掘的效率產(chǎn)生很大的影響,其根本的方法就是減少對于數(shù)據(jù)庫集的掃描頻率和次數(shù);其二,避免候選集中項的數(shù)量過大,這主要是由于過多的項數(shù)將會使得存儲空間被大量占用,從而對數(shù)據(jù)挖掘的效率產(chǎn)生影響。
2.2基于數(shù)據(jù)挖掘技術的醫(yī)院信息管理系統(tǒng)的實現(xiàn)
數(shù)據(jù)準備階段。在研究過程中采用某醫(yī)院信息管理系統(tǒng)中的口腔潰瘍數(shù)據(jù)進行挖掘分析,其中數(shù)據(jù)準備階段主要包括集成、清洗以及轉(zhuǎn)換三個階段。具體而言,數(shù)據(jù)集成主要是將不同的患者數(shù)據(jù)表格及其費用數(shù)據(jù)整合到一起,并且對這些原始數(shù)據(jù)進行集成,將其集成到統(tǒng)一的數(shù)據(jù)表格中,其中主要包含患者的性別、年齡以及編號等信息。數(shù)據(jù)清洗指的是對原始數(shù)據(jù)進行進一步的處理,其目的是去除原始數(shù)據(jù)中的噪聲以及不相關信息、補充遺漏數(shù)據(jù)、去除白噪聲等,并且根據(jù)實際情況完成對原始數(shù)據(jù)的轉(zhuǎn)換。同時,由于醫(yī)院信息數(shù)據(jù)存在著其特殊性,醫(yī)院的數(shù)據(jù)往往產(chǎn)生于不同的場所,因此其產(chǎn)生的過程較為復雜,這就極易導致數(shù)據(jù)產(chǎn)生的過程中出現(xiàn)遺失或者出現(xiàn)數(shù)據(jù)錯誤的情況,因此數(shù)據(jù)清洗階段對于醫(yī)院數(shù)據(jù)挖掘工作是至關重要的,同時為了更好的保證數(shù)據(jù)清洗階段的準確性可以實行專業(yè)醫(yī)護人員監(jiān)督的模式,此種模式可以有效的降低數(shù)據(jù)清洗過程中的差錯。數(shù)據(jù)轉(zhuǎn)換是針對數(shù)據(jù)的不同特征對數(shù)據(jù)進行有效的轉(zhuǎn)換,其中主要的手段包括對數(shù)據(jù)的規(guī)格化處理、數(shù)據(jù)信息歸納、旋轉(zhuǎn)等。結(jié)合實際的醫(yī)院信息管理系統(tǒng)數(shù)據(jù)挖掘案例,可以對年齡數(shù)據(jù)信息進分段編號處理,以更好的提高數(shù)據(jù)挖掘的效率。同時,在數(shù)據(jù)轉(zhuǎn)換的過程中還可以將一些沒有意義的數(shù)據(jù)進行刪減,以更好的保證數(shù)據(jù)挖掘的效率,同時還可以降低數(shù)據(jù)挖掘的誤差。
3結(jié)束語
要了解Web數(shù)據(jù)挖掘技術,首先就必須要了解數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘是指從大量不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、有用的信息和知識的過程。它的表現(xiàn)形式為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式。數(shù)據(jù)挖掘技術是人們長期對數(shù)據(jù)庫技術進行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲在計算機的數(shù)據(jù)庫中的,然后發(fā)展到可對數(shù)據(jù)庫進行查詢和訪問,進而發(fā)展到對數(shù)據(jù)庫的即時遍歷。數(shù)據(jù)挖掘技術是人們長期對數(shù)據(jù)庫技術進行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲在計算機的數(shù)據(jù)庫中的,然后發(fā)展到可對數(shù)據(jù)庫進行查詢和訪問,進而發(fā)展到對數(shù)據(jù)庫的即時遍歷。Web數(shù)據(jù)挖掘是一種綜合的技術,它主要是使用數(shù)據(jù)挖掘技術在互聯(lián)網(wǎng)挖掘各種有用的、有趣的、隱藏起來的信息或者是有用的模式。與傳統(tǒng)的數(shù)據(jù)挖掘相比,Web數(shù)據(jù)挖掘所挖掘的信息更加的海量,這些信息具有異構(gòu)和分布廣的特點。對于服務器上的日志與用戶信息的挖掘仍然屬于傳統(tǒng)的數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘由于Web的邏輯結(jié)構(gòu)其所挖掘到的模式有可能是關于Web內(nèi)容的,也有可能是關于Web結(jié)構(gòu)的。同時有些數(shù)據(jù)挖掘技術也不能直接運用到Web數(shù)據(jù)挖掘中。Web數(shù)據(jù)挖掘的研究范圍十分廣泛,它的研究主要包括了數(shù)據(jù)庫技術、信息獲取技術、統(tǒng)計學、神經(jīng)網(wǎng)絡等。Web數(shù)據(jù)挖掘根據(jù)所處理的對象可以分為三類:Web文檔的內(nèi)容挖掘、Web文檔的結(jié)構(gòu)挖掘、Web使用的挖掘。Web文檔的內(nèi)容挖掘指的是從Web文檔及對其的描述內(nèi)容中獲取到有用的信息,即是對Web上大量的各種文檔集合的內(nèi)容進行處理,例如摘要、分類、聚類、關聯(lián)分析等。同時內(nèi)容挖掘還可以對各種多媒體信息進行挖掘。Web上的內(nèi)容摘要是用簡潔的語言和方式對文檔的內(nèi)容進行描述和解釋,讓用戶在不用瀏覽全文的情況下就可以對全文的內(nèi)容和文章寫作的目的有一個總體的了解。文章寫作的目的有一個總體的了解。而Web內(nèi)容挖掘的這種方式非常有用,例如應用到檢索結(jié)果的顯示中。Web分類則指的是根據(jù)已經(jīng)確定好的類別,為每一個獲得的Web文檔確定一個大類。聚類則是指的在沒有確定類別之前,將相似度高的文檔歸為一類。關聯(lián)分析指的是從文檔集合中找出不同語詞之間的具有的關系。Web文檔的結(jié)構(gòu)挖掘指的是從互聯(lián)網(wǎng)的整體結(jié)構(gòu)和網(wǎng)頁之間的相互鏈接以及網(wǎng)頁本身的結(jié)構(gòu)中獲取有用的信息和知識。目前為止針對結(jié)構(gòu)的挖掘主要還是鏈式結(jié)構(gòu)模式。對于Web結(jié)構(gòu)的挖掘主要源于對引文的分析,引文分析的主要內(nèi)容就是通過對網(wǎng)頁的鏈接數(shù)和被連接數(shù)以及對象的分析來建立一個鏈接結(jié)構(gòu)模式,這種模式可以用來對網(wǎng)頁進行歸類,同時還可以獲取網(wǎng)頁之間的相似度和關聯(lián)度等信息。Web使用的挖掘一般情況下指的是對Web日志的挖掘。其挖掘的對象是用戶與互聯(lián)網(wǎng)交互過程中所抽取出來的各種信息,例如訪問記錄、用戶名、用戶注冊信息以及用戶所進行的操作等。在這一方面的研究已經(jīng)比較成熟,同時也有很多較為成熟的產(chǎn)品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技術較為成熟的產(chǎn)品。
二、Web數(shù)據(jù)挖掘技術的工作流程
Web數(shù)據(jù)挖掘技術的主要工作流程可以分為以下幾個步驟:第一步,確立目標樣本,這一步是用戶選取目標文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標樣本的詞頻分布,從現(xiàn)有的統(tǒng)計詞典中獲取所要挖掘的目標的特征向量,并計算出其相應的權(quán)值;第三步,從網(wǎng)絡上獲取信息,這一步是利用通過搜索引擎站點選擇采集站點,然后通過Robot程序采集靜態(tài)的Web頁面,最后再獲取這些被訪問站點的網(wǎng)絡數(shù)據(jù)庫中的動態(tài)信息,然后生成WWW資源庫索引;第四步,進行信息特征匹配,通過提取源信息的特征向量,去和目標樣本的特征向量進行匹配,最后將符合閾值條件的信息返回個用戶。
三、Web數(shù)據(jù)挖掘技術在高校數(shù)字圖書館中的應用
高校數(shù)字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會議文獻等數(shù)字資源;圖書借閱、歸還等服務;圖書信息、管理制度;導航到圖書光盤、視頻資源等數(shù)據(jù)庫系統(tǒng)。師生時常登錄到網(wǎng)站中查找其需要的信息,根據(jù)師生所學專業(yè)、研究方向不同,關注目標也不同。通常這類師生會到常用的圖書館網(wǎng)站上,查找自己所需要的特定領域的資源;瀏覽一下有哪些內(nèi)容發(fā)生變化,是否有新知識增加,而且所有改變常常是用戶所關注的內(nèi)容;另外,當目標網(wǎng)頁所在的位置有所改變或這個網(wǎng)站的組織結(jié)構(gòu)、層次關系有所變動時,所有這些問題只要稍加改動,容易使用戶難以找到所需內(nèi)容。本課題采用Web挖掘技術與搜索技術相結(jié)合。首先允許用戶對感興趣的內(nèi)容進行定制,構(gòu)造數(shù)據(jù)挖掘的先驗知識,然后通過構(gòu)造瀏覽器插件,捕獲用戶在瀏覽器上的行為數(shù)據(jù),采用Web數(shù)據(jù)挖掘的方法,深入分析用戶的瀏覽行為數(shù)據(jù),獲得用戶的信息資料集,最終為用戶提供不同的個性化服務頁面,并提供用戶對站內(nèi)信息進行搜索功能,同時可以滿足師生對于圖書館資源進行查找訪問的需求,實現(xiàn)高校圖書館網(wǎng)站資源真正意義上的個性化服務。
1、為開發(fā)網(wǎng)絡信息資源提供了工具
數(shù)字圖書館需要的是一種可以有效的將信息進行組織管理,同時還能夠?qū)π畔⑦M行深層的加工管理,提供多層次的、智能化的信息服務和全方位的知識服務,提供經(jīng)過加工、分析綜合等處理的高附加值的信息產(chǎn)品和知識產(chǎn)品的工具。目前許多高校數(shù)字圖書館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對數(shù)據(jù)只能進行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對網(wǎng)絡信息資源的一種浪費。而通過Web數(shù)據(jù)挖掘技術科研有效的解決這一問題。這種技術可以用于挖掘文檔的隱含的有用的內(nèi)容,或者可以在其他工具搜索的基礎上進一步進行處理,得到更為有用和精確的信息。通過Web數(shù)據(jù)挖掘技術科研對數(shù)字圖書關注中的信息進行更加有效地整合。
2、為以用戶為中心的服務提供幫助
通過瀏覽器訪問數(shù)字圖書館后,可被記載下來的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業(yè)、年齡、愛好等。用戶名師用戶登錄圖書館時輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊時所填寫的,訪問記錄則是在用戶登錄時所記錄的,也是由程序獲得。對這些用戶信息進行分析可以更加有效的了解用戶的需求通過分析服務器中用戶請求失敗的數(shù)據(jù),結(jié)合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導對信息資源采集的改進,讓高校數(shù)字圖書館的信息資源體系建設的更加合理。對數(shù)字圖書館系統(tǒng)的在線調(diào)查、留言簿、薦書條等的數(shù)據(jù)進行收集整理,并使之轉(zhuǎn)化為標準的結(jié)構(gòu)化數(shù)據(jù)庫,然后在通過數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時還可以預先發(fā)現(xiàn)用戶群體興趣的變遷,調(diào)整館藏方向,提前做好信息資源的采集計劃。通過Web數(shù)據(jù)挖掘,可以對用戶的信息需求和行為規(guī)律進行總結(jié),從而為優(yōu)化網(wǎng)絡站點的結(jié)構(gòu)提供參考,還可以適當各種資源的配置更加的合理,讓用戶可以用更少的時間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調(diào)整站點結(jié)構(gòu),并在適當處加上廣告或薦書條。
3、Web數(shù)據(jù)挖掘技術在圖書館采訪工作中的應用
在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會直接的對圖書館的服務質(zhì)量產(chǎn)生影響。通常情況圖書館的工作人員會根據(jù)圖書館的性質(zhì)、服務對象及其任務來決定采訪的內(nèi)容。但是這種采訪局限性很大,很多時候會受采訪人員的主觀意識的影響,同時這種方式也會顯得死板不靈活。很多時候會出現(xiàn)應該購進的文獻沒有買,不應該買的文獻卻買了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產(chǎn)生都是因為缺乏對讀者需求的了解和分析。要解決這些問題就必須對讀者的需求進行全面的了解和分析,而Web數(shù)據(jù)挖掘則為解決該問題提供了一種較好的方法。通過對各種日志文件和采訪時獲得的數(shù)據(jù)進行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學合理的分析報告和預測報告。根據(jù)對分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻應該及時的進行補充,哪些文獻應該進行剔除,對館藏機構(gòu)進行優(yōu)化,真正的為高校里的師生提供所需要的文獻和資料。
4、使用Web數(shù)據(jù)挖掘技術提供個性化服務
傳統(tǒng)的信息檢索工具在友好型、可理解性、交互性方面都存在著很大的缺陷。通常情況下都只是將各種查詢結(jié)果毫無邏輯的簡單的進行羅列,用戶很難從其中獲取自己需要的信息,通過數(shù)據(jù)挖掘,可以對圖書館網(wǎng)站上的在線調(diào)查、留言簿、讀者調(diào)查表等數(shù)據(jù)進行收集整理,對不需要的冗余信息進行剔除。通過分析可以獲知用戶所喜好的瀏覽模式是哪種,他們常訪問的網(wǎng)站的路徑是什么,他們對圖書館中的那些資源比較有興趣。然后再根據(jù)用戶的普遍需求與每個人的個性需求,建立起相應的規(guī)則,從而幫助網(wǎng)站設計人員對網(wǎng)站進行設計和優(yōu)化,使得這些信息檢索變得更加的個性化、智能化,并根據(jù)每個用戶的偏好等特征將檢索到的信息排列處理,使得讀者可以用最快的速度獲得想要檢索的文獻信息。通過Web數(shù)據(jù)挖掘技術可以對用戶的特征信息進行總結(jié),將那些從沒有發(fā)出過信息的潛在用戶進行歸類,同時還可以免費的為他們提供各種他們所感興趣的信息和資料,把這些潛在的用戶轉(zhuǎn)變?yōu)檎降挠脩羰褂肳eb數(shù)據(jù)挖掘可以對用戶的檢索日志進行分析,從而得知用戶所感興趣的內(nèi)容、他們的研究方向,并根據(jù)這些內(nèi)容為用戶指定個性化服務的內(nèi)容,為用戶提供各種他們所感興趣的各種信息。
(1)計算機網(wǎng)絡病毒種類的多樣性。計算機網(wǎng)絡病毒的設計和開發(fā)沒有太大難度,簡單的幾個程序編寫指令就可以開發(fā)設計出各種各樣的網(wǎng)絡病毒,尤其是對于一些技術水平比較高的程序編寫員來講,很容易就可以完成計算機網(wǎng)絡病毒程序的編寫和修改,而且網(wǎng)絡病毒的種類增長和繁殖速度特別快。
(2)計算機網(wǎng)絡病毒傳播形式的多樣性。計算機網(wǎng)絡和網(wǎng)絡病毒相互之間存在著很緊密的聯(lián)系,網(wǎng)絡電子郵件、網(wǎng)絡系統(tǒng)漏洞以及不良網(wǎng)頁都是網(wǎng)絡病毒進行傳播的重要途徑,進而對計算機網(wǎng)絡系統(tǒng)造成蓄意破壞。計算機網(wǎng)絡系統(tǒng)的傳播形式有很多種,網(wǎng)絡病毒在網(wǎng)絡系統(tǒng)漏洞中的傳播就是常見的一種病毒傳播方式,計算機網(wǎng)絡病毒程序通過對Internet遠程主機系統(tǒng)的搜索和掃描,利用系統(tǒng)漏洞到達控制對方計算機的控制。同時也有一種病毒通過對文件夾的搜索掃描,進行病毒復制,以到達入侵網(wǎng)絡系統(tǒng)的目的。
(3)計算機網(wǎng)絡病毒的針對性。在計算機網(wǎng)絡技術發(fā)展初期,計算機網(wǎng)絡病毒主要目標就是干擾網(wǎng)絡技術人員的程序編寫,隨著計算機技術的快速發(fā)展,計算機網(wǎng)絡病毒的開發(fā)技術和功能作用也發(fā)生了很多變化,如今,計算機網(wǎng)絡病毒的設計和開發(fā)已經(jīng)開始商業(yè)化,針對性地對計算機網(wǎng)絡系統(tǒng)實施破壞,如通過盜用網(wǎng)銀賬號和密碼等方式以達到非法獲取利益的目的。
2數(shù)據(jù)挖掘技術簡析
數(shù)據(jù)挖掘技術是通過對所處一定范圍之內(nèi)的所有數(shù)據(jù)進行數(shù)據(jù)收集、數(shù)據(jù)分類以及數(shù)據(jù)歸類,進而來判斷是否存在某種潛在的關系和數(shù)據(jù)規(guī)律,主要環(huán)節(jié)有3個,準備數(shù)據(jù);尋找數(shù)據(jù)存在的規(guī)律;表現(xiàn)數(shù)據(jù)規(guī)律。數(shù)據(jù)挖掘模式設置好之后,技術系統(tǒng)中的挖掘引擎就會以數(shù)據(jù)庫中的要求為依據(jù),對準備好的數(shù)據(jù)進行數(shù)據(jù)分析和數(shù)據(jù)歸類,找出各個數(shù)據(jù)之間存在的關系和相應的數(shù)據(jù)規(guī)律,以便成為之后數(shù)據(jù)分析的有利依據(jù),數(shù)據(jù)挖掘技術是比較全面的挖掘技術和數(shù)據(jù)應用技術,工作過程比較繁雜,工作操作步驟較多,其中存在很大部分的準備環(huán)節(jié)和規(guī)劃工作,數(shù)據(jù)挖掘技術的重點工作是對數(shù)據(jù)的預處理階段,對數(shù)據(jù)的預處理階段是數(shù)據(jù)挖掘技術的基礎,是后期進行數(shù)據(jù)分析的必要條件。
3以數(shù)據(jù)挖掘技術為基礎的計算機網(wǎng)絡病毒防御分析
3.1數(shù)據(jù)挖掘技術的構(gòu)成分析
數(shù)據(jù)挖掘技術在計算機網(wǎng)絡病毒防御中的應用過程比較復雜,步驟繁多,為了便于日常操作應用,掌握每個環(huán)節(jié)的基本特征,可以對預處理模塊、決策模塊、數(shù)據(jù)收集模塊、數(shù)據(jù)挖掘模塊以及規(guī)則庫模塊進行分模塊分析研究。
(1)數(shù)據(jù)預處理模塊分析。簡化數(shù)據(jù)挖掘技術中數(shù)據(jù)挖掘和數(shù)據(jù)分析之間的處理操作可以通過數(shù)據(jù)預處理模塊來實現(xiàn),利用數(shù)據(jù)預處理模塊可以整體上提高數(shù)據(jù)挖掘效果,提高數(shù)據(jù)辨識度和準確度。在完成數(shù)據(jù)收集后需要把數(shù)據(jù)導入到預處理模塊,實現(xiàn)數(shù)據(jù)的分析歸類和數(shù)據(jù)變換,通過這樣額方式把數(shù)據(jù)轉(zhuǎn)換成可以被系統(tǒng)識別和處理的數(shù)據(jù)內(nèi)容。以目標IP地址、源IP地址、端口信息等這些據(jù)數(shù)據(jù)包當中所包括的信息內(nèi)容為依據(jù),實施數(shù)據(jù)集合、數(shù)據(jù)歸納、數(shù)據(jù)處理等流程。
(2)決策模塊分析。在數(shù)據(jù)挖掘技術中的決策功能模塊中,通過對數(shù)據(jù)的挖掘從而對數(shù)據(jù)庫進行構(gòu)建,然后對數(shù)據(jù)進行匹配,同時數(shù)據(jù)庫還要和規(guī)則庫密切聯(lián)系起來。如果數(shù)據(jù)庫有與規(guī)則庫存在高度聯(lián)系的信息出現(xiàn),證明在決策模塊里有病毒特征存在,很可能會感染到計算機病毒。如果是結(jié)果數(shù)據(jù)庫的數(shù)據(jù)信息和規(guī)則庫的數(shù)據(jù)不能相互匹配,那也就是說該數(shù)據(jù)包中存在有帶有新型特征病的毒帶,也就是出現(xiàn)了新型的規(guī)則類,這樣的情況下就需要把該帶有新型特征的病毒導入到系統(tǒng)的規(guī)則庫當中,規(guī)則庫的一種較新型的規(guī)則類別也就形成了。
(3)數(shù)據(jù)收集模塊分析。實現(xiàn)數(shù)據(jù)挖掘的基本要求是提供充分的數(shù)據(jù)信息,只有通過數(shù)據(jù)收集才能實現(xiàn)數(shù)據(jù)收集模塊的功能。數(shù)據(jù)收集模塊通過對計算機網(wǎng)絡中數(shù)據(jù)包的抓取和收集來實現(xiàn)數(shù)據(jù)信息,數(shù)據(jù)信息被收集后就會具有一定的數(shù)據(jù)結(jié)構(gòu)和比較重要的功能信息。
(4)數(shù)據(jù)挖掘模塊分析。數(shù)據(jù)挖掘技術的一個最關鍵部分就是數(shù)據(jù)挖掘模塊。數(shù)據(jù)挖掘模塊中的事件庫和數(shù)據(jù)挖掘算法是數(shù)據(jù)挖掘模塊的關鍵部分。數(shù)據(jù)挖掘?qū)ο嚓P數(shù)據(jù)的收集構(gòu)成了事件庫,通過對事件庫中數(shù)據(jù)的分類和數(shù)據(jù)整理,進而可以獲取較為準確的數(shù)據(jù)結(jié)構(gòu)。
(5)規(guī)則庫模塊分析。規(guī)則庫模塊是數(shù)據(jù)挖掘技術的一個重要組成部分,可以幫助優(yōu)化數(shù)據(jù)挖掘信息庫,給系統(tǒng)提供需要的病毒分析數(shù)據(jù)。如果有網(wǎng)絡病毒在計算機系統(tǒng)中出現(xiàn),規(guī)則庫模塊就可以進行數(shù)據(jù)分析和數(shù)據(jù)識別,以及實現(xiàn)數(shù)據(jù)挖掘。在數(shù)據(jù)挖掘的過程中,網(wǎng)絡病毒屬性會被挖掘過程中獲取的規(guī)則集調(diào)整和改變,并且把這個記錄繼續(xù)使用在數(shù)據(jù)挖掘中,這項記錄可以幫助計算機系統(tǒng)對一些潛在的網(wǎng)絡病毒進行分析,進而起到防御病毒的作用。
3.2以數(shù)據(jù)挖掘技術為基礎的網(wǎng)絡病毒防御系統(tǒng)
(1)數(shù)據(jù)挖掘技術中的關聯(lián)規(guī)則分析。數(shù)據(jù)挖掘技術的關聯(lián)規(guī)則就是指在同一類別的數(shù)據(jù)中有可以被發(fā)現(xiàn)的知識存在,通過對兩個或者超過兩個的變量進行取值,如果發(fā)現(xiàn)數(shù)據(jù)具有一定規(guī)律的話說明這些數(shù)據(jù)和數(shù)據(jù)之間存在著某種關聯(lián)性。因果關聯(lián)、及時序關聯(lián)以及簡單關聯(lián)是存在數(shù)據(jù)挖掘技術中的幾種主要關聯(lián)關系。要找到數(shù)據(jù)庫中的關聯(lián)網(wǎng),就需要進行關聯(lián)分析,然后結(jié)合數(shù)據(jù)和數(shù)據(jù)之間的關聯(lián)性進行數(shù)據(jù)挖掘,進而得到數(shù)據(jù)和數(shù)據(jù)存在的關聯(lián)規(guī)則。
(2)數(shù)據(jù)挖掘技術中的聚類分析。根據(jù)數(shù)據(jù)的不同特點和類別,對所獲取的數(shù)據(jù)進行分解,把它們分成多個不同的組別,各組數(shù)據(jù)之間在特征上都存在不同程度的相似之處,而且每組數(shù)據(jù)同時又存在著各種不同特征。系統(tǒng)對所有數(shù)據(jù)進行聚類之后,就可以發(fā)現(xiàn)并識別出整個系統(tǒng)數(shù)據(jù)分布的疏密情況,這樣不僅可以呈現(xiàn)出組與組之間數(shù)據(jù)存在的聯(lián)系,同時也可以對全局的分布模式有所體現(xiàn)。
檔案管理對象的數(shù)量隨著社會的發(fā)展而不斷增加,僅僅通過傳統(tǒng)的管理方式已不能高效管理檔案,這就需要充分利用計算機網(wǎng)絡技術。在檔案管理系統(tǒng)中應用計算機數(shù)據(jù)挖掘技術可以確保檔案信息的安全性,提高管理檔案的效率,還能優(yōu)化檔案數(shù)據(jù)的檢索??傊诖髷?shù)據(jù)的計算機數(shù)據(jù)挖掘技術對完善檔案管理系統(tǒng)發(fā)揮著十分重要的作用。
2基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術概述
基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術是當代新開發(fā)的一種數(shù)據(jù)處理技術,它可以從大數(shù)據(jù)中挑選出人們需要的數(shù)據(jù)。計算機數(shù)據(jù)挖掘是一個循環(huán)往復的過程,如果沒有取得預期的效果,計算機數(shù)據(jù)挖掘信息處理系統(tǒng)就會返回上一層重新工作,直到完成目標任務為止,這種對目標的細化過程可以滿足檔案數(shù)據(jù)檢索的需要。
3基于大數(shù)據(jù)的計算機挖掘技術在檔案管理系統(tǒng)中的作用
3.1提高檔案信息的安全性。無論是文字檔案、圖片檔案還是其他形式的檔案,都是一種寶貴的資料。越是意義重大的檔案,檔案管理人員就越要想方設法將其保存起來。檔案的價值隨著其保存時間的不斷推移而增加,價值越高的檔案,被使用的頻率就越高,但是如果使用過于頻繁的話,就會縮短檔案資料的壽命,加大保存難度。除此之外,有的檔案信息是保密的,在應用時如果監(jiān)管不力就會導致機密泄露。由以上可見,檔案的保存與使用儼然已互為對立面了。將計算機挖掘技術應用到檔案管理中則對檔案資料的完整性毫無影響,并且還可以提高檔案信息的安全性。3.2提高檔案信息管理的效率。在檔案管理工作中應用計算機數(shù)據(jù)挖掘技術,可以極大改變傳統(tǒng)檔案管理模式低效率的弊端。使用計算機數(shù)據(jù)挖掘技術,大大提高了工作人員處理檔案信息的速度,同樣的工作使用的時間極大減少。鑒定檔案是檔案管理工作中的重要組成部分,傳統(tǒng)的鑒定方式是由管理人員根據(jù)自己的經(jīng)驗進行主觀鑒定,有時會存在有價值的檔案丟失的現(xiàn)象。應用計算機數(shù)據(jù)挖掘技術,檔案管理人員就可以利用計算機系統(tǒng)分析檔案使用和保存的情況,促進了檔案鑒定工作的發(fā)展。3.3提高了檔案信息的使用效率。大部分檔案信息具有一定的機密性,所以檔案的借閱并不是向全社會公開的,而是有范圍限制的,但是由于檔案管理人員和借閱者對檔案信息不熟悉,導致雙方的溝通存在一定的問題,在借閱者提出申請之后,檔案管理人員會將檔案資料調(diào)出來,有時調(diào)出來的資料不是借閱者所需要的,還得重新調(diào)閱,類似的過程就嚴重浪費了雙方的時間。應用計算機數(shù)據(jù)挖掘技術可以促進檔案管理人員和借閱者之間的交流,讓檔案管理者明確借閱者需要的具體檔案信息,從而形成專門的檔案提供渠道,這就大大提高了檔案信息的使用效率。3.4增強檔案信息的服務性。加密檔案信息會嚴重縮小它的適用范圍,受當代信息化的影響,很多檔案信息自身會出現(xiàn)一些問題,并且只能為一小部分人服務。將計算機數(shù)據(jù)挖掘技術應用到檔案信息管理中,可以具體分析檔案的使用情況,通過研究發(fā)現(xiàn)未來使用檔案信息的人群,在此基礎上提高檔案信息的服務性。
4基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術在檔案管理中的實際應用
4.1在檔案分類管理中的應用。檔案管理的基礎工作就是將檔案進行分類。傳統(tǒng)的分類方法既費時又費力,工作效率極低。計算機數(shù)據(jù)挖掘技術中有一種決策樹算法,它可以在最短的時間內(nèi)按照一定的規(guī)則將不同屬性的檔案信息進行分類和整理,大大提高了檔案分類工作的效率。計算機數(shù)據(jù)挖掘技術在檔案分類工作中的具體流程是:從大量不同種類的數(shù)據(jù)集中選擇一些數(shù)據(jù)組合成訓練集,然后應用到?jīng)]有進行分類的檔案管理中,這樣可以幫助管理者根據(jù)借閱者對檔案信息的需求來對檔案進行分類,同時還可以根據(jù)借閱者的需求為其推薦其他檔案信息。通過這些針對性強的數(shù)據(jù)分析,可以極大縮短借閱者獲取檔案信息的時間,檔案數(shù)據(jù)的利用價值就能充分發(fā)揮出來。4.2在檔案收集管理中的應用。計算機數(shù)據(jù)挖掘技術可以根據(jù)數(shù)據(jù)庫內(nèi)部的數(shù)據(jù)信息描述來構(gòu)建一個相應的數(shù)據(jù)模型,然后比較計算機數(shù)據(jù)樣本和數(shù)據(jù)模型之間的差異,如果這二者互相吻合,就需要檔案管理人員使用測試樣本模型來對檔案信息進行分類處理。計算機數(shù)據(jù)挖掘技術需要全面分析檔案數(shù)據(jù)信息庫中的數(shù)據(jù),建立一個對已知數(shù)據(jù)有詳細描述的概念模型,并與測試樣本進行對比,如果一個模型測試通過,就證明這個模型可以應用在檔案收集管理中。
5結(jié)語
綜上所述,在科技技術不斷進步的時代背景下,在檔案信息管理中應用基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術已成為一種必然趨勢,它可以極大提高檔案信息管理的工作效率,促進檔案管理的高效發(fā)展。除了在檔案信息存儲和利用上確?;镜男畔⒉樵兎胀?,還需要應用計算機數(shù)據(jù)挖掘技術整合檔案信息,建立眾多檔案管理服務數(shù)據(jù)之間的關聯(lián),這樣才能為檔案信息管理提供更好的服務。
作者:陳皓穎 單位:昆明理工大學津橋?qū)W院
參考文獻
[1]高燕飛,陳俊杰.試析計算機數(shù)據(jù)挖掘技術在檔案信息管理系統(tǒng)中的運用[J].內(nèi)蒙古師范大學學報:哲學社會科學版,2012(4):44-46.
[2]曾雪峰.計算機數(shù)據(jù)挖掘技術開發(fā)及其在檔案信息管理中的運用研究[J].科技創(chuàng)新與應用,2016(9):285.
[3]李國強,曹巧蓮,辛正宇,等.淺談數(shù)據(jù)處理的新技術———數(shù)據(jù)挖掘[J].科技創(chuàng)新與生產(chǎn)力,2010(6).
[4]周碧珍.淺析計算機數(shù)據(jù)挖掘技術在檔案信息管理系統(tǒng)中的應用[J].黑龍江科技信息,2009(1).