前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的網(wǎng)絡(luò)爬蟲(chóng)基本原理主題范文,僅供參考,歡迎閱讀并收藏。
【關(guān)鍵詞】電力新聞 Lucene Heritrix 搜索引擎
互聯(lián)網(wǎng)為用戶提供海量資源的同時(shí),也給用戶造成了困擾,如何從海量數(shù)據(jù)中,快速、有效的獲得需要的信息,成為備受關(guān)注的問(wèn)題。垂直搜索引擎正是在用戶這種需求下應(yīng)運(yùn)而生的,它針對(duì)特定領(lǐng)域,為用戶提供準(zhǔn)確、及時(shí)、深度的檢索服務(wù)。本文主要討論使用Heritrix與Lucene結(jié)合技術(shù),設(shè)計(jì)實(shí)現(xiàn)電力新聞垂直搜索引擎系統(tǒng),為用戶提供一個(gè)準(zhǔn)確、及時(shí)的電力新聞檢索平臺(tái)。
1 垂直搜索引擎的關(guān)鍵技術(shù)
搜索引擎的基本原理是當(dāng)用戶提交查詢?cè)~q,例如“智能電網(wǎng)”,在用戶可接受的時(shí)間內(nèi)返回與用戶查詢?cè)~相關(guān)的網(wǎng)頁(yè)L。而垂直搜索引擎在此基礎(chǔ)上為特定領(lǐng)域用戶提供信息檢索,如本文針對(duì)電力行業(yè)新聞讀者提供及時(shí)的電力新聞檢索服務(wù)。垂直搜索引擎避免了通用搜索引擎信息查詢過(guò)于廣泛而深度不夠、返回結(jié)果過(guò)多而準(zhǔn)確度不夠的缺點(diǎn),為用戶提供精細(xì)化、準(zhǔn)確化的檢索服務(wù)。
網(wǎng)絡(luò)爬蟲(chóng)是垂直搜索引擎的核心組成部分,網(wǎng)絡(luò)爬蟲(chóng)從種子站點(diǎn)開(kāi)始,在Internet上爬取與電力新聞相關(guān)的網(wǎng)頁(yè),并忽略其他無(wú)關(guān)網(wǎng)頁(yè),對(duì)抓取到的Web頁(yè)面進(jìn)行預(yù)處理,為搜索引擎下一流程提供基礎(chǔ)。本系統(tǒng)采用擴(kuò)展Heritrix的方式來(lái)實(shí)現(xiàn)抓取與電力新聞相關(guān)網(wǎng)頁(yè)的目標(biāo)。
1.2 網(wǎng)頁(yè)預(yù)處理
網(wǎng)頁(yè)預(yù)處理是對(duì)爬取到的網(wǎng)頁(yè)結(jié)果進(jìn)行處理的過(guò)程,其中包括實(shí)現(xiàn)無(wú)關(guān)Web頁(yè)面的過(guò)濾、URL的消重、網(wǎng)頁(yè)分析、網(wǎng)頁(yè)結(jié)構(gòu)化、網(wǎng)頁(yè)去噪、Web頁(yè)面相關(guān)度的計(jì)算等功能,預(yù)處理是建立索引的準(zhǔn)備工作。本系統(tǒng)使用HtmlParser作為網(wǎng)頁(yè)解析工具,HtmlParser能夠提供嵌套和線性兩種網(wǎng)頁(yè)解析方式。
1.3 查詢和索引
類似于書(shū)籍,索引就像目錄,能夠讓用戶快速找到需要的信息,本系統(tǒng)索引是基于Lucene的開(kāi)源框架,以文件形式存儲(chǔ)索引信息。查詢是用戶可以通過(guò)用戶界面輸入查詢關(guān)鍵字,通過(guò)搜索引擎檢索、排序等計(jì)算,將與關(guān)鍵字匹配的結(jié)果集合頁(yè)面返回給用戶。
2 系統(tǒng)設(shè)計(jì)關(guān)鍵問(wèn)題及解決
本文設(shè)計(jì)實(shí)現(xiàn)一個(gè)用于電力行業(yè)新聞的垂直搜索引擎,旨在為用戶提供最新、最準(zhǔn)確、最全面的電力行業(yè)新聞。電力新聞垂直搜索引擎主要由網(wǎng)絡(luò)爬蟲(chóng)、網(wǎng)頁(yè)分析、索引、檢索、用戶接口五個(gè)模塊組成,總體結(jié)構(gòu)如圖1所示。
2.1 爬蟲(chóng)算法的實(shí)現(xiàn)
本系統(tǒng)采用擴(kuò)展Heritrix的方式實(shí)現(xiàn)抓取電力相關(guān)網(wǎng)頁(yè)目標(biāo),通過(guò)擴(kuò)展Heritrix組件,實(shí)現(xiàn)特定的抓取邏輯,在Shark算法基礎(chǔ)上,本文改進(jìn)了爬蟲(chóng)算法,通過(guò)計(jì)算相關(guān)度,設(shè)定閾值,按照閾值大小順序加入到URL隊(duì)列中。
2.2 網(wǎng)頁(yè)結(jié)構(gòu)化
通過(guò)爬蟲(chóng)爬取的網(wǎng)頁(yè)通常多為非結(jié)構(gòu)化數(shù)據(jù),因結(jié)構(gòu)不一無(wú)法直接生成索引,需要通過(guò)二次處理,把非結(jié)構(gòu)化信息通過(guò)算法轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),便于索引建立和數(shù)據(jù)存儲(chǔ)。在本系統(tǒng)中,采用NekoHTM實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)化信息抽取,通過(guò)org.w3c.dom中提供的接口實(shí)現(xiàn)結(jié)構(gòu)化信息抽取操作。
3 電力新聞垂直搜索引擎的實(shí)現(xiàn)
系統(tǒng)的完整流程描述為:由爬蟲(chóng)模塊在Internet上收集包含電力新聞的網(wǎng)頁(yè),交由網(wǎng)頁(yè)預(yù)處理模塊實(shí)現(xiàn)URL消重、網(wǎng)頁(yè)分析、網(wǎng)頁(yè)結(jié)構(gòu)化,轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)后由索引模塊添加到索引庫(kù),查詢模塊通過(guò)訪問(wèn)索引庫(kù)響應(yīng)用戶查詢請(qǐng)求。本系統(tǒng)實(shí)現(xiàn)基于Java開(kāi)發(fā)語(yǔ)言,具有跨平臺(tái)、可移植等特性,采用B/S結(jié)構(gòu)為用戶提供檢索服務(wù)。系統(tǒng)運(yùn)行界面如圖2所示。
4 結(jié)論
本文設(shè)計(jì)并實(shí)現(xiàn)了電力新聞垂直搜索引擎,對(duì)電力行業(yè)具有一定的使用價(jià)值,可以為用戶提供更為準(zhǔn)確、及時(shí)、便捷和有效的電力新聞檢索服務(wù),在下一步工作中將會(huì)繼續(xù)研究語(yǔ)義層的檢索,使得檢索服務(wù)更智能化。
參考文獻(xiàn)
[1]LUO L,CHEN Q,WU Q.Research on Topical Crawler of Shark-Search Algorithm and Hits Algorithm [J].Computer Technology and Development,2010,11:020.
[2]趙珂,逯鵬,李永強(qiáng).基于Lucene的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2011,37(16):39-41.
關(guān)鍵詞:創(chuàng)新教育;新生研討課;創(chuàng)新能力;科研訓(xùn)練
0、引言
以培養(yǎng)學(xué)生具有理想信念、社會(huì)責(zé)任感、創(chuàng)新精神和實(shí)踐能力為核心,培養(yǎng)造就高素質(zhì)專門人才和拔尖創(chuàng)新人才,培養(yǎng)具有創(chuàng)新精神和實(shí)踐能力的學(xué)生是現(xiàn)代大學(xué)教育的核心工作。作為研究型大學(xué)的教師,啟蒙大學(xué)生的創(chuàng)新意識(shí),發(fā)掘?qū)W生科研創(chuàng)新的潛力和動(dòng)力是教師的根本職責(zé)。在基礎(chǔ)教育環(huán)節(jié),學(xué)生大多將升入大學(xué)作為學(xué)習(xí)的基本目標(biāo),進(jìn)入大學(xué)校門后又習(xí)慣沿用中學(xué)被動(dòng)接受教育的學(xué)習(xí)方法,但同時(shí)又有了解大學(xué)專業(yè)研究的渴望。因此,我們迫切需要在一年級(jí)就采用創(chuàng)新教學(xué)模式,激發(fā)學(xué)生的創(chuàng)新興趣與意識(shí),扭轉(zhuǎn)學(xué)生的慣性思維,使學(xué)生盡早步入探索科學(xué)和創(chuàng)新的實(shí)踐軌道。
大學(xué)一年級(jí)不僅是基礎(chǔ)課學(xué)習(xí)的重要階段,而且是培養(yǎng)科學(xué)研究素養(yǎng)、認(rèn)識(shí)科學(xué)研究本質(zhì)、提高創(chuàng)新意識(shí)的關(guān)鍵階段,還是造就具有良好科學(xué)素養(yǎng)和探索精神的創(chuàng)新型人才的切入點(diǎn)?;诖朔N理念,我們從2008年開(kāi)始開(kāi)設(shè)了搜索引擎與數(shù)據(jù)管理新生研討課程,目的是鼓勵(lì)學(xué)生盡早進(jìn)入實(shí)驗(yàn)室,接觸學(xué)科前沿科學(xué)問(wèn)題和工程技術(shù)問(wèn)題,培養(yǎng)學(xué)生的科學(xué)素養(yǎng)、探索意識(shí)和批判性思維。我們已在教學(xué)內(nèi)容的組織與研討題目的設(shè)計(jì)、教學(xué)模式的創(chuàng)新、教學(xué)手段與方法的革新、考核和考試方法的變革等方面進(jìn)行了有益探索,課程受到學(xué)生的歡迎與支持。
1、創(chuàng)新課程教學(xué)模式及其實(shí)現(xiàn)途徑
1.1 以問(wèn)題為導(dǎo)向,以需求為動(dòng)力,激發(fā)學(xué)生探究問(wèn)題意識(shí)和創(chuàng)新興趣
維基百科對(duì)“創(chuàng)新”的解釋:在人的主觀作用推動(dòng)下產(chǎn)生所有以前沒(méi)有的設(shè)想、技術(shù)、文化、商業(yè)或者社會(huì)方面的關(guān)系,也指自然科學(xué)的新發(fā)現(xiàn)。創(chuàng)新來(lái)源于社會(huì)與人類的需求與問(wèn)題。在教學(xué)實(shí)施過(guò)程中,我們改變傳統(tǒng)知識(shí)傳播的教學(xué)方式,借鑒科研項(xiàng)目的申請(qǐng)與研究過(guò)程,將問(wèn)題意識(shí)和創(chuàng)新意識(shí)滲透到教學(xué)的各個(gè)環(huán)節(jié)。我們首先應(yīng)讓學(xué)生明白學(xué)習(xí)的目的不是為了考試,考試僅僅是檢驗(yàn)學(xué)習(xí)效果的一種手段;學(xué)習(xí)的根本目的在于學(xué)會(huì)做人和做事,運(yùn)用已有知識(shí)進(jìn)行新的創(chuàng)造。因此,我們?cè)诮虒W(xué)中不是以基本概念和原理作為課程的開(kāi)始,而是根據(jù)學(xué)生的專業(yè)基礎(chǔ),以一系列的問(wèn)題開(kāi)始帶領(lǐng)學(xué)生討論回答,如為什么需要搜索引擎?為什么有些網(wǎng)址排名靠前,而有些排名靠后?google和百度有差別嗎?網(wǎng)絡(luò)數(shù)據(jù)如何存儲(chǔ)與管理?現(xiàn)有的搜索引擎能滿足你的需求嗎?google靠什么盈利?學(xué)生在回答和討論過(guò)程中,理解了搜索引擎的基本原理,了解了相關(guān)領(lǐng)域的研究進(jìn)展以及企業(yè)發(fā)展的驅(qū)動(dòng)力。
學(xué)習(xí)的實(shí)質(zhì)就是經(jīng)常質(zhì)疑、隨時(shí)發(fā)問(wèn)、深入思考的過(guò)程,質(zhì)疑的問(wèn)題解決了,也就獲得了新知,取得了進(jìn)步。創(chuàng)新則以質(zhì)疑、批判為前提,以慎思為基礎(chǔ)。在教學(xué)中,我們特別強(qiáng)調(diào)學(xué)生學(xué)習(xí)與思考結(jié)合,讓學(xué)生明白思考是學(xué)習(xí)的基礎(chǔ),思考由質(zhì)疑和問(wèn)題構(gòu)成,而質(zhì)疑是啟迪智慧大門的鑰匙,是勇于創(chuàng)新的前提。基于這個(gè)教學(xué)理念,我們對(duì)于每一個(gè)知識(shí)點(diǎn)以為什么開(kāi)始,啟迪學(xué)生的問(wèn)題意識(shí),促使學(xué)生提高由疑而思、由思而問(wèn)、由問(wèn)而明、由明而知而會(huì)的能力。
在教學(xué)過(guò)程中,我們注重將學(xué)科中不同學(xué)派的不同學(xué)術(shù)觀點(diǎn)介紹給學(xué)生,特別是將學(xué)術(shù)界尚未解決或爭(zhēng)論的疑難問(wèn)題,以鼓勵(lì)學(xué)生研究和解決這些問(wèn)題。例如,在講授搜索引擎網(wǎng)頁(yè)排名算法時(shí),特意將百度和google的排名算法進(jìn)行比較,讓學(xué)生分析搜索排名的結(jié)果;在講授爬蟲(chóng)系統(tǒng)時(shí),要求學(xué)生了解多個(gè)爬蟲(chóng)系統(tǒng),比較功能和性能差異,從而激發(fā)學(xué)生獨(dú)立思考,積極探索,產(chǎn)生創(chuàng)新的思想萌芽。
1.2 構(gòu)建學(xué)生自主學(xué)習(xí)的教學(xué)新模式,變“要我學(xué)”為“我要學(xué)”的良性循環(huán)
盡管大學(xué)一年級(jí)學(xué)生的認(rèn)知能力和認(rèn)識(shí)水平已基本成熟,但是需要進(jìn)一步培養(yǎng)他們形成良好的自主學(xué)習(xí)和科研素養(yǎng),能夠較全面地分析和認(rèn)知事物。我們?cè)谡n程教學(xué)中采用“教師引導(dǎo)+學(xué)生探求+師生互動(dòng)”的新模式,充分調(diào)動(dòng)和發(fā)揮學(xué)生自主學(xué)習(xí)的積極性。在教學(xué)過(guò)程中,教師通過(guò)提出問(wèn)題,引導(dǎo)學(xué)生思考討論甚至是辯論;通過(guò)循序漸進(jìn)的實(shí)踐過(guò)程,激發(fā)學(xué)生的學(xué)習(xí)熱情;通過(guò)講授文獻(xiàn)閱讀方法,教會(huì)學(xué)生自主探求問(wèn)題的來(lái)源以及最新的研究進(jìn)展;通過(guò)組織學(xué)生撰寫(xiě)科技
論文,教會(huì)學(xué)生清晰、正確、有效地表達(dá)問(wèn)題、算法并進(jìn)行實(shí)驗(yàn)設(shè)計(jì),訓(xùn)練提高學(xué)生的學(xué)術(shù)論文寫(xiě)作能力。
“以學(xué)生為中心”的教學(xué)模式核心是掌握學(xué)生學(xué)習(xí)的特點(diǎn),引導(dǎo)學(xué)生自主學(xué)習(xí),教師通過(guò)指導(dǎo)幫助學(xué)生學(xué)習(xí),激發(fā)學(xué)生自主學(xué)習(xí)的積極性,變“要我學(xué)”為“我要學(xué)”,促使學(xué)生學(xué)會(huì)自己獲取知識(shí)的方法,從而具備運(yùn)用知識(shí)進(jìn)行新創(chuàng)造的能力。我們?cè)诮虒W(xué)實(shí)施的每個(gè)環(huán)節(jié)都貫徹這個(gè)理念,引導(dǎo)學(xué)生主動(dòng)探求。課堂的教學(xué)內(nèi)容是“問(wèn)題+文獻(xiàn)”,由教師提前,在課堂上,教師則引導(dǎo)學(xué)生以小組形式求解問(wèn)題和討論文獻(xiàn)內(nèi)容。
當(dāng)問(wèn)題求解以實(shí)踐方式展開(kāi)時(shí),我們采用從小到大、從簡(jiǎn)單到復(fù)雜、從應(yīng)用到改進(jìn)、再到創(chuàng)新的方法設(shè)計(jì)多層次的實(shí)踐課題,培養(yǎng)學(xué)生的自信心,使學(xué)生站在成功的階梯上,充分發(fā)揮自主學(xué)習(xí)的潛能。例如,我們與學(xué)生討論云計(jì)算和大數(shù)據(jù)的概念時(shí),提出為什么這兩個(gè)概念由google等公司提出而不是由學(xué)術(shù)界提出、網(wǎng)頁(yè)排名的依據(jù)是什么、google廣告的核心技術(shù)是什么等問(wèn)題,要求學(xué)生查閱文獻(xiàn)資料后自主求解。通過(guò)自主探究、課堂互動(dòng)和重點(diǎn)講授,學(xué)生加深了對(duì)知識(shí)的理解,并體驗(yàn)到知識(shí)的發(fā)生和發(fā)展過(guò)程,養(yǎng)成科學(xué)的思維方法,學(xué)會(huì)自主學(xué)習(xí),最終形成“我要學(xué)”的良性循環(huán)。
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)學(xué)術(shù)期刊(光盤版)全文收錄期刊
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)