需要金幣:![]() ![]() |
資料包括:完整論文,開題報告 | ![]() |
![]() |
轉(zhuǎn)換比率:金額 X 10=金幣數(shù)量, 例100元=1000金幣 | 論文字?jǐn)?shù):13905 | ![]() | |
折扣與優(yōu)惠:團(tuán)購最低可5折優(yōu)惠 - 了解詳情 | 論文格式:Word格式(*.doc) | ![]() |
摘要:飛速發(fā)展起來的網(wǎng)絡(luò),成就了萬維網(wǎng)這個擁有著大量信息資源的寶藏。越來越多的人參與到了這個“寶藏”的挖掘中,如何挖掘海量數(shù)據(jù)中的價值也是當(dāng)下主流的研究課題。正是這種對數(shù)據(jù)利用的強(qiáng)烈需求催生了網(wǎng)頁數(shù)據(jù)采集,也就是網(wǎng)絡(luò)爬蟲技術(shù)。 網(wǎng)絡(luò)爬蟲是搜索引擎的一部分,其主要的功能就是將網(wǎng)絡(luò)上的數(shù)據(jù)下載到本地形成一個互聯(lián)網(wǎng)內(nèi)容的本地鏡像,應(yīng)用十分廣泛的。大數(shù)據(jù)時代,海量的數(shù)據(jù)抓取需求已經(jīng)是單機(jī)集中式爬蟲無法滿足的。集中式爬蟲的性能受限于 CPU 性能,網(wǎng)絡(luò) IO 和磁盤 IO 的瓶頸,已逐步被分布式網(wǎng)絡(luò)爬蟲所取代。 本論文主要研究了 Python 實現(xiàn)的 Scrapy 框架的主要結(jié)構(gòu)和關(guān)鍵技術(shù),然后研究了網(wǎng)頁抓取的主要方法和技術(shù)細(xì)節(jié),并介紹了非關(guān)系型內(nèi)存數(shù)據(jù)在分布式網(wǎng)絡(luò)爬蟲中的應(yīng)用。 本課題完成了一種基于 Scrapy 的的分布式網(wǎng)絡(luò)爬蟲的設(shè)計、實現(xiàn)、多機(jī)部署和測試。在前面所訴的技術(shù)研究基礎(chǔ)上,本課題研究并設(shè)計了基于 Scrapy 的分布式網(wǎng)絡(luò)爬蟲,詳細(xì)的分析介紹了幾個主要模塊的功能和實現(xiàn),以及在兩個節(jié)點上部署并測試。 關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;分布式網(wǎng)絡(luò)爬蟲;Scrapy;網(wǎng)頁數(shù)據(jù)處理;
目錄 摘要 Abstract 第一章 緒論 .1 1.1課題研究的背景 .1 1.2課題研究的意義 .2 1.3課題研究的內(nèi)容 .2 第二章 網(wǎng)絡(luò)爬蟲及相關(guān)技術(shù).3 2.1網(wǎng)絡(luò)爬蟲的概念 .3 2.1.1單機(jī)網(wǎng)絡(luò)爬蟲3 2.1.2分布式網(wǎng)絡(luò)爬蟲 .4 2.2相關(guān)技術(shù)分析 .5 2.2.1Scrapy 框架.5 2.2.2Redis 數(shù)據(jù)庫.6 2.2.3Scrapy-Redis 框架 7 2.2.3 ORM 7 2.3本章小結(jié) .8 第三章 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)分析與設(shè)計 .9 3.1網(wǎng)絡(luò)爬蟲任務(wù)節(jié)點需求分析 9 3.2分布式控制節(jié)點需求分析 10 3.3分布式網(wǎng)絡(luò)爬蟲的設(shè)計 11 3.3.1分布式網(wǎng)絡(luò)爬蟲的系統(tǒng)整體結(jié)構(gòu)設(shè)計 11 3.3.2分布式任務(wù)分配流程設(shè)計 .12 3.3.3數(shù)據(jù)庫邏輯結(jié)構(gòu)設(shè)計 .13 3.4本章小結(jié) .14 第四章 分布式網(wǎng)絡(luò)爬蟲的實現(xiàn)與測試 .15 4.1分布式網(wǎng)絡(luò)爬蟲的實現(xiàn) 15 4.1.1Scrapy 項目開發(fā)環(huán)境準(zhǔn)備 15 4.1.2Scrapy 項目結(jié)構(gòu)初始化 15 4.1.3分布式爬蟲任務(wù)節(jié)點實現(xiàn) .17 4.1.4頁面抓取實現(xiàn)18 4.1.5關(guān)鍵數(shù)據(jù)持久化實現(xiàn) .22 4.2系統(tǒng)測試 .23 4.2.1測試環(huán)境及配置 .24 4.2.2測試流程 24 4.2.3測試結(jié)果 24 4.3 本章小結(jié) .26 結(jié)束語 .27 致謝 .28 參考文獻(xiàn) .29 |