需要金幣:![]() ![]() |
資料包括:完整論文 | ![]() |
![]() |
轉(zhuǎn)換比率:金額 X 10=金幣數(shù)量, 例100元=1000金幣 | 論文字數(shù):9403 | ![]() | |
折扣與優(yōu)惠:團購最低可5折優(yōu)惠 - 了解詳情 | 論文格式:Word格式(*.doc) | ![]() |
摘要: 在大數(shù)據(jù)和人工智能快速發(fā)展的背景下,無論是前者還是后者所依托的機器學(xué)習(xí)都需要龐大的數(shù)據(jù)。這就給網(wǎng)絡(luò)爬蟲的提供了廣闊的市場。由于常見的搜索引擎會給用戶反饋一些多余的數(shù)據(jù)和廣告,基于python的網(wǎng)絡(luò)爬蟲系統(tǒng)將重點解決上述問題。本文除了簡單介紹python和網(wǎng)絡(luò)爬蟲的發(fā)展和應(yīng)用前景外,對應(yīng)用廣泛和簡單的基于python地方三方庫(Requests庫)開發(fā)的網(wǎng)絡(luò)爬蟲為主要內(nèi)容進行論述,同時在對網(wǎng)絡(luò)爬蟲時可能遇到的騷擾,法律和隱私問題以及為避免這些問題而普遍采用的Robot協(xié)議等方面的內(nèi)容進行了闡述。系統(tǒng)通過用戶提交的信息確定將爬取網(wǎng)頁的統(tǒng)一資源定位符后,通過Requests庫的get方法對網(wǎng)頁內(nèi)容進行爬取并寫入本地文件。針對可能遇到的反爬蟲網(wǎng)站,則對部分反反爬蟲的技術(shù)做了介紹和實現(xiàn)如冒充瀏覽器訪問和更改IP地址等。最后采用黑白盒測試的方法通過對教育相關(guān)的數(shù)據(jù)的爬取測試了系統(tǒng)的性能。
關(guān)鍵詞: 網(wǎng)絡(luò)爬蟲;網(wǎng)頁內(nèi)容;數(shù)據(jù)展示;反反爬蟲
目 錄 摘 要 Abstract 1 緒論-1 1.1 目的與意義-1 1.2 現(xiàn)狀與趨勢及分類-1 1.2.1現(xiàn)狀和趨勢-1 1.2.2網(wǎng)絡(luò)爬蟲的分類-2 1.3 開發(fā)技術(shù)和工具-2 1.3.1 B/S架構(gòu)簡介-2 1.3.2 PyCharm簡介-3 1.3.3 python語言簡介-3 1.4 網(wǎng)絡(luò)爬蟲盜亦有道-4 1.4.1網(wǎng)絡(luò)爬蟲引發(fā)的問題-4 1.4.2 Robots協(xié)議-5 2 系統(tǒng)分析-6 2.1 可行性分析-6 2.2 網(wǎng)絡(luò)爬蟲系統(tǒng)的性能需求-6 3 系統(tǒng)設(shè)計-7 3.1 總體設(shè)計-7 3.2用戶登陸-8 3.3數(shù)據(jù)爬取模塊-8 3.4數(shù)據(jù)展示模塊-8 4 系統(tǒng)實現(xiàn)-10 4.1 前端界面模塊實現(xiàn)-10 4.1.1用戶登陸界面-10 4.1.2爬取數(shù)據(jù)界面-11 4.1.3數(shù)據(jù)展示界面-13 4.2 后端爬取-14 5 系統(tǒng)測試-17 5.1安裝與配置-17 5.2 軟件測試-17 結(jié) 論-20 謝 辭-21 參考文獻-22 |