需要金幣:![]() ![]() |
資料包括:完整論文 | ![]() |
![]() |
轉(zhuǎn)換比率:金額 X 10=金幣數(shù)量, 例100元=1000金幣 | 論文字?jǐn)?shù):7474 | ![]() | |
折扣與優(yōu)惠:團(tuán)購最低可5折優(yōu)惠 - 了解詳情 | 論文格式:Word格式(*.doc) | ![]() |
摘要:本文介紹了一個基于Python及其相關(guān)技術(shù)的爬蟲程序。程序的主要內(nèi)容在不違反QQ空間規(guī)則和法律法規(guī)下獲取一些QQ用戶的QQ空間的個人信息、日志、說說等方面的數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行整理、存儲、展示,最后根據(jù)數(shù)據(jù)分析可能得到一些有價(jià)值的內(nèi)容,例如統(tǒng)計(jì)好友發(fā)表說說的時間來分析用戶的活躍時間,統(tǒng)計(jì)發(fā)表說說的工具來分析各個工具的使用量和流行趨勢,統(tǒng)計(jì)故鄉(xiāng)、現(xiàn)居地省份來分析該用戶的故鄉(xiāng)、現(xiàn)居地等等。 程序采用面向?qū)ο蟮姆椒▽?shí)現(xiàn),以Eclipse+Python+Mongodb為開發(fā)平臺。系統(tǒng)運(yùn)用Selenium、PhantomJS技術(shù)模擬登陸獲取cookies,使用requests發(fā)送請求得到網(wǎng)頁,使用正則表達(dá)式、BeautifulSoup解析、提取網(wǎng)頁信息,綜合使用抓包工具Httpfox、Fiddler和火狐瀏覽器自帶的開發(fā)者工具分析QQ空間網(wǎng)頁數(shù)據(jù)源。 本論文依照軟件工程的開發(fā)流程,對系統(tǒng)的分析、設(shè)計(jì)和實(shí)現(xiàn)進(jìn)行了闡述。在系統(tǒng)分析階段,進(jìn)行了系統(tǒng)概要設(shè)計(jì)、數(shù)據(jù)庫的設(shè)計(jì),設(shè)計(jì)了系統(tǒng)框架和功能模塊。
關(guān)鍵詞:QQ空間;爬蟲;Python;Mongodb數(shù)據(jù)庫
目錄 摘要 Abstract 1 概述-2 1.1 開發(fā)背景-2 1.2 課題簡介-2 1.3 項(xiàng)目設(shè)計(jì)目標(biāo)-2 1.4 系統(tǒng)功能概述-3 2 系統(tǒng)分析-3 2.1 需求分析-3 2.1.1 功能需求分析-3 2.1.2 非功能需求分析-4 2.2 技術(shù)分析-4 2.3 系統(tǒng)運(yùn)行環(huán)境分析-5 3 概要設(shè)計(jì)-6 3.1系統(tǒng)功能模塊設(shè)計(jì)-6 3.2 數(shù)據(jù)庫設(shè)計(jì)-6 4 系統(tǒng)詳細(xì)設(shè)計(jì)-9 4.1 系統(tǒng)結(jié)構(gòu)-9 4.1.1系統(tǒng)模塊說明-9 4.1.1文件組織說明-10 4.2 系統(tǒng)功能模塊詳細(xì)設(shè)計(jì)-11 5 系統(tǒng)測試與運(yùn)行-13 5.1 測試方法-13 5.2 運(yùn)行過程-13 5.3 結(jié)果展示-16 5.4 發(fā)現(xiàn)的問題-20 結(jié) 論-21 參 考 文 獻(xiàn)-22 致 謝-23 |