需要金幣:![]() ![]() |
資料包括:完整論文 | ![]() |
![]() |
轉(zhuǎn)換比率:金額 X 10=金幣數(shù)量, 例100元=1000金幣 | 論文字?jǐn)?shù):18081 | ![]() | |
折扣與優(yōu)惠:團(tuán)購最低可5折優(yōu)惠 - 了解詳情 | 論文格式:Word格式(*.doc) | ![]() |
摘要:近年來,隨著大數(shù)據(jù)時(shí)代的來臨,在互聯(lián)網(wǎng)這個(gè)行業(yè)中,最寶貴的資源之一就是數(shù)據(jù),尤其在當(dāng)今B2C時(shí)代,數(shù)據(jù)變得更加寶貴。海量數(shù)據(jù)蘊(yùn)含著巨大的研究?jī)r(jià)值,挖掘數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)中具有重要的意義。社交網(wǎng)絡(luò)不斷普及,社交平臺(tái)覆蓋面越來越廣,傳播速度加快,存在大量直接或間接數(shù)據(jù),在各個(gè)垂直領(lǐng)域都存在對(duì)目標(biāo)網(wǎng)站的數(shù)據(jù)進(jìn)行實(shí)時(shí)抓取、分析并推送給目標(biāo)用戶的需求。 論文闡述了網(wǎng)站數(shù)據(jù)抓?。ňW(wǎng)絡(luò)爬蟲)的原理和組成結(jié)構(gòu),介紹了基于Python的Scrapy框架的各個(gè)組成部分和控制流程,然后以4個(gè)典型的高信息價(jià)值的網(wǎng)站:財(cái)經(jīng)博客、本地論壇、房產(chǎn)網(wǎng)站、新浪微博作為數(shù)據(jù)來源進(jìn)行數(shù)據(jù)抓取和分析,開發(fā)了專門針對(duì)這些網(wǎng)站的垂直數(shù)據(jù)抓取和分析的網(wǎng)絡(luò)爬蟲,將正則表達(dá)式匹配到的數(shù)據(jù)存儲(chǔ)到MySql數(shù)據(jù)庫并進(jìn)行數(shù)據(jù)分析。本文分析采用正則表達(dá)式匹配算法/預(yù)定關(guān)鍵詞進(jìn)行用戶特征分析,基于文本聚合進(jìn)行智能分類,使用標(biāo)簽技術(shù)智能推送關(guān)聯(lián)不同分類。最后結(jié)合最新的移動(dòng)互聯(lián)網(wǎng)技術(shù),創(chuàng)新地使用了Android APP客戶端技術(shù)將用戶需要的信息實(shí)時(shí)推送和呈現(xiàn)到用戶手機(jī)上。 本系統(tǒng)也可以較方便地拓展到其他各個(gè)行業(yè)的垂直網(wǎng)站,通過自動(dòng)數(shù)據(jù)抓取和分析并推送到目標(biāo)用戶手機(jī)上,信息產(chǎn)生最大的價(jià)值,具有很好的應(yīng)用前景。
關(guān)鍵詞 Python爬蟲;數(shù)據(jù)分析;用戶特征分析;移動(dòng)應(yīng)用開發(fā)
目錄 摘要 Abstract 1 緒論-1 1.1 研究背景及意義-1 1.1.1 研究的背景-1 1.1.2 選題的來源-1 1.1.3 研究的意義-2 1.2 國(guó)內(nèi)外研究現(xiàn)狀-2 1.2.1 國(guó)內(nèi)的研究現(xiàn)狀-2 1.2.2 國(guó)外的研究現(xiàn)狀-2 1.3 研究的重點(diǎn)及技術(shù)路線-3 1.3.1 本文研究的重點(diǎn)-3 1.3.2 技術(shù)路線-3 2 開發(fā)工具和相關(guān)技術(shù)介紹-4 2.1 開發(fā)工具簡(jiǎn)介-4 2.2 Python簡(jiǎn)介-4 2.3 Scrapy爬蟲簡(jiǎn)介-5 2.4 Django框架-6 2.5 Gson解析-7 2.6 Android開源圖標(biāo)庫MPAndroidChart-8 3 環(huán)境搭建及安裝-10 3.1 基于Python抓取的環(huán)境搭建及安裝-10 3.2 Android環(huán)境搭建及安裝-12 4 基于Python的媒體數(shù)據(jù)抓取-13 4.1 數(shù)據(jù)抓?。ňW(wǎng)絡(luò)爬蟲)技術(shù)-13 4.2 媒體數(shù)據(jù)抓取-14 4.3 媒體數(shù)據(jù)存儲(chǔ)-16 4.4 本章小結(jié)-19 5 基于Python文本聚類的文本分析-20 5.1 概述-20 5.2 數(shù)據(jù)來源及分析目標(biāo)統(tǒng)計(jì)-20 5.3 數(shù)據(jù)相關(guān)性分析原理-22 5.4 本章小結(jié)-22 6 博客數(shù)據(jù)智能分類和博主特征分析-23 6.1 概述-23
6.2 智能分類推送之財(cái)經(jīng)博客-23 6.2.1 博主頭像及其他屬性相關(guān)規(guī)律-23 6.2.2 不同等級(jí)博主和回復(fù)率關(guān)系規(guī)律-23 6.2.3 股票分析之博主偏好-24 6.3 基于用戶模型的博主行為特征分析-24 6.3.1 博客博主行為特征模型建立-24 6.3.2 用戶行為特征分析實(shí)現(xiàn)-25 6.4 基于股票類型博主分析-25 6.4.1 基于關(guān)鍵詞的股票流派分類庫生成-26 6.4.2 博主博文流派傾向性統(tǒng)計(jì)-26 6.5 本章小結(jié)-26 7 基于Android客戶端系統(tǒng)實(shí)現(xiàn)-28 7.1 基于第三方授權(quán)登錄注冊(cè)管理模塊-28 7.1.1 模塊功能-28 7.1.2 界面設(shè)計(jì)-28 7.1.3 授權(quán)實(shí)現(xiàn)-30 7.2 面向行為屬性的博客博主分析模塊-33 7.2.1 模塊功能-33 7.2.2 界面設(shè)計(jì)-33 7.2.3 行為分析實(shí)現(xiàn)-34 7.3 基于行為特征的論壇智能分類模塊-37 7.3.1 模塊功能-37 7.3.2 界面設(shè)計(jì)-37 7.3.3 論壇智能分類實(shí)現(xiàn)-39 7.4 面向樓盤的房產(chǎn)分析模塊-40 7.4.1 模塊功能-40 7.4.2 界面設(shè)計(jì)-40 7.4.3 房產(chǎn)分析實(shí)現(xiàn)-42 7.5 基于微偵探模式的用戶特征分析模塊-43 7.5.1 模塊功能-43 7.5.2 界面設(shè)計(jì)-43 7.5.3 用戶特征分析實(shí)現(xiàn)-45 7.6 面向用戶個(gè)性偏好的微樂推商品推薦模塊-43 7.6.1 模塊功能-43 7.6.2 界面設(shè)計(jì)-43 7.6.3 商品推薦-44 7.7 個(gè)人中心模塊-45 7.7.1 模塊功能-45 7.7.2 界面設(shè)計(jì)-45 7.7.3 個(gè)人中心-46 結(jié)論-47 致謝-48 參考文獻(xiàn)-49 |