需要金幣:![]() ![]() |
資料包括:完整論文 | ![]() |
![]() |
轉換比率:金額 X 10=金幣數(shù)量, 例100元=1000金幣 | 論文字數(shù):17292 | ![]() | |
折扣與優(yōu)惠:團購最低可5折優(yōu)惠 - 了解詳情 | 論文格式:Word格式(*.doc) | ![]() |
摘要:隨著互聯(lián)網(wǎng),物聯(lián)網(wǎng),嵌入式技術的飛速發(fā)展,人與人,人與物,物與物之間通過網(wǎng)絡連接起來,使我們的行為語言變得數(shù)字化,產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)有結構多樣,數(shù)量巨大,價值密度低,價值大的特點,被稱為大數(shù)據(jù)。這些數(shù)據(jù)都蘊藏著巨大的價值,但是現(xiàn)有的數(shù)據(jù)處理方式已經(jīng)不能滿足大數(shù)據(jù)的處理要求了。 Hadoop的誕生,使批量大數(shù)據(jù)存儲與分析變得容易且高效,因為Hadoop在處理數(shù)據(jù)時采用HDFS來分布式管理數(shù)據(jù)的存儲,提供一套機制實現(xiàn)數(shù)據(jù)的分布存儲,使磁盤的利用率最大化;采用MapReduce并行計算框架使計算的代碼在不同的機器上并行運行,并將結果統(tǒng)一,使CPU的利用率最大化。 本文主要介紹批量大數(shù)據(jù)的產(chǎn)生,大數(shù)據(jù)處理系統(tǒng)的發(fā)展與應用,并以一種流行的批量大數(shù)據(jù)處理系統(tǒng)Hadoop進行分析與應用。分析Hadoop的關鍵組件HDFS與MapReduce。通過對Hadoop系統(tǒng)的學習,設計一種基于Hadoop框架的網(wǎng)站日志文件處理模型,將生成的網(wǎng)絡日志文件上傳到HDFS,利用MapReduce進行分析得到網(wǎng)頁的訪問量,將得到的結果通過sqoop導出到Mysql關系型數(shù)據(jù)庫中。通過搭建Hadoop的集群實驗環(huán)境來驗證此系統(tǒng)的可用性并分析實驗結果。 關鍵詞:批量大數(shù)據(jù) Hadoop 網(wǎng)絡日志分析
目錄 摘要 Abstract 1緒論-1 1.1研究目的和意義-1 1.2研究背景-1 1.2.1國外現(xiàn)狀-1 1.2.2國內(nèi)現(xiàn)狀-2 1.3研究內(nèi)容-2 1.4文章結構-3 2批量大數(shù)據(jù)處理系統(tǒng)及其核心技術-3 2.1大數(shù)據(jù)-3 2.2批量大數(shù)據(jù)-4 2.3批量大數(shù)據(jù)處理系統(tǒng)-4 2.4批量大數(shù)據(jù)處理系統(tǒng)的應用場景-4 2.5 HDFS詳解-5 2.5.1 HDFS設計思想-5 2.5.2 HDFS塊-6 2.5.3 HDFS 組件-6 2.5.4 HDFS存取流程-8 2.5.5 HDFS編程-8 2.6 MapReduce詳解-9 2.6.1 MapReduce 設計思想-9 2.6.2 MapReduce 組件-10 2.6.3 MapReduce 作業(yè)流程-10 2.6.4 MapReduce的實現(xiàn)-12 2.7 本章小結-13 3 Hadoop批量大數(shù)據(jù)處理系統(tǒng)應用設計-13 3.1 設計背景-13 3.2 功能分析-14 3.3 日志格式分析-14 3.4 流程圖-15 3.5 功能模塊實現(xiàn)分析-15 3.5.1文件上傳模塊-15 3.5.2 數(shù)據(jù)統(tǒng)計分析模塊-16 3.5.3 數(shù)據(jù)導出模塊-19 3.6 本章小結-19 4搭建Hadoop批量大數(shù)據(jù)處理系統(tǒng)并分析實驗結果-20 4.1 實驗環(huán)境搭建-20 4.1.1硬件環(huán)境-20 4.1.2軟件環(huán)境-20 4.1.3 Hadoop集群偽分布式搭建方法-21 4.1.4 Hadoop集群分布式搭建方法-24 4.2實驗結果及分析-26 4.2.1測試Hadoop集群的可用性: wordcount-26 4.2.2測試網(wǎng)站日志處理系統(tǒng)可用性-28 4.2.3測試網(wǎng)站日志處理系統(tǒng)性能-31 4.3 本章小結-32 5總結與展望-33 5.1 論文總結-33 5.2 對未來的展望-33 致謝-34 參考文獻-35 |