需要金幣:![]() ![]() |
資料包括:完整論文 | ![]() |
![]() |
轉(zhuǎn)換比率:金額 X 10=金幣數(shù)量, 例100元=1000金幣 | 論文字?jǐn)?shù):14592 | ![]() | |
折扣與優(yōu)惠:團(tuán)購最低可5折優(yōu)惠 - 了解詳情 | 論文格式:Word格式(*.doc) | ![]() |
摘要:作為大數(shù)據(jù)時代的典型代表,維基百科這個巨大的知識庫蘊(yùn)藏著豐富的價值,逐漸成為知識挖掘領(lǐng)域的重點(diǎn)研究對象。整個維基百科的實體-鏈接形成了一個規(guī)模龐大、非常稠密的圖結(jié)構(gòu),是一個優(yōu)良的可供語義挖掘的語料庫。 本課題從中文維基百科的內(nèi)容和鏈接角度出發(fā),構(gòu)建了中文維基百科的實體-鏈接圖譜,利用現(xiàn)代信息檢索的技術(shù),首先對數(shù)據(jù)進(jìn)行了數(shù)據(jù)清洗、停用詞過濾、中文分詞等預(yù)處理工作。接著將實體的頁面信息內(nèi)容作為文本特征,利用TF-IDF的權(quán)重計算方法求得各實體頁面內(nèi)容的關(guān)鍵詞。然后利用向量空間模型VSM,計算實體對應(yīng)的文本向量之間的相關(guān)度,并通過余弦相似度計算該實體與每個與它有鏈接的實體間相似度的大小。最后實現(xiàn)了基于中文維基百科實體語義關(guān)聯(lián)網(wǎng)絡(luò)的可視化平臺,該可視化平臺能夠展示維基詞條間復(fù)雜的語義關(guān)系,便于進(jìn)行鏈接的分析。 關(guān)鍵詞:維基百科 語義相關(guān)度 實體-鏈接圖譜
目錄 摘要 Abstract 1緒論-1 1.1研究背景-1 1.2問題的提出-2 1.3相關(guān)工作-3 1.4本文主要工作-4 1.5論文組織-5 2中文維基百科鏈接圖的構(gòu)建-5 2.1中文維基簡介-5 2.2鏈接抽取和鏈接圖構(gòu)建-8 3中文鏈接分析-9 3.1算法思路-9 3.2數(shù)據(jù)預(yù)處理-10 3.2.1數(shù)據(jù)清洗-11 3.2.2停用詞過濾-11 3.2.3中文分詞-12 3.3統(tǒng)計加權(quán)方法TF-IDF-13 3.4向量空間模型VSM-14 4可視化平臺實現(xiàn)-16 4.1可視化平臺的功能-16 4.2可視化平臺的設(shè)計-17 4.3可視化平臺的測試-18 5總結(jié)與展望-22 6致謝-23 參考文獻(xiàn)-23 |