需要金幣:![]() ![]() |
資料包括:完整論文 | ![]() |
![]() |
轉(zhuǎn)換比率:金額 X 10=金幣數(shù)量, 例100元=1000金幣 | 論文字?jǐn)?shù):7241 | ![]() | |
折扣與優(yōu)惠:團(tuán)購(gòu)最低可5折優(yōu)惠 - 了解詳情 | 論文格式:Word格式(*.doc) | ![]() |
摘要:人名的識(shí)別是自然語(yǔ)言處理中的一項(xiàng)基本任務(wù),漢語(yǔ)文本中少數(shù)民族人名的識(shí)別對(duì)漢語(yǔ)的自動(dòng)分詞等有重要意義。人名識(shí)別問(wèn)題的處理方法大體有三種,基于統(tǒng)計(jì)的方法、基于規(guī)則的方法和這兩種方法相結(jié)合的混合方法。目前有較多的漢語(yǔ)人名識(shí)別的研究,并且取得了比較不錯(cuò)的效果,但是漢語(yǔ)文本中少數(shù)民族人名識(shí)別的研究并不多。漢語(yǔ)文本中的少數(shù)民族人名大多是音譯或意譯出來(lái)的,這點(diǎn)類似于漢語(yǔ)文本中的外文譯名,所以漢語(yǔ)文本中少數(shù)民族人名的識(shí)別可以參照外文譯名的識(shí)別。 本文首先簡(jiǎn)單對(duì)現(xiàn)有中文人名識(shí)別的研究現(xiàn)狀和部分少數(shù)民族人名譯名識(shí)別的研究方法進(jìn)行介紹,然后使用基于條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)的方法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)首先收集大量含有少數(shù)民族人名的中文語(yǔ)料,然后對(duì)其中的少數(shù)民族人名進(jìn)行標(biāo)注。隨后使用分詞系統(tǒng)對(duì)已標(biāo)注語(yǔ)料采取分詞處理并進(jìn)行語(yǔ)料格式預(yù)處理。然后使用條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)模型訓(xùn)練。通過(guò)訓(xùn)練語(yǔ)料找出少數(shù)民族人名和上下文特點(diǎn)。然后依據(jù)少數(shù)民族人名及其上下文特點(diǎn)對(duì)漢語(yǔ)文本中少數(shù)民族人名的邊界做定位。最后用未標(biāo)注的語(yǔ)料來(lái)測(cè)試,實(shí)驗(yàn)結(jié)果表明,正確率達(dá)到了93.38%,召回率達(dá)到78.88%,F(xiàn)值為85.52%。
關(guān)鍵詞:條件隨機(jī)場(chǎng);少數(shù)民族人名;命名實(shí)體識(shí)別;自然語(yǔ)言處理
目錄 摘要 Abstract 1 緒論-1 1.1 研究背景-1 1.2 研究現(xiàn)狀-1 1.3 少數(shù)民族人名識(shí)別的困難-2 1.4 本文主要工作-2 2 準(zhǔn)備工作與條件隨機(jī)場(chǎng)(CRF)-4 2.1 準(zhǔn)備工作-4 2.2 條件隨機(jī)場(chǎng)(CRF)-4 2.2.1 條件隨機(jī)場(chǎng)(CRF)算法-4 2.2.2 條件隨機(jī)場(chǎng)(CRF)的定義-4 2.2.3 條件隨機(jī)場(chǎng)的應(yīng)用及簡(jiǎn)單評(píng)價(jià)-5 3 基于CRF的漢語(yǔ)文本中少數(shù)民族人名的識(shí)別-6 3.1 語(yǔ)料處理-6 3.2 模型的建立學(xué)習(xí)和測(cè)試-7 3.2.1 特征函數(shù)及其選擇-7 3.2.2 特征模版與測(cè)試-8 3.3 測(cè)評(píng)標(biāo)準(zhǔn)-10 4 實(shí)驗(yàn)結(jié)果及分析-12 4.1 實(shí)驗(yàn)工具和結(jié)果-12 4.2 結(jié)果分析-12 結(jié) 論-13 參 考 文 獻(xiàn)-14 致 謝-15 |