需要金幣:![]() ![]() |
資料包括:完整論文 | ![]() |
![]() |
轉(zhuǎn)換比率:金額 X 10=金幣數(shù)量, 例100元=1000金幣 | 論文字?jǐn)?shù):14869 | ![]() | |
折扣與優(yōu)惠:團(tuán)購最低可5折優(yōu)惠 - 了解詳情 | 論文格式:Word格式(*.doc) | ![]() |
摘要:漢語多音詞消歧是自然語言處理領(lǐng)域的基礎(chǔ)問題之一。多音詞是漢語中普遍存在的現(xiàn)象,是自然語言處理不可回避的問題,因此多音詞若得不到很好的解決,將成為制約自動注音的瓶頸。近幾年來,雖然出現(xiàn)了一些自動注音軟件,但是多音詞消歧的問題仍沒有得到很好的解決。所以,本文對漢語多音詞的歧義消解進(jìn)行研究。 本文的主要工作如下: 多音詞抽取。從電子版的《現(xiàn)代漢語詞典》中統(tǒng)計出收錄的所有多音詞。 語料準(zhǔn)備。從2001年《人民日報》語料中抽取含多音詞的句子,根據(jù)音項對語料進(jìn)行標(biāo)注。 多音詞消歧。利用多音詞的語境信息進(jìn)行歧義消解并在語料上進(jìn)行了實(shí)驗(yàn)。本文使用了五種模型,即CRF、最大熵、RFR_SUM、SVM和語義相似度,對22個多音詞進(jìn)行了歧義消解,其平均正確率分別為85.27%、91.63%、94.04%、89.96%和89.16%。還使用了投票集成的方法,其平均正確率為96.34%。最后使用基于種子詞的方法對多音詞進(jìn)行消歧。 實(shí)現(xiàn)了一個自動注音系統(tǒng)。其可對62個多音詞進(jìn)行消歧。 關(guān)鍵詞:多音詞消歧,自動注音,CRF,最大熵,RFR_SUM,SVM,語義相似度,種子詞
Abstract:Chinese polyphone disambiguation is one primary problem in the field of Natural Language Processing.Polyphone is prevalent phenomenon in Chinese.Also polyphone can not be avoided in NLP.So,if the problem is not well resolved,it will become a bottleneck of phonetic automatic.In recent years,although there have been some softwares which phonetic automatically,it still does not have a very good solution to polyphone disambiguation.So,this paper studies on Chinese polyphone disambiguation. The details are as follows: Polyphone extracting.Extract all polyphones from the electronic version of "Modern Chinese Dictionary". Corpus prepareing.Extract sentences which contain polyphones from the "People's Daily" corpus of 2001 and categorize based on pronunciations. Polyphone disambiguation.This paper uses the context information of polyphone in disambiguation and tests in corpus.It uses five models,namely CRF,Maximum Entropy,RFR_SUM,SVM and similarity of word-sense,to disambiguate the pronunciation of 22 polyphone,the average accurate rates are: 85.27%、91.63%、94.04%、89.96% and 89.16%.Moreover,it uses integrated of voting which reaches 96.34%.Finally,this paper disambiguates polyphone based on seed word. Build a system of phonetic automatic which can disambiguate on 62 polyphones. Key Words:polyphone disambiguation,phonetic automatic,CRF,Maximum Entropy,RFR_SUM,SVM,similarity of word-sense,seed word
自然語言處理的一項重要任務(wù)就是對語言中存在的大量歧義現(xiàn)象進(jìn)行消解。通過對大量語料的研究發(fā)現(xiàn),現(xiàn)代漢語中存在大量的多音詞。所以,本文將對現(xiàn)代漢語中多音詞進(jìn)行相關(guān)的研究。在此基礎(chǔ)上,使用機(jī)器學(xué)習(xí)的方法對多音詞的讀音消歧進(jìn)行研究。最后,研究開發(fā)自動注音系統(tǒng)。 本文主要工作如下: 1、對《現(xiàn)代漢語詞典》中多音詞進(jìn)行統(tǒng)計分析; 2、從《人民日報》語料抽取含多音詞的句子并進(jìn)行標(biāo)注; 3、使用語境信息對多音詞的讀音進(jìn)行消歧; 4、建立自動注音系統(tǒng)。
|