需要金幣:![]() ![]() |
資料包括:完整論文 | ![]() |
![]() |
轉(zhuǎn)換比率:金額 X 10=金幣數(shù)量, 例100元=1000金幣 | 論文字?jǐn)?shù):13128 | ![]() | |
折扣與優(yōu)惠:團(tuán)購最低可5折優(yōu)惠 - 了解詳情 | 論文格式:Word格式(*.doc) | ![]() |
摘要:詞義是詞匯在一定的語言環(huán)境下反應(yīng)的特定語言現(xiàn)象,它能明確地表達(dá)該詞匯在此語言環(huán)境下的語義屬性如感知、行為和情緒等;表達(dá)該詞匯與相關(guān)詞匯之間的關(guān)系,并且表達(dá)該詞匯所特有的知識和常識性的知識。在漢語言中,一個詞匯往往存在多個詞義,被稱為詞的多義性。但是,當(dāng)詞匯處于一定的語言環(huán)境時,它又只能具有唯一的意思。詞義消歧就是讓計算機(jī)自動為詞匯選擇正確的意思,是自然語言處理領(lǐng)域中詞匯級別上最大的難題。 詞義消歧是計算語言學(xué)領(lǐng)域的基礎(chǔ)性關(guān)鍵研究課題,作為一個“中間任務(wù)”,直接關(guān)系到信息檢索、文本分類、語音識別、機(jī)器翻譯、等語言處理應(yīng)用系統(tǒng)的效率和成敗。Weaver論及機(jī)器翻譯系統(tǒng)中必須進(jìn)行詞義消歧,這一點在Chan等人的研究中得到了證明,其研究表明詞義消歧可以顯著提升機(jī)器翻譯系統(tǒng)的準(zhǔn)確率。Stokoe等人證明高效的詞義消歧技術(shù)可以顯著提升信息檢索的準(zhǔn)確率。然而,正如Ide和Veronis所指出的那樣,雖然歷經(jīng)半個多世紀(jì)的努力,詞義消歧研究并沒有取得突破性進(jìn)展?,F(xiàn)在10個春秋又逝去了,詞義消歧依然是學(xué)人們孜孜以求攻克的難關(guān)。 無論是指導(dǎo)人們學(xué)習(xí)的詞典還是指導(dǎo)機(jī)器消歧的詞典都將遇到的一個難題是:如何對詞語進(jìn)行義項劃分? Kilgarriff批評書本型詞典由于受到“傳統(tǒng)、印張、易接受性”等多種因素的制約在義項分合上存在許多不足,這種詞典并不能很好地用于詞義分析。Veronis曾做過一個有趣的實驗: 600個詞語分配給6名語言學(xué)專業(yè)的學(xué)生,由他們依據(jù)辭書中的釋義對真實語料進(jìn)行詞義標(biāo)注。結(jié)果,不同標(biāo)注者之間的一致性非常低,對于有些詞語,標(biāo)注的不一致性甚至和隨機(jī)標(biāo)注一樣糟糕??傮w上講,傳統(tǒng)辭書上的義項劃分對于語言信息處理過于細(xì)微了一些。WordNet常被人反對之處就在于義項劃分太過細(xì)致。現(xiàn)在很多研究者傾向于粗粒度的義項劃分,一方面粗粒度義項可以保證更高的標(biāo)注一致性,另一方面基于粗粒度的義項劃分計算機(jī)自動詞義消歧可以達(dá)到一個相對高的準(zhǔn)確度,從而可以應(yīng)用于實際系統(tǒng)。 基于統(tǒng)計的詞義消歧模型的一個關(guān)鍵問題是怎樣自動從語料庫中獲取指示詞,雖然通過學(xué)習(xí)搭配實例能夠在語料庫中獲取更多的搭配知識,但人工獲取質(zhì)量較好的初始搭配是比較困難的 ,并且無法保證有效的擴(kuò)大搭配知識。針對該問題,提出了通過機(jī)器學(xué)習(xí)搭配實例獲取最優(yōu)種子,再用最優(yōu)種子擴(kuò)增更多指示詞,最后利用這些指示詞實現(xiàn)具有多個義項的多義詞消歧。 關(guān)鍵詞:多義詞消歧 基于指示詞 RFR_SUM模型 最大熵 語境計算模型 |