需要金幣:![]() ![]() |
資料包括:完整論文 | ![]() |
![]() |
轉(zhuǎn)換比率:金額 X 10=金幣數(shù)量, 例100元=1000金幣 | 論文字?jǐn)?shù):8142 | ![]() | |
折扣與優(yōu)惠:團(tuán)購最低可5折優(yōu)惠 - 了解詳情 | 論文格式:Word格式(*.doc) | ![]() |
摘要:在這個信息化發(fā)展的大時代里,我們會發(fā)現(xiàn)無論在哪個領(lǐng)域都會用到或多或少的數(shù)學(xué)知識去解決一些必要的問題。比如在生物學(xué)研究中數(shù)學(xué)占了很大的比重。統(tǒng)計(jì)學(xué),包括多元統(tǒng)計(jì)學(xué),是生物信息學(xué)的數(shù)學(xué)基礎(chǔ)之一。 本課題主要研究6種革蘭氏陰性細(xì)菌分泌蛋白的分類問題。基于序列數(shù)據(jù)的分泌型蛋白質(zhì)類型的預(yù)測仍然是一個具有挑戰(zhàn)性的問題。在本文中,我們從特異性打分矩陣(PSSM)中提取了長程相關(guān)性信息。在17個不同間隔下,共提取了6800個特征,通過CFS特征選擇方法去除冗余信息,選擇了309個特征進(jìn)行預(yù)測。為了驗(yàn)證我們方法的性能,采用了杰克刀檢驗(yàn)和獨(dú)立數(shù)據(jù)集測試方法通過支持向量機(jī)進(jìn)行分類預(yù)測,其總精度分別是93.60 %和100.0 %。我們的研究結(jié)果與現(xiàn)有方法的比較表明,我們的方法對分泌蛋白類型預(yù)測是有效的。
關(guān)鍵詞:特征選擇;相關(guān)系數(shù);支持向量機(jī)算法
目錄 摘要 Abstract 1 生物信息學(xué)-1 1.1 生物信息學(xué)的基本概念及目標(biāo)-1 1.2 生物信息學(xué)的研究方向和發(fā)展前景-1 1.2.1生物信息學(xué)的研究方向-1 1.2.2 生物信息學(xué)的發(fā)展前景-2 2 機(jī)器學(xué)習(xí)方法介紹-3 2.1機(jī)器學(xué)習(xí)方法的意義及分類-3 2.1.1機(jī)器學(xué)習(xí)方法的意義-3 2.1.2機(jī)器學(xué)習(xí)方法的分類-3 2.2 特征選擇-4 2.3 支持向量機(jī)(SVM)的原理-5 3 分泌蛋白的統(tǒng)計(jì)方法與研究-9 3.1 分泌蛋白的介紹及其研究價值-9 3.2數(shù)據(jù)集和方法-10 3.2.1 數(shù)據(jù)集-10 3.2.2 特征提取-10 3.2.3 特征選擇與值的選擇-12 3.2.4 分類算法的構(gòu)建-13 3.3 預(yù)測評價-13 3.4 結(jié)果-13 結(jié) 論-16 參 考 文 獻(xiàn)-17 致 謝-19 |