機器學習范文

時間:2023-04-10 03:56:12

導(dao)語(yu):如何才能寫好(hao)一篇(pian)機器學習,這(zhe)就需要搜(sou)集整理(li)更多的資料和文獻,歡迎閱讀由公(gong)務員之家整理(li)的十篇(pian)范文,供你借鑒。

篇1

關鍵詞:機器學習;數據挖掘;算法

中圖分類(lei)號(hao):TP182 文(wen)(wen)獻識別碼:A 文(wen)(wen)章編號(hao):1001-828X(2017)013-0-01

一、機器學(xue)習的應(ying)用(yong)

機器(qi)(qi)學(xue)(xue)(xue)習(xi)(xi)的(de)方法(fa)(fa)可以應用(yong)(yong)(yong)到許多領(ling)域(yu)(yu)中,包括研究(jiu),科(ke)技(ji)(ji)、商(shang)業領(ling)域(yu)(yu)等(deng),這些領(ling)域(yu)(yu)的(de)機器(qi)(qi)學(xue)(xue)(xue)習(xi)(xi)運(yun)用(yong)(yong)(yong)越(yue)來越(yue)成熟(shu)和高效。研究(jiu)中運(yun)用(yong)(yong)(yong)機器(qi)(qi)學(xue)(xue)(xue)習(xi)(xi)發現(xian)人(ren)類不容易發現(xian)的(de)規(gui)律;科(ke)技(ji)(ji)中運(yun)用(yong)(yong)(yong)機器(qi)(qi)學(xue)(xue)(xue)習(xi)(xi)提(ti)高了(le)科(ke)技(ji)(ji)解決(jue)(jue)實際生活的(de)能力(li);商(shang)業領(ling)域(yu)(yu)運(yun)用(yong)(yong)(yong)機器(qi)(qi)學(xue)(xue)(xue)習(xi)(xi)更好的(de)挖掘客戶(hu)和滿足客戶(hu)。除(chu)此之外,機器(qi)(qi)學(xue)(xue)(xue)習(xi)(xi)也為(wei)其他領(ling)域(yu)(yu)帶來不小的(de)突破。機器(qi)(qi)學(xue)(xue)(xue)習(xi)(xi)集(ji)中解決(jue)(jue)兩個(ge)問(wen)題:其一,如何讓(rang)電腦系統(tong)利用(yong)(yong)(yong)經(jing)驗數據提(ti)高我們工(gong)(gong)作效率(lv)。其二,如何有效率(lv)地提(ti)高機器(qi)(qi)學(xue)(xue)(xue)習(xi)(xi)算法(fa)(fa)的(de)準確率(lv)。機器(qi)(qi)學(xue)(xue)(xue)習(xi)(xi)對于解決(jue)(jue)科(ke)學(xue)(xue)(xue)和工(gong)(gong)程中的(de)問(wen)題和在各種生活領(ling)域(yu)(yu)的(de)實踐問(wen)題是重要的(de)。

二、機(ji)器學習的發展

過去的(de)(de)(de)二十年機器(qi)學習(xi)(xi)(xi)的(de)(de)(de)發展取得了(le)(le)極大的(de)(de)(de)進步。走出了(le)(le)驗室,走向了(le)(le)包括商業(ye)領域的(de)(de)(de)廣(guang)(guang)泛運用(yong)(yong)(yong)(yong)。在(zai)人(ren)工智能(AI)中(zhong),機器(qi)學習(xi)(xi)(xi)被作為一種重(zhong)要的(de)(de)(de)方法應(ying)用(yong)(yong)(yong)(yong)到電腦(nao)可視化,語(yu)音識別(bie),自然語(yu)言處理,機器(qi)人(ren)控制和其他(ta)應(ying)用(yong)(yong)(yong)(yong)中(zhong)。許(xu)多(duo)(duo)人(ren)工智能的(de)(de)(de)開(kai)發者開(kai)始認識到,對于許(xu)多(duo)(duo)應(ying)用(yong)(yong)(yong)(yong)場景,訓(xun)練一個(ge)系(xi)(xi)(xi)統去出示輸入輸出的(de)(de)(de)結(jie)果,比(bi)人(ren)工分析(xi)內在(zai)機理更容易(yi)。機器(qi)學習(xi)(xi)(xi)的(de)(de)(de)準確性在(zai)很多(duo)(duo)應(ying)用(yong)(yong)(yong)(yong)中(zhong)比(bi)人(ren)類自己的(de)(de)(de)分析(xi)結(jie)果要高(gao)得多(duo)(duo)。機器(qi)學習(xi)(xi)(xi)的(de)(de)(de)影響已經(jing)廣(guang)(guang)泛傳播(bo)到運用(yong)(yong)(yong)(yong)計(ji)算機和數據庫的(de)(de)(de)行(xing)業(ye)里,例如,顧客服務(wu),醫療診斷系(xi)(xi)(xi)統,資源分配。在(zai)以(yi)經(jing)驗為主的(de)(de)(de)學科(ke)(ke),像(xiang)歷史(shi)學,醫學到人(ren)文(wen)學科(ke)(ke),機器(qi)學習(xi)(xi)(xi)也有其用(yong)(yong)(yong)(yong)武之地。學習(xi)(xi)(xi)問題可能被定義為當執行(xing)某(mou)些任務(wu)時,通過不(bu)斷的(de)(de)(de)訓(xun)練提高(gao)解決能力[1]。例如,在(zai)學習(xi)(xi)(xi)偵(zhen)察信(xin)用(yong)(yong)(yong)(yong)卡(ka)詐(zha)(zha)騙(pian)(pian)(pian)時,我們需要給所(suo)有的(de)(de)(de)信(xin)用(yong)(yong)(yong)(yong)卡(ka)交易(yi)貼(tie)上一個(ge)是不(bu)是詐(zha)(zha)騙(pian)(pian)(pian)的(de)(de)(de)標簽。測(ce)量表現將會(hui)由(you)于這個(ge)詐(zha)(zha)騙(pian)(pian)(pian)鑒(jian)別(bie)分類器(qi)被提高(gao),而它的(de)(de)(de)訓(xun)練是由(you)以(yi)前的(de)(de)(de)一系(xi)(xi)(xi)列詐(zha)(zha)騙(pian)(pian)(pian)案例所(suo)構成。

三、機(ji)器(qi)學(xue)習的模型與算法

在(zai)不(bu)同(tong)的(de)(de)現實問(wen)題(ti)中機(ji)器學習(xi)算法(fa)(fa)也依據(ju)數(shu)據(ju)與(yu)模(mo)型的(de)(de)不(bu)同(tong)有了很(hen)大(da)(da)的(de)(de)差別。概念(nian)上機(ji)器學習(xi)算法(fa)(fa)被視為在(zai)一(yi)(yi)(yi)(yi)(yi)堆候(hou)選算法(fa)(fa)中選取一(yi)(yi)(yi)(yi)(yi)種對(dui)原始表現擬合(he)最好的(de)(de)程(cheng)序。機(ji)器學習(xi)算法(fa)(fa)的(de)(de)結(jie)論(lun)好壞差別非常(chang)大(da)(da),很(hen)大(da)(da)程(cheng)度(du)上因(yin)為所用到(dao)的(de)(de)數(shu)據(ju)和(he)模(mo)型的(de)(de)差別。這(zhe)里的(de)(de)數(shu)據(ju)集(ji)分(fen)為訓練集(ji)和(he)測試集(ji)。它(ta)(ta)努力(li)從不(bu)同(tong)的(de)(de)程(cheng)序中收集(ji)最好的(de)(de)算法(fa)(fa)。許(xu)多(duo)方法(fa)(fa)集(ji)中在(zai)函數(shu)取值問(wen)題(ti),它(ta)(ta)們集(ji)中研究(jiu)函數(shu)。給定一(yi)(yi)(yi)(yi)(yi)個(ge)(ge)(ge)輸入,就有一(yi)(yi)(yi)(yi)(yi)個(ge)(ge)(ge)輸出。學習(xi)問(wen)題(ti)就是如(ru)何找出一(yi)(yi)(yi)(yi)(yi)個(ge)(ge)(ge)更精確(que)的(de)(de)函數(shu)。通(tong)常(chang)函數(shu)以參(can)數(shu)化(hua)的(de)(de)形(xing)式呈現,而(er)在(zai)另一(yi)(yi)(yi)(yi)(yi)些(xie)情(qing)況下,函數(shu)具(ju)體形(xing)式不(bu)太清楚(chu),它(ta)(ta)是由一(yi)(yi)(yi)(yi)(yi)個(ge)(ge)(ge)搜(sou)索(suo)過程(cheng)、一(yi)(yi)(yi)(yi)(yi)個(ge)(ge)(ge)因(yin)子分(fen)解、一(yi)(yi)(yi)(yi)(yi)個(ge)(ge)(ge)極(ji)大(da)(da)化(hua)過程(cheng)、一(yi)(yi)(yi)(yi)(yi)個(ge)(ge)(ge)仿(fang)真過程(cheng)等(deng)構(gou)成。即(ji)使(shi)函數(shu)形(xing)式不(bu)太清楚(chu),其一(yi)(yi)(yi)(yi)(yi)般都依賴于參(can)數(shu)與(yu)自由度(du),訓練找到(dao)這(zhe)些(xie)參(can)數(shu)的(de)(de)過程(cheng)往往使(shi)得表現測度(du)最優化(hua)[2]。

下面是(shi)(shi)機(ji)(ji)器(qi)學(xue)(xue)習(xi)(xi)主(zhu)流(liu)的(de)(de)(de)各種(zhong)算(suan)(suan)法(fa)(fa)(fa), 算(suan)(suan)法(fa)(fa)(fa)是(shi)(shi)機(ji)(ji)器(qi)學(xue)(xue)習(xi)(xi)的(de)(de)(de)核(he)心(xin),要(yao)了解不同算(suan)(suan)法(fa)(fa)(fa)的(de)(de)(de)難點所在,更(geng)要(yao)了解不同算(suan)(suan)法(fa)(fa)(fa)的(de)(de)(de)優(you)勢以(yi)及應用場合(he)。算(suan)(suan)法(fa)(fa)(fa)離不開對(dui)于數學(xue)(xue)基礎,也(ye)與(yu)統計學(xue)(xue)的(de)(de)(de)建模(mo)有(you)關系;由于算(suan)(suan)法(fa)(fa)(fa)的(de)(de)(de)計算(suan)(suan)難度(du)比(bi)(bi)較(jiao)大,更(geng)與(yu)計算(suan)(suan)機(ji)(ji)的(de)(de)(de)計算(suan)(suan)性能有(you)關,所以(yi)算(suan)(suan)法(fa)(fa)(fa)研究(jiu)顯(xian)得(de)非常重要(yao)但也(ye)比(bi)(bi)較(jiao)困(kun)難。算(suan)(suan)法(fa)(fa)(fa)可以(yi)說(shuo)是(shi)(shi)機(ji)(ji)器(qi)學(xue)(xue)習(xi)(xi)的(de)(de)(de)內核(he),一種(zhong)好(hao)算(suan)(suan)法(fa)(fa)(fa)的(de)(de)(de)提出,對(dui)于機(ji)(ji)器(qi)學(xue)(xue)習(xi)(xi)是(shi)(shi)劃時代的(de)(de)(de)貢獻。

四(si)、機器學習(xi)的商業(ye)重(zhong)要性

這個時代是一(yi)個互聯網信息(xi)爆炸的(de)(de)(de)時代,隨著網絡的(de)(de)(de)迅速發展和(he)普及,使得信息(xi)量極大豐富,由于(yu)我們獲得海量數(shu)據的(de)(de)(de)便捷性,我們可以利用的(de)(de)(de)數(shu)據進行分(fen)析變得越(yue)(yue)來(lai)越(yue)(yue)容(rong)易,收(shou)集(ji)的(de)(de)(de)信息(xi)門類五花八門。對(dui)于(yu)各(ge)個行業(ye),還(huan)能收(shou)集(ji)與行業(ye)、競爭對(dui)手(shou)、客戶(hu)和(he)市場有關(guan)(guan)的(de)(de)(de)信息(xi),能夠很(hen)好(hao)的(de)(de)(de)分(fen)析和(he)處理(li)那(nei)些對(dui)企(qi)(qi)(qi)業(ye)有重大價值的(de)(de)(de)信息(xi)成(cheng)為未來(lai)企(qi)(qi)(qi)業(ye)脫(tuo)穎(ying)而出(chu)(chu)的(de)(de)(de)關(guan)(guan)鍵。根據分(fen)析結果找出(chu)(chu)企(qi)(qi)(qi)業(ye)面臨的(de)(de)(de)問題和(he)漏洞(dong),更好(hao)的(de)(de)(de)管(guan)理(li)企(qi)(qi)(qi)業(ye),讓企(qi)(qi)(qi)業(ye)取得生存發展空間。

可見(jian)數(shu)(shu)據挖掘(jue)對于企(qi)業(ye)(ye)的(de)(de)(de)重(zhong)要(yao)性(xing),未來(lai)(lai)從(cong)事機器(qi)學習相關崗位的(de)(de)(de)人員(yuan)將會越(yue)(yue)來(lai)(lai)越(yue)(yue)多,數(shu)(shu)據挖據不僅在(zai)一些大的(de)(de)(de)公司有重(zhong)要(yao)的(de)(de)(de)作用(yong),在(zai)小(xiao)企(qi)業(ye)(ye)里也是不可或缺的(de)(de)(de)。數(shu)(shu)據在(zai)公司經(jing)營中提供了(le)非(fei)常有價(jia)值(zhi)的(de)(de)(de)商業(ye)(ye)信息,數(shu)(shu)據中蘊含了(le)巨大的(de)(de)(de)商業(ye)(ye)潛力。數(shu)(shu)據像一個盒(he)子。不是我們隨便看(kan)看(kan)的(de)(de)(de)就能得到(dao)指(zhi)導性(xing)的(de)(de)(de)意見(jian)。大數(shu)(shu)據時代的(de)(de)(de)到(dao)來(lai)(lai)尤其為(wei)管理者既帶來(lai)(lai)了(le)機會,又增加了(le)困難(nan)。因(yin)為(wei)他(ta)們要(yao)面對的(de)(de)(de)是更加龐雜的(de)(de)(de)數(shu)(shu)據系統,從(cong)中找出他(ta)們需要(yao)的(de)(de)(de)具(ju)體規律,這(zhe)本身不是一件容(rong)易的(de)(de)(de)事。所以(yi)以(yi)后機器(qi)學習會越(yue)(yue)來(lai)(lai)越(yue)(yue)走(zou)向我們的(de)(de)(de)企(qi)業(ye)(ye),為(wei)企(qi)業(ye)(ye)帶來(lai)(lai)價(jia)值(zhi)。

參考文獻:

[1]M.I.Jordan1 and T.M.Mitchell2.MachineL earning: Treads, perspective, prospects ,science,2015.

篇2

關鍵詞: 機(ji)器學(xue)習 人(ren)工智能 基本(ben)模型

1.引言

“機器(qi)學(xue)(xue)(xue)習(xi)(xi)”是(shi)人工(gong)智(zhi)能(neng)的(de)重要(yao)研(yan)究領域之(zhi)一。機器(qi)學(xue)(xue)(xue)習(xi)(xi)的(de)定義是(shi)“系(xi)統通過積累經驗而改善系(xi)統自身的(de)性能(neng)”。通俗地說,就是(shi)讓機器(qi)去學(xue)(xue)(xue)習(xi)(xi),利用(yong)學(xue)(xue)(xue)到的(de)知識(shi)來指導下(xia)一步的(de)判斷。最初研(yan)究機器(qi)學(xue)(xue)(xue)習(xi)(xi),是(shi)讓計算機具有(you)(you)學(xue)(xue)(xue)習(xi)(xi)的(de)能(neng)力(li),以實現智(zhi)能(neng)化。因為人們(men)認為具有(you)(you)人工(gong)智(zhi)能(neng)的(de)系(xi)統首先必須(xu)具有(you)(you)學(xue)(xue)(xue)習(xi)(xi)能(neng)力(li)。機器(qi)學(xue)(xue)(xue)習(xi)(xi)的(de)研(yan)究始于神(shen)經元模型(xing)(xing)研(yan)究,此(ci)后又經歷了(le)符(fu)號概念(nian)獲取、知識(shi)強化學(xue)(xue)(xue)習(xi)(xi)研(yan)究階(jie)段,至(zhi)今(jin)已發展到連(lian)接學(xue)(xue)(xue)習(xi)(xi)和混合型(xing)(xing)學(xue)(xue)(xue)習(xi)(xi)研(yan)究階(jie)段。

2.機器學習系統(tong)的(de)基本模(mo)型

根據機器學習的定義,建立如(ru)圖1所示的機器學習基本模型(xing)。

模型中包含(han)學習系統的四個基本(ben)組(zu)成環節(jie)。

環(huan)(huan)(huan)境(jing)和知(zhi)(zhi)識(shi)庫是以某(mou)種(zhong)知(zhi)(zhi)識(shi)表(biao)示形式表(biao)達的(de)(de)信息的(de)(de)集合,分(fen)別代(dai)表(biao)外界信息來(lai)源和系(xi)統具有的(de)(de)知(zhi)(zhi)識(shi)。學(xue)習(xi)(xi)環(huan)(huan)(huan)節和執行環(huan)(huan)(huan)節代(dai)表(biao)兩個(ge)過程。學(xue)習(xi)(xi)環(huan)(huan)(huan)節處理環(huan)(huan)(huan)境(jing)提供(gong)的(de)(de)信息,以便(bian)改(gai)善知(zhi)(zhi)識(shi)庫中(zhong)的(de)(de)知(zhi)(zhi)識(shi)。執行環(huan)(huan)(huan)節是整個(ge)機器學(xue)習(xi)(xi)系(xi)統的(de)(de)核心。利(li)用知(zhi)(zhi)識(shi)庫中(zhong)的(de)(de)知(zhi)(zhi)識(shi)來(lai)完成某(mou)種(zhong)任務,并把執行中(zhong)獲得的(de)(de)信息送還給學(xue)習(xi)(xi)環(huan)(huan)(huan)節。

2.1機(ji)器學習(xi)的分類

很多學(xue)(xue)者從不同的(de)(de)(de)角(jiao)度對機(ji)器學(xue)(xue)習(xi)進行了(le)分類,這里簡單(dan)闡述一下繼續(xu)學(xue)(xue)習(xi)策略的(de)(de)(de)機(ji)器學(xue)(xue)習(xi)的(de)(de)(de)種類。按(an)照學(xue)(xue)習(xi)策略的(de)(de)(de)不同,機(ji)器學(xue)(xue)習(xi)分為機(ji)械學(xue)(xue)習(xi)、歸(gui)納學(xue)(xue)習(xi)、基于(yu)解(jie)釋(shi)的(de)(de)(de)學(xue)(xue)習(xi)、基于(yu)神經(jing)網(wang)絡的(de)(de)(de)學(xue)(xue)習(xi)和基于(yu)遺傳算法的(de)(de)(de)學(xue)(xue)習(xi)。

2.1.1機械學習

機械(xie)學(xue)習(Rote Learning)就(jiu)是“死記(ji)硬背式的(de)(de)學(xue)習”,靠記(ji)憶(yi)存儲(chu)知識,需要(yao)時檢(jian)索(suo)已(yi)(yi)經存下(xia)來的(de)(de)知識使用,不(bu)需要(yao)計(ji)算和(he)推理。機械(xie)學(xue)習的(de)(de)模式如下(xia):需要(yao)解決的(de)(de)問(wen)(wen)(wen)題(ti)為{y,y,...,yn},輸入已(yi)(yi)知信息{x,x,...x}后(hou)(hou),解決了該(gai)問(wen)(wen)(wen)題(ti),于是將記(ji)錄對{{x,x,...,x},{y,y,...,y}}存入數據(ju)庫(ku)(ku),以后(hou)(hou)當遇到問(wen)(wen)(wen){y,y,...,y}時,檢(jian)索(suo)數據(ju)庫(ku)(ku),即可(ke)得到問(wen)(wen)(wen)題(ti){y,y,...,y}的(de)(de)解答(da)是{x,x,...,x}。

能實(shi)現(xian)機(ji)械式學(xue)習算(suan)法的(de)(de)(de)系統(tong)只需具備兩種基本技(ji)能:記憶與檢索。此外,存(cun)(cun)儲(chu)(chu)的(de)(de)(de)合理安排,信息的(de)(de)(de)合理結合,以及檢索最優(you)方向的(de)(de)(de)控制也是(shi)系統(tong)應(ying)該考慮的(de)(de)(de)問題(ti)。該算(suan)法簡(jian)單、容易實(shi)現(xian)、計(ji)算(suan)快速,但(dan)是(shi)由于(yu)系統(tong)不具備歸(gui)納(na)推(tui)理的(de)(de)(de)功能,對每(mei)個不同的(de)(de)(de)問題(ti),即(ji)使是(shi)類似的(de)(de)(de)問題(ti),也需要(yao)知識庫中(zhong)有(you)不同的(de)(de)(de)記錄。因此占(zhan)用(yong)大量的(de)(de)(de)存(cun)(cun)儲(chu)(chu)空間(jian),這是(shi)典型的(de)(de)(de)以空間(jian)換時間(jian)的(de)(de)(de)算(suan)法。

2.1.2歸納學習

歸(gui)納(na)學習(xi)是應用歸(gui)納(na)推理進(jin)行(xing)學習(xi)的(de)一種方法(fa)。歸(gui)納(na)學習(xi)的(de)過程是由特殊(shu)實例推導(dao)出一般(ban)情況的(de)過程,這樣就(jiu)使類似(si)的(de)問題可(ke)以利用同樣的(de)方法(fa)求解。歸(gui)納(na)學習(xi)的(de)過程就(jiu)是示例空(kong)間(jian)與(yu)規則空(kong)間(jian)的(de)相互利用與(yu)反饋(kui)。1974年,Simon和Lea提出了雙空(kong)間(jian)模型,形象地(di)對(dui)這一執(zhi)行(xing)過程進(jin)行(xing)了描述(shu),如圖(tu)2所示。

歸(gui)納(na)學習算法(fa)(fa)(fa)簡(jian)單,節省存(cun)儲空間,在一(yi)段時間內得到了廣泛的(de)(de)應用。在應用過(guo)(guo)程(cheng)中,該(gai)算法(fa)(fa)(fa)逐漸顯(xian)現出(chu)它的(de)(de)缺點:(1)歸(gui)納(na)結(jie)論(lun)是(shi)通過(guo)(guo)對(dui)(dui)大量的(de)(de)實(shi)例分析(xi)得出(chu)的(de)(de),這(zhe)就要求(qiu)結(jie)論(lun)的(de)(de)得出(chu)要有(you)大量實(shi)例作支撐,而(er)這(zhe)在許多領域都是(shi)無(wu)法(fa)(fa)(fa)滿足的(de)(de)。(2)歸(gui)納(na)結(jie)論(lun)是(shi)由(you)不完全訓練集得出(chu)的(de)(de),因(yin)而(er)其正確性無(wu)法(fa)(fa)(fa)保證,只能使(shi)結(jie)論(lun)以一(yi)定概率成立。(3)該(gai)算法(fa)(fa)(fa)通過(guo)(guo)對(dui)(dui)實(shi)例的(de)(de)分析(xi)與對(dui)(dui)比得出(chu)結(jie)論(lun),對(dui)(dui)于信息(xi)的(de)(de)重要性與相關(guan)關(guan)系(xi)無(wu)法(fa)(fa)(fa)辨別。

2.1.3基于解釋的學習

基于解釋的(de)(de)學習(Explanation-Based Learning)是(shi)運用(yong)已(yi)知(zhi)相關(guan)領(ling)域的(de)(de)知(zhi)識及(ji)訓練實例,對某個目(mu)標概(gai)念進(jin)行(xing)學習,并通過(guo)后(hou)繼的(de)(de)不斷練習,得到(dao)目(mu)標概(gai)念的(de)(de)一(yi)般化描述(shu)。該(gai)學習的(de)(de)執行(xing)過(guo)程如圖3所(suo)示。

這種方式的(de)學習(xi)得到(dao)一(yi)個領域(yu)完(wan)善(shan)的(de)知識(shi)往往是比較困難的(de),這就對(dui)該(gai)算法提出了更高的(de)要(yao)求。為解決(jue)知識(shi)不(bu)完(wan)善(shan)領域(yu)的(de)問題,有(you)以(yi)下(xia)兩個研究方向[2]:(1)改(gai)進(jin)該(gai)算法使其在(zai)不(bu)完(wan)善(shan)的(de)領域(yu)理(li)論中(zhong)依然有(you)效(xiao)。(2)擴充該(gai)領域(yu)的(de)知識(shi)使其擁有(you)更強的(de)解釋能力。通常情況下(xia),第二種改(gai)進(jin)方法更重要(yao)些(xie)。

2.1.4基于神經網絡的(de)學(xue)習

神(shen)(shen)(shen)經(jing)網(wang)絡是(shi)由許多類似(si)(si)神(shen)(shen)(shen)經(jing)元的(de)(de)節點和它們(men)之間(jian)帶權的(de)(de)連接組成(cheng)的(de)(de)復(fu)(fu)雜網(wang)絡結(jie)構(gou),是(shi)為模仿人類大(da)腦(nao)的(de)(de)復(fu)(fu)雜神(shen)(shen)(shen)經(jing)結(jie)構(gou)而建立起來(lai)的(de)(de)抽象數據模型,希望(wang)相似(si)(si)的(de)(de)拓撲結(jie)構(gou)可以(yi)使機(ji)器像人腦(nao)一(yi)樣進行數據的(de)(de)分(fen)析、存儲與使用。神(shen)(shen)(shen)經(jing)網(wang)絡學習的(de)(de)過(guo)(guo)程(cheng)就(jiu)是(shi)不斷修正連接權的(de)(de)過(guo)(guo)程(cheng)。在網(wang)絡的(de)(de)使用過(guo)(guo)程(cheng)中,對于特定的(de)(de)輸入模式,神(shen)(shen)(shen)經(jing)網(wang)絡通過(guo)(guo)前向計(ji)算,產生一(yi)個輸出模式,并得到(dao)節點代表的(de)(de)邏(luo)輯概念,通過(guo)(guo)對輸出信號的(de)(de)比較與分(fen)析可以(yi)得到(dao)特定解。在整個過(guo)(guo)程(cheng)中,神(shen)(shen)(shen)經(jing)元之間(jian)具(ju)有一(yi)定的(de)(de)冗余性(xing),且(qie)允(yun)許輸入模式偏(pian)離(li)學習樣本,因此神(shen)(shen)(shen)經(jing)網(wang)絡的(de)(de)計(ji)算行為具(ju)有良好的(de)(de)并行分(fen)布、容錯和抗噪(zao)能力。

神(shen)經(jing)網絡學習算法(fa)是一(yi)種(zhong)仿真算法(fa),擁有(you)良好的認識(shi)模擬能(neng)(neng)力(li)和有(you)高度的并行分布(bu)式處理(li)能(neng)(neng)力(li)。但神(shen)經(jing)網絡模型(xing)及其參數設置難(nan)以(yi)(yi)確定,需要長時間(jian)的試驗(yan)摸索過程。并且,對于最后(hou)得到(dao)的神(shen)經(jing)網絡,其反映的知識(shi)往往難(nan)以(yi)(yi)讓人理(li)解(jie)。為解(jie)決這些問題,構造神(shen)經(jing)網絡集成并從神(shen)經(jing)網絡或神(shen)經(jing)網絡集成中抽取規(gui)則成為當前研究的熱點(dian)。

2.1.5基(ji)于遺傳算法(fa)的(de)學習

遺(yi)傳(chuan)算(suan)(suan)法以自(zi)然(ran)進化(hua)(hua)和遺(yi)傳(chuan)學(xue)為(wei)基礎,通(tong)過(guo)(guo)(guo)模擬(ni)自(zi)然(ran)界中生(sheng)物的(de)(de)(de)(de)繁殖與(yu)進化(hua)(hua)過(guo)(guo)(guo)程,使(shi)訓練結果(guo)逐漸(jian)優化(hua)(hua)。與(yu)遺(yi)傳(chuan)過(guo)(guo)(guo)程類似,在學(xue)習過(guo)(guo)(guo)程中,通(tong)過(guo)(guo)(guo)選擇最好結果(guo)并使(shi)其組合產(chan)生(sheng)下一(yi)代(dai),使(shi)“優秀(xiu)的(de)(de)(de)(de)遺(yi)傳(chuan)因子(zi)”逐代(dai)積累,最后得到最優的(de)(de)(de)(de)解。遺(yi)傳(chuan)算(suan)(suan)法解決了神經網絡(luo)學(xue)習中的(de)(de)(de)(de)一(yi)個缺(que)點(dian),它不需要知(zhi)道原(yuan)始信(xin)息而只需知(zhi)道學(xue)習的(de)(de)(de)(de)目的(de)(de)(de)(de)即可(ke)進行,具有(you)(you)(you)很強的(de)(de)(de)(de)并行計算(suan)(suan)能(neng)(neng)力(li)和適應能(neng)(neng)力(li)。此外(wai),遺(yi)傳(chuan)算(suan)(suan)法采(cai)取的(de)(de)(de)(de)隨機搜索(suo)方法提高(gao)了該(gai)學(xue)習算(suan)(suan)法對全局搜索(suo)的(de)(de)(de)(de)能(neng)(neng)力(li)。遺(yi)傳(chuan)算(suan)(suan)法的(de)(de)(de)(de)缺(que)點(dian)主要體(ti)現在三個方面(mian):無法確定最終解的(de)(de)(de)(de)全局最優性(xing);無法控制(zhi)遺(yi)傳(chuan)過(guo)(guo)(guo)程中變異的(de)(de)(de)(de)方向(xiang);無法有(you)(you)(you)效(xiao)地確定進化(hua)(hua)終止條(tiao)件(jian)。基于這三個缺(que)點(dian),有(you)(you)(you)人提出了遺(yi)傳(chuan)算(suan)(suan)法與(yu)其他學(xue)習算(suan)(suan)法的(de)(de)(de)(de)結合,優點(dian)互(hu)補已達(da)到更好的(de)(de)(de)(de)效(xiao)果(guo)。

3.結語

機(ji)器(qi)學(xue)(xue)習(xi)在(zai)過去(qu)十(shi)幾年(nian)中取(qu)得了(le)飛速的(de)(de)發(fa)展(zhan),目前已經成(cheng)為(wei)子(zi)領(ling)域(yu)眾(zhong)多、內涵非常豐富的(de)(de)學(xue)(xue)科(ke)領(ling)域(yu)。“更多、更好地(di)解決實(shi)際問題”成(cheng)為(wei)機(ji)器(qi)學(xue)(xue)習(xi)發(fa)展(zhan)的(de)(de)驅動力。事實(shi)上(shang),過去(qu)若干(gan)年(nian)中出(chu)現的(de)(de)很多新的(de)(de)研(yan)(yan)究(jiu)方向,例如半監督學(xue)(xue)習(xi)、代價(jia)敏感學(xue)(xue)習(xi)等(deng),都起源于實(shi)際應用(yong)中抽象出(chu)來的(de)(de)問題,而機(ji)器(qi)學(xue)(xue)習(xi)的(de)(de)研(yan)(yan)究(jiu)進展(zhan),也很快就在(zai)眾(zhong)多應用(yong)領(ling)域(yu)中發(fa)揮作用(yong)。機(ji)器(qi)學(xue)(xue)習(xi)正在(zai)逐漸(jian)成(cheng)為(wei)基礎(chu)性、透明化、無處不在(zai)的(de)(de)支持技術、服務(wu)技術。

參考文獻:

[1]周志華(hua).機器學習與數據挖掘[J].

篇3

機(ji)(ji)(ji)(ji)器(qi)(qi)(qi)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)作(zuo)為(wei)人工智能的(de)(de)(de)(de)核心內容而存在。簡(jian)單來(lai)(lai)講(jiang)就是在模擬人類(lei)行(xing)為(wei)的(de)(de)(de)(de)基礎上,通過學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)來(lai)(lai)使計算(suan)(suan)機(ji)(ji)(ji)(ji)獲(huo)得(de)更多的(de)(de)(de)(de)新(xin)技(ji)(ji)能、新(xin)知識,變得(de)更加聰明更加智能,以此來(lai)(lai)實現(xian)(xian)其(qi)組織結構(gou)性(xing)能上的(de)(de)(de)(de)不(bu)斷(duan)優化。而機(ji)(ji)(ji)(ji)器(qi)(qi)(qi)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)作(zuo)為(wei)一項極為(wei)智能化的(de)(de)(de)(de)過程,具體該如何實現(xian)(xian)屬(shu)于機(ji)(ji)(ji)(ji)器(qi)(qi)(qi)的(de)(de)(de)(de)特(te)有“學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)”行(xing)為(wei)呢?關于這一點,不(bu)同專(zhuan)業學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)者基于自身專(zhuan)業研究內容的(de)(de)(de)(de)不(bu)同,因此眾(zhong)說紛(fen)紜,但總(zong)結來(lai)(lai)講(jiang),機(ji)(ji)(ji)(ji)器(qi)(qi)(qi)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)與(yu)推理過程之間的(de)(de)(de)(de)緊密關系還是得(de)到了(le)大(da)多數學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)者的(de)(de)(de)(de)一致(zhi)認同,因此,我(wo)們可以將(jiang)機(ji)(ji)(ji)(ji)器(qi)(qi)(qi)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)策略(lve)分(fen)(fen)為(wei)事例學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、類(lei)比學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、傳(chuan)授學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、機(ji)(ji)(ji)(ji)械學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)。基于計算(suan)(suan)機(ji)(ji)(ji)(ji)功(gong)能的(de)(de)(de)(de)復雜(za)性(xing),機(ji)(ji)(ji)(ji)器(qi)(qi)(qi)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)涉(she)及(ji)范圍較廣,是在多種知識、技(ji)(ji)術(shu)的(de)(de)(de)(de)交叉(cha)和共同作(zuo)用下(xia)的(de)(de)(de)(de)結果,如,概率論(lun)、凸分(fen)(fen)析(xi)、統計學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)、算(suan)(suan)法復雜(za)度理論(lun)、逼近論(lun)等多專(zhuan)業學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)科都涉(she)及(ji)其(qi)中。就機(ji)(ji)(ji)(ji)器(qi)(qi)(qi)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)的(de)(de)(de)(de)分(fen)(fen)類(lei)來(lai)(lai)講(jiang)我(wo)們可以將(jiang)其(qi)分(fen)(fen)為(wei)以下(xia)幾種:(1)基于學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)策略(lve)分(fen)(fen)類(lei)——機(ji)(ji)(ji)(ji)械學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、示(shi)教學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、演繹(yi)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、類(lei)比學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、基于解(jie)釋(shi)的(de)(de)(de)(de)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、歸納(na)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi);(2)基于所(suo)獲(huo)取(qu)知識的(de)(de)(de)(de)表示(shi)形(xing)式(shi)(shi)(shi)分(fen)(fen)類(lei)——代(dai)數表達式(shi)(shi)(shi)參數、決策樹、形(xing)式(shi)(shi)(shi)文法、產生式(shi)(shi)(shi)規(gui)(gui)則、形(xing)式(shi)(shi)(shi)邏輯表達式(shi)(shi)(shi)、圖和網(wang)(wang)絡(luo)、框架和模式(shi)(shi)(shi)、計算(suan)(suan)機(ji)(ji)(ji)(ji)程序和其(qi)它的(de)(de)(de)(de)過程編碼(ma)、神(shen)經(jing)網(wang)(wang)絡(luo)、多種表示(shi)形(xing)式(shi)(shi)(shi)的(de)(de)(de)(de)組合(he);(3)按應用領域(yu)分(fen)(fen)類(lei)——自然(ran)語言(yan)、圖像識別、認知模擬、故障診斷(duan)、數據挖掘、專(zhuan)家系統、規(gui)(gui)劃和問(wen)題求(qiu)解(jie)、網(wang)(wang)絡(luo)信息服務等領域(yu);(4)綜合(he)分(fen)(fen)類(lei)——經(jing)驗性(xing)歸納(na)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、分(fen)(fen)析(xi)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、類(lei)比學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、遺傳(chuan)算(suan)(suan)法、連接學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、增強學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi);(5)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)形(xing)式(shi)(shi)(shi)分(fen)(fen)類(lei)——監(jian)督(du)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)、非監(jian)督(du)學(xue)(xue)(xue)(xue)(xue)(xue)(xue)(xue)習(xi)(xi)(xi)。

2機器學習在網絡安全中應用的意(yi)義

從機(ji)器(qi)學習的(de)(de)(de)(de)(de)(de)本質上來講,它是(shi)在(zai)大數(shu)據集(ji)中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)基(ji)礎上通過對(dui)數(shu)學技術的(de)(de)(de)(de)(de)(de)引入,來構建機(ji)器(qi)行(xing)(xing)為模型,并(bing)通過不斷輸(shu)入新(xin)的(de)(de)(de)(de)(de)(de)數(shu)據資料,使機(ji)器(qi)在(zai)對(dui)各時段數(shu)據進行(xing)(xing)分析、運算的(de)(de)(de)(de)(de)(de)基(ji)礎上,來實現(xian)對(dui)未來的(de)(de)(de)(de)(de)(de)科學預測(ce)。就機(ji)器(qi)學習在(zai)網絡安(an)全(quan)(quan)(quan)中(zhong)(zhong)應用(yong)的(de)(de)(de)(de)(de)(de)意(yi)義來講,主要(yao)體現(xian)在(zai),機(ji)器(qi)學習基(ji)于(yu)自身極強(qiang)的(de)(de)(de)(de)(de)(de)數(shu)據分析能(neng)力,在(zai)應用(yong)的(de)(de)(de)(de)(de)(de)過程中(zhong)(zhong),可(ke)以幫助(zhu)用(yong)戶來有(you)(you)效的(de)(de)(de)(de)(de)(de)對(dui)網絡安(an)全(quan)(quan)(quan)事件作出及時的(de)(de)(de)(de)(de)(de)響應,尤其(qi)是(shi)在(zai)團(tuan)隊安(an)全(quan)(quan)(quan)技能(neng)不足的(de)(de)(de)(de)(de)(de)情況下,可(ke)以通過自動執行(xing)(xing)來替(ti)代(dai)團(tuan)隊執行(xing)(xing)一些瑣碎的(de)(de)(de)(de)(de)(de)系統(tong)安(an)全(quan)(quan)(quan)任務,有(you)(you)助(zhu)于(yu)切實保障用(yong)戶的(de)(de)(de)(de)(de)(de)網絡安(an)全(quan)(quan)(quan)。同時機(ji)器(qi)學習與傳(chuan)統(tong)電子科技產品的(de)(de)(de)(de)(de)(de)融合,有(you)(you)助(zhu)于(yu)清除產品中(zhong)(zhong)的(de)(de)(de)(de)(de)(de)惡意(yi)軟件,進而達到(dao)提升產品安(an)全(quan)(quan)(quan)系數(shu)和運行(xing)(xing)穩(wen)定性的(de)(de)(de)(de)(de)(de)目(mu)的(de)(de)(de)(de)(de)(de)。

3機器學習在網(wang)絡安全中(zhong)的應用(yong)

3.1安(an)全入(ru)侵檢測(ce)

網絡安(an)全入侵(qin)檢(jian)(jian)測是一種較早出(chu)現(xian)的(de)計(ji)算機(ji)系統(tong)自我安(an)全防護技術,其在(zai)(zai)不對網絡性(xing)能(neng)以(yi)(yi)及用戶的(de)計(ji)算機(ji)操作構成影(ying)響的(de)情況下,通(tong)過對網絡運行數(shu)據(ju)、安(an)全日志等(deng)信息的(de)分析和檢(jian)(jian)測,來判斷系統(tong)是否受到了(le)安(an)全威(wei)脅,以(yi)(yi)此(ci)來實(shi)現(xian)對計(ji)算機(ji)系統(tong)的(de)實(shi)時(shi)保護。機(ji)器學習(xi)憑借自身性(xing)能(neng)的(de)智能(neng)化,在(zai)(zai)安(an)全入侵(qin)檢(jian)(jian)測中的(de)應(ying)用,能(neng)夠有效(xiao)提(ti)升(sheng)網絡安(an)全入侵(qin)檢(jian)(jian)測反應(ying)靈敏度,使防護系統(tong)可以(yi)(yi)在(zai)(zai)短短的(de)幾秒鐘內,就(jiu)準確(que)的(de)檢(jian)(jian)測到惡意攻擊位置,并予及時(shi)的(de)進行準確(que)、有效(xiao)的(de)防護,將(jiang)惡意攻擊對系統(tong)的(de)傷害降到最低。

3.2垃圾郵件檢(jian)測

機(ji)器(qi)(qi)學習(xi)在(zai)垃圾(ji)(ji)(ji)郵(you)件(jian)(jian)(jian)檢(jian)測中(zhong)的(de)應用,根據其(qi)特殊的(de)運行(xing)原理,我們可(ke)以(yi)將其(qi)看(kan)作是機(ji)器(qi)(qi)學習(xi)當中(zhong)的(de)分(fen)類(lei)問題。如,我們將郵(you)件(jian)(jian)(jian)整體定(ding)義在(zai){-1,1}之間,1就代表是垃圾(ji)(ji)(ji)郵(you)件(jian)(jian)(jian),而-1則說(shuo)明是非垃圾(ji)(ji)(ji)郵(you)件(jian)(jian)(jian)。而在(zai)對(dui)垃圾(ji)(ji)(ji)郵(you)件(jian)(jian)(jian)進行(xing)文本(ben)分(fen)類(lei)問題定(ding)義的(de)過程中(zhong),我們首(shou)先(xian)就需要通過一定(ding)的(de)數(shu)值(zhi)來(lai)對(dui)垃圾(ji)(ji)(ji)郵(you)件(jian)(jian)(jian)的(de)文本(ben)信息予(yu)以(yi)表達,并用向(xiang)量來(lai)對(dui)各條消(xiao)息進行(xing)表示,垃圾(ji)(ji)(ji)郵(you)件(jian)(jian)(jian)的(de)特征值(zhi)則集中(zhong)表現在(zai)各特征向(xiang)量元素當中(zhong)。同時(shi),由于(yu)系(xi)統對(dui)于(yu)垃圾(ji)(ji)(ji)郵(you)件(jian)(jian)(jian)的(de)檢(jian)測屬于(yu)在(zai)線(xian)應用范疇,因此,機(ji)器(qi)(qi)學習(xi)對(dui)于(yu)郵(you)件(jian)(jian)(jian)的(de)自動識別(bie)和分(fen)類(lei)能(neng)夠極大的(de)提升系(xi)統對(dui)于(yu)垃圾(ji)(ji)(ji)郵(you)件(jian)(jian)(jian)的(de)檢(jian)測效率,降低出錯率。

3.3域名檢測

作為(wei)互聯網(wang)重要(yao)的(de)(de)(de)(de)(de)(de)(de)核(he)心應(ying)用(yong)(yong)系統,域(yu)(yu)名(ming)系統基(ji)于自(zi)身對整個(ge)網(wang)絡安全所起到的(de)(de)(de)(de)(de)(de)(de)重要(yao)意(yi)(yi)義,經常成為(wei)被(bei)黑客和不法分(fen)子惡(e)(e)意(yi)(yi)攻擊的(de)(de)(de)(de)(de)(de)(de)目標。以(yi)往我們多通過(guo)防(fang)(fang)火墻、黑名(ming)單(dan)攔截、域(yu)(yu)名(ming)系統等(deng)(deng)的(de)(de)(de)(de)(de)(de)(de)作用(yong)(yong)下(xia),來(lai)(lai)實現對域(yu)(yu)名(ming)惡(e)(e)意(yi)(yi)攻擊的(de)(de)(de)(de)(de)(de)(de)檢(jian)(jian)(jian)測。以(yi)機器(qi)學習為(wei)主的(de)(de)(de)(de)(de)(de)(de)域(yu)(yu)名(ming)檢(jian)(jian)(jian)測則(ze)通常是在在線模(mo)(mo)(mo)型(xing)、離線模(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)(de)(de)(de)雙重組合(he)作用(yong)(yong)下(xia),來(lai)(lai)實現其(qi)域(yu)(yu)名(ming)檢(jian)(jian)(jian)測和防(fang)(fang)御功能。其(qi)中,離線模(mo)(mo)(mo)型(xing),通過(guo)對惡(e)(e)意(yi)(yi)域(yu)(yu)名(ming)、合(he)法域(yu)(yu)名(ming)訓(xun)練(lian)數(shu)據集的(de)(de)(de)(de)(de)(de)(de)建(jian)立,來(lai)(lai)從中提取出(chu)基(ji)于區(qu)域(yu)(yu)的(de)(de)(de)(de)(de)(de)(de)特(te)征(zheng)、基(ji)于DNS應(ying)答的(de)(de)(de)(de)(de)(de)(de)特(te)征(zheng)、基(ji)于域(yu)(yu)名(ming)信(xin)息的(de)(de)(de)(de)(de)(de)(de)特(te)征(zheng)等(deng)(deng),之后通過(guo)X-Means聚類(lei)算(suan)法、決策(ce)樹等(deng)(deng)模(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)(de)(de)(de)構(gou)建(jian),結(jie)合(he)網(wang)站提供的(de)(de)(de)(de)(de)(de)(de)已(yi)知(zhi)域(yu)(yu)名(ming)數(shu)據集來(lai)(lai)對所構(gou)建(jian)的(de)(de)(de)(de)(de)(de)(de)模(mo)(mo)(mo)型(xing)予以(yi)進(jin)一步的(de)(de)(de)(de)(de)(de)(de)調(diao)整和驗(yan)證。以(yi)此(ci)來(lai)(lai)判斷其(qi)是否(fou)屬于惡(e)(e)意(yi)(yi)域(yu)(yu)名(ming)。在線監測模(mo)(mo)(mo)型(xing),是在網(wang)絡系統對域(yu)(yu)名(ming)的(de)(de)(de)(de)(de)(de)(de)自(zi)動查(cha)詢分(fen)析(xi)作用(yong)(yong)下(xia),來(lai)(lai)對被(bei)檢(jian)(jian)(jian)測域(yu)(yu)名(ming)的(de)(de)(de)(de)(de)(de)(de)主要(yao)特(te)征(zheng)、信(xin)息等(deng)(deng)進(jin)行獲取,其(qi)特(te)征(zheng)顯示已(yi)標記(ji)的(de)(de)(de)(de)(de)(de)(de)則(ze)視為(wei)已(yi)知(zhi)域(yu)(yu)名(ming)信(xin)息,進(jin)行繼續訓(xun)練(lian)操作,特(te)征(zheng)顯示無標簽的(de)(de)(de)(de)(de)(de)(de)則(ze)視為(wei)未知(zhi)域(yu)(yu)名(ming),需(xu)要(yao)在分(fen)類(lei)器(qi)的(de)(de)(de)(de)(de)(de)(de)作用(yong)(yong)下(xia),對其(qi)是否(fou)屬于惡(e)(e)意(yi)(yi)域(yu)(yu)名(ming)進(jin)行繼續判斷。

參考文獻

[1]張蕾(lei),崔(cui)勇(yong),劉靜,江勇(yong),吳建平.機器學(xue)習在網(wang)絡空間安全(quan)研究(jiu)中的應用[J/OL].計算機學(xue)報,2018:1-35.

篇4

[關鍵詞]機器(qi)學習 服務器(qi)調優 線程池

[中圖分類號]TP181 [文獻標識碼]A [文章編號]1009-5349(2016)02-0133-01

一、線程(cheng)池調優系統總體設計

線程(cheng)池調(diao)(diao)優(you)(you)(you)系(xi)統由四(si)個模(mo)(mo)塊(kuai)(kuai)(kuai)組成(cheng):線程(cheng)池模(mo)(mo)塊(kuai)(kuai)(kuai)、性(xing)能監(jian)測(ce)模(mo)(mo)塊(kuai)(kuai)(kuai)、支(zhi)(zhi)持(chi)(chi)向(xiang)量機調(diao)(diao)優(you)(you)(you)模(mo)(mo)塊(kuai)(kuai)(kuai)。線程(cheng)池模(mo)(mo)塊(kuai)(kuai)(kuai)負(fu)(fu)責線程(cheng)池的(de)創(chuang)建與(yu)維護(hu),任(ren)務(wu)(wu)隊(dui)列(lie)的(de)任(ren)務(wu)(wu)管(guan)理等,并(bing)將任(ren)務(wu)(wu)隊(dui)列(lie)中的(de)用戶任(ren)務(wu)(wu)取(qu)出(chu)放入線程(cheng)池中進行(xing)執行(xing)。性(xing)能監(jian)測(ce)模(mo)(mo)塊(kuai)(kuai)(kuai)負(fu)(fu)責對(dui)表征線程(cheng)池性(xing)能的(de)三個特征量吞吐量、任(ren)務(wu)(wu)運算時間和任(ren)務(wu)(wu)阻塞時間的(de)監(jian)測(ce),作為測(ce)試樣(yang)本輸入支(zhi)(zhi)持(chi)(chi)向(xiang)量機調(diao)(diao)優(you)(you)(you)模(mo)(mo)塊(kuai)(kuai)(kuai)中。支(zhi)(zhi)持(chi)(chi)向(xiang)量機調(diao)(diao)優(you)(you)(you)模(mo)(mo)塊(kuai)(kuai)(kuai)則通過性(xing)能監(jian)測(ce)模(mo)(mo)塊(kuai)(kuai)(kuai)提供的(de)測(ce)試樣(yang)本,得到所需的(de)最佳線程(cheng)池尺寸(cun),并(bing)與(yu)當前(qian)的(de)線程(cheng)池尺寸(cun)進行(xing)對(dui)比(bi),最后(hou)調(diao)(diao)整線程(cheng)池尺寸(cun)到最佳。

二、線程池模塊

線(xian)(xian)程(cheng)池(chi)模(mo)塊主要負責線(xian)(xian)程(cheng)池(chi)內線(xian)(xian)程(cheng)的(de)(de)創(chuang)建、銷毀(hui)、構造任(ren)(ren)(ren)務(wu)隊列,并將任(ren)(ren)(ren)務(wu)隊列中(zhong)的(de)(de)用(yong)戶任(ren)(ren)(ren)務(wu)取入線(xian)(xian)程(cheng)池(chi)中(zhong)分配(pei)空閑線(xian)(xian)程(cheng)來執行(xing)。系統采(cai)用(yong)Win32的(de)(de)提供的(de)(de)線(xian)(xian)程(cheng)庫,以面向對象思(si)想實現相關功能(neng)模(mo)塊。線(xian)(xian)程(cheng)池(chi)模(mo)塊主要包括(kuo)線(xian)(xian)程(cheng)池(chi)類(lei)CPoolThread、任(ren)(ren)(ren)務(wu)隊列類(lei)CJobDequeue、線(xian)(xian)程(cheng)類(lei)CThread以及同(tong)步類(lei)CMutex。

線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)類(lei)(lei)(lei)CThread最重要(yao)的(de)(de)一(yi)(yi)個(ge)方(fang)法(fa)(fa)是線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)的(de)(de)創(chuang)(chuang)建(jian)(jian)方(fang)法(fa)(fa)CThread::Create()。線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)創(chuang)(chuang)建(jian)(jian)方(fang)法(fa)(fa)采用(yong)了(le)Win32線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)庫提(ti)供的(de)(de)線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)創(chuang)(chuang)建(jian)(jian)應(ying)用(yong)程(cheng)(cheng)(cheng)(cheng)序接口CreateThread(Null,0,_ThreadEntry,this,0,&ThreadID)來(lai)(lai)(lai)實(shi)現(xian)(xian)。線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)池(chi)類(lei)(lei)(lei)CThreadPool主要(yao)提(ti)供了(le)一(yi)(yi)個(ge)數(shu)組變量(liang)m_list_thread來(lai)(lai)(lai)維(wei)護(hu)一(yi)(yi)個(ge)線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)池(chi),線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)池(chi)內(nei)的(de)(de)每個(ge)線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)都(dou)存在了(le)這個(ge)數(shu)組變量(liang)中(zhong),而具體的(de)(de)池(chi)內(nei)線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)的(de)(de)操作都(dou)交給了(le)線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)類(lei)(lei)(lei)CThread來(lai)(lai)(lai)完成(cheng)。線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)池(chi)類(lei)(lei)(lei)CThreadPool主要(yao)包括初始化線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)池(chi)的(de)(de)初始化方(fang)法(fa)(fa)CThreadPool::InitInstance()來(lai)(lai)(lai)實(shi)現(xian)(xian)線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)池(chi)內(nei)所有線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)的(de)(de)創(chuang)(chuang)建(jian)(jian)操作,具體通(tong)過CThread類(lei)(lei)(lei)的(de)(de)CThread::Create()方(fang)法(fa)(fa)來(lai)(lai)(lai)實(shi)現(xian)(xian)每個(ge)線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)的(de)(de)創(chuang)(chuang)建(jian)(jian)。任務隊(dui)列(lie)(lie)類(lei)(lei)(lei)CJobQueue是線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)池(chi)類(lei)(lei)(lei)的(de)(de)一(yi)(yi)個(ge)對象(xiang),維(wei)護(hu)了(le)一(yi)(yi)個(ge)任務隊(dui)列(lie)(lie)數(shu)組列(lie)(lie)表m_normal_list,用(yong)戶(hu)任務經過線(xian)(xian)(xian)程(cheng)(cheng)(cheng)(cheng)池(chi)類(lei)(lei)(lei)添加任務接口進(jin)入此數(shu)組列(lie)(lie)表中(zhong)。任務隊(dui)列(lie)(lie)類(lei)(lei)(lei)通(tong)過隊(dui)列(lie)(lie)列(lie)(lie)表來(lai)(lai)(lai)維(wei)護(hu)管理等待中(zhong)的(de)(de)用(yong)戶(hu)任務。同步類(lei)(lei)(lei)CMutex主要(yao)是為了(le)實(shi)現(xian)(xian)程(cheng)(cheng)(cheng)(cheng)序中(zhong)的(de)(de)某(mou)些(xie)互斥(chi)操作設(she)立的(de)(de),通(tong)過對私有變量(liang)m_lock調用(yong)WinAPI函數(shu)的(de)(de)WaitForSingleObject()與ReleaseMutex()來(lai)(lai)(lai)實(shi)現(xian)(xian)程(cheng)(cheng)(cheng)(cheng)序的(de)(de)加鎖(suo)與解(jie)鎖(suo)操作。

三、性能監測模塊

性能(neng)監測(ce)模塊(kuai)主要是監測(ce)表征線程池性能(neng)的(de)(de)(de)三個特征量(liang):吞吐(tu)量(liang)、任(ren)(ren)務(wu)(wu)運算時間(jian)(jian)和任(ren)(ren)務(wu)(wu)阻(zu)塞時間(jian)(jian)。由于吞吐(tu)量(liang)是監測(ce)用戶任(ren)(ren)務(wu)(wu)進入(ru)任(ren)(ren)務(wu)(wu)隊列(lie)的(de)(de)(de)數量(liang),因(yin)此(ci),對吞吐(tu)量(liang)的(de)(de)(de)監測(ce)可以在任(ren)(ren)務(wu)(wu)隊列(lie)類中實現。而任(ren)(ren)務(wu)(wu)運算時間(jian)(jian)和任(ren)(ren)務(wu)(wu)阻(zu)塞時間(jian)(jian)直接是與(yu)線程的(de)(de)(de)執行(xing)任(ren)(ren)務(wu)(wu)相關的(de)(de)(de),因(yin)此(ci),將這(zhe)兩個量(liang)的(de)(de)(de)監測(ce)放入(ru)線程類中實現。

性(xing)能監測模(mo)塊對(dui)吞(tun)吐(tu)量(liang)(liang)的監測方法。每(mei)當有(you)用(yong)戶任務(wu)通過線程池類(lei)進(jin)入任務(wu)隊(dui)列時,任務(wu)隊(dui)列將(jiang)其成員變量(liang)(liang)m_tuntu進(jin)行(xing)加1操(cao)作,實現對(dui)吞(tun)吐(tu)量(liang)(liang)的實時更新。

任(ren)(ren)務(wu)(wu)運(yun)算(suan)時(shi)(shi)間(jian)的(de)監測方(fang)法(fa)主要通過(guo)調(diao)用(yong)(yong)Windows提供的(de)API函(han)(han)數GetThreadTimes添加至線(xian)(xian)程(cheng)(cheng)(cheng)類中(zhong)的(de)Run方(fang)法(fa)中(zhong)來(lai)實現(xian)。GetThreadTimes函(han)(han)數可(ke)以(yi)返(fan)回四(si)個參(can)數:線(xian)(xian)程(cheng)(cheng)(cheng)創建時(shi)(shi)間(jian)、線(xian)(xian)程(cheng)(cheng)(cheng)退(tui)出時(shi)(shi)間(jian)、系統代碼運(yun)算(suan)時(shi)(shi)間(jian)和用(yong)(yong)戶代碼運(yun)算(suan)時(shi)(shi)間(jian)。因(yin)此,可(ke)以(yi)通過(guo)對系統代碼時(shi)(shi)間(jian)與(yu)用(yong)(yong)戶代碼時(shi)(shi)間(jian)求(qiu)和來(lai)得(de)(de)到(dao)任(ren)(ren)務(wu)(wu)占用(yong)(yong)CPU的(de)時(shi)(shi)間(jian),也就是(shi)任(ren)(ren)務(wu)(wu)運(yun)算(suan)時(shi)(shi)間(jian)。具體做法(fa)是(shi)當線(xian)(xian)程(cheng)(cheng)(cheng)類中(zhong)Run方(fang)法(fa)啟(qi)動用(yong)(yong)戶任(ren)(ren)務(wu)(wu)時(shi)(shi),即(ji)調(diao)用(yong)(yong)此API函(han)(han)數,獲得(de)(de)任(ren)(ren)務(wu)(wu)進入(ru)線(xian)(xian)程(cheng)(cheng)(cheng)池(chi)時(shi)(shi)間(jian);當用(yong)(yong)戶任(ren)(ren)務(wu)(wu)運(yun)行結束時(shi)(shi),再次調(diao)用(yong)(yong)此API函(han)(han)數,即(ji)可(ke)獲得(de)(de)任(ren)(ren)務(wu)(wu)離(li)開(kai)線(xian)(xian)程(cheng)(cheng)(cheng)池(chi)時(shi)(shi)間(jian),將二者做差即(ji)可(ke)得(de)(de)到(dao)任(ren)(ren)務(wu)(wu)占用(yong)(yong)CPU的(de)運(yun)算(suan)時(shi)(shi)間(jian)。

對(dui)任務(wu)(wu)(wu)阻(zu)(zu)(zu)塞(sai)時(shi)(shi)間(jian)(jian)(jian)的(de)(de)監測(ce)(ce)方法的(de)(de)實現則相(xiang)對(dui)麻煩一(yi)些(xie),因(yin)為沒有(you)直接(jie)測(ce)(ce)試任務(wu)(wu)(wu)阻(zu)(zu)(zu)塞(sai)時(shi)(shi)間(jian)(jian)(jian)的(de)(de)API函數(shu)(shu).但是(shi)可(ke)(ke)以(yi)通(tong)過(guo)間(jian)(jian)(jian)接(jie)的(de)(de)方法來測(ce)(ce)量(liang),即任務(wu)(wu)(wu)阻(zu)(zu)(zu)塞(sai)時(shi)(shi)間(jian)(jian)(jian)=任務(wu)(wu)(wu)執行時(shi)(shi)間(jian)(jian)(jian)-任務(wu)(wu)(wu)運算時(shi)(shi)間(jian)(jian)(jian)。其中,任務(wu)(wu)(wu)執行時(shi)(shi)間(jian)(jian)(jian)可(ke)(ke)以(yi)通(tong)過(guo)WindowsAPI函數(shu)(shu)getTickCount()來分別得(de)到任務(wu)(wu)(wu)進入線程池與(yu)離開(kai)線程池時(shi)(shi)的(de)(de)CPU時(shi)(shi)鐘,從而做差就(jiu)可(ke)(ke)以(yi)求出(chu)任務(wu)(wu)(wu)執行時(shi)(shi)間(jian)(jian)(jian);而任務(wu)(wu)(wu)運算時(shi)(shi)間(jian)(jian)(jian)也(ye)可(ke)(ke)以(yi)得(de)到,因(yin)此(ci)再將兩者(zhe)做差就(jiu)可(ke)(ke)以(yi)得(de)出(chu)最(zui)后的(de)(de)任務(wu)(wu)(wu)阻(zu)(zu)(zu)塞(sai)時(shi)(shi)間(jian)(jian)(jian)。具(ju)體做法同監測(ce)(ce)任務(wu)(wu)(wu)運算時(shi)(shi)間(jian)(jian)(jian)時(shi)(shi)的(de)(de)做法,只(zhi)是(shi)改(gai)變了監測(ce)(ce)的(de)(de)API函數(shu)(shu)。

四、支持向量機調(diao)優模塊

根據支持(chi)向量機(ji)調(diao)優模型(xing),將支持(chi)向量機(ji)調(diao)優模塊寫成線程類中(zhong)的一個函(han)數(shu)――調(diao)優函(han)數(shu)Tuning()。

通(tong)過(guo)(guo)線(xian)(xian)(xian)(xian)程(cheng)池(chi)類內的(de)成(cheng)員變(bian)量(liang)m_tuntu、m_cmptm和m_blktm獲(huo)取當前線(xian)(xian)(xian)(xian)程(cheng)池(chi)性能數(shu)據(ju),輸(shu)入到(dao)支(zhi)持向(xiang)量(liang)機方法(fa)中(zhong)得到(dao)最佳線(xian)(xian)(xian)(xian)程(cheng)池(chi)尺寸(cun)。當最佳線(xian)(xian)(xian)(xian)程(cheng)池(chi)尺寸(cun)與當前線(xian)(xian)(xian)(xian)程(cheng)池(chi)尺寸(cun)不符時(shi),需(xu)要(yao)對線(xian)(xian)(xian)(xian)程(cheng)池(chi)的(de)尺寸(cun)進行調(diao)整。當需(xu)要(yao)增加線(xian)(xian)(xian)(xian)程(cheng)池(chi)尺寸(cun)時(shi),可以(yi)通(tong)過(guo)(guo)WindowsAPI函(han)數(shu)CreateThread()來創建新線(xian)(xian)(xian)(xian)程(cheng);當需(xu)要(yao)減小線(xian)(xian)(xian)(xian)程(cheng)池(chi)尺寸(cun)時(shi),可以(yi)通(tong)過(guo)(guo)調(diao)用函(han)數(shu)TerminateThread()來銷毀空閑線(xian)(xian)(xian)(xian)程(cheng),最終達(da)到(dao)所需(xu)的(de)最佳線(xian)(xian)(xian)(xian)程(cheng)池(chi)尺寸(cun)。

篇5

關鍵詞: IDS;異常(chang)檢測;行為模式;機(ji)器學習;相似(si)度

中(zhong)圖(tu)分類號:TP18;TP393.08 文(wen)獻標識碼:A

Anomaly Detection of User Behaviors Based on Machine Learning

SUN Hong-wei,TIAN Xin-guang, ZHANG Er-yang

(1.School of Electronic Science and Engineering, National University of Defense Technology, Changsha 410073, China;

2. Putian Telecom Corporation, Beijing 100088, China)

Abstract: Anomaly detection acts as one of the important directions of research on Intrusion Detection Systems (IDSs). In this paper, an anomaly detection model originated mainly by Terran Lane is briefly introduced. Then a new anomaly detection model based on machine learning is presented. The model uses shell command sequences of variable length to represent a valid user’s behavior patterns and uses more than one dictionaries of shell command sequences to build the user’s behavior profile. While performing detection, the model digs behavior patterns by sequence matching method and evaluates the similarities of the corresponding command sequences to the dictionaries. The two models are tested with UNIX users’ shell command data. The results show that the new model originated by us has higher detection performance.

Key words: IDS; anomaly detection; behavior pattern; machine learning; similarity measure

1 引言

目前,異(yi)常檢(jian)測(ce)(ce)(ce)是(shi)入(ru)侵(qin)(qin)(qin)檢(jian)測(ce)(ce)(ce)系(xi)統(IDS)研究的(de)主要方向(xiang),這種(zhong)檢(jian)測(ce)(ce)(ce)技(ji)術(shu)建立(li)系(xi)統或用(yong)戶的(de)正(zheng)(zheng)常行為(wei)(wei)模式(shi)(shi),通過被監測(ce)(ce)(ce)系(xi)統或用(yong)戶的(de)實(shi)際行為(wei)(wei)模式(shi)(shi)和(he)正(zheng)(zheng)常模式(shi)(shi)之間(jian)的(de)比(bi)較(jiao)和(he)匹配來檢(jian)測(ce)(ce)(ce)入(ru)侵(qin)(qin)(qin),其(qi)特點是(shi)不需要過多有(you)關(guan)系(xi)統缺陷的(de)知識(shi),具有(you)較(jiao)強的(de)適應性,并且(qie)能夠檢(jian)測(ce)(ce)(ce)出未(wei)知的(de)入(ru)侵(qin)(qin)(qin)模式(shi)(shi)。虛警概率高是(shi)目前限制(zhi)異(yi)常檢(jian)測(ce)(ce)(ce)應用(yong)的(de)主要因素。異(yi)常檢(jian)測(ce)(ce)(ce)的(de)關(guan)鍵問題在于正(zheng)(zheng)常行為(wei)(wei)模式(shi)(shi)(庫)的(de)建立(li)以及如何(he)利用(yong)該模式(shi)(shi)(庫)對當前行為(wei)(wei)進行比(bi)較(jiao)和(he)判斷。

國內(nei)外已經開展了(le)神經網絡(luo)、機器(qi)學(xue)習等(deng)智(zhi)能(neng)(neng)技(ji)術在異常(chang)檢測(ce)中的(de)(de)應用研(yan)究(jiu)(jiu),研(yan)究(jiu)(jiu)目標主要是提(ti)高(gao)檢測(ce)系統(tong)的(de)(de)準確性(xing)、實時(shi)性(xing)、高(gao)效性(xing)以及自適應性(xing),其中一些(xie)研(yan)究(jiu)(jiu)成(cheng)果(guo)在檢測(ce)性(xing)能(neng)(neng)和可操(cao)作性(xing)上(shang)已接近或達到了(le)實用化水平。本文介紹(shao)了(le)Lane T等(deng)人(ren)提(ti)出(chu)的(de)(de)基于機器(qi)學(xue)習的(de)(de)IDS用戶行為(wei)異常(chang)檢測(ce)模(mo)型,在其基礎上(shang)提(ti)出(chu)一種新的(de)(de)檢測(ce)模(mo)型,此(ci)模(mo)型用多種長度(du)不同的(de)(de)shell命令序列表(biao)示用戶行為(wei)模(mo)式,建(jian)立多個樣本序列庫來描述正常(chang)用戶的(de)(de)行為(wei)輪廓,檢測(ce)時(shi)以長度(du)可變的(de)(de)命令

序列(lie)為單位進(jin)行(xing)相似度賦值(zhi),并將加窗濾噪后的(de)(de)(de)(de)相似度作為用戶身份的(de)(de)(de)(de)判決依據(ju)。利用UNIX用戶shell命令數據(ju)進(jin)行(xing)的(de)(de)(de)(de)實驗表明,新的(de)(de)(de)(de)檢(jian)測模型具有很(hen)高的(de)(de)(de)(de)檢(jian)測性(xing)能和較強的(de)(de)(de)(de)可操作性(xing)。

2 基于機器學(xue)習的定長(chang)命令序列檢測模(mo)型

2.1 機器學習(xi)基本(ben)原(yuan)理

機(ji)器學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)是(shi)人工智能的(de)(de)(de)一個新的(de)(de)(de)分(fen)支,它(ta)是(shi)通(tong)過對人類認知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)機(ji)理的(de)(de)(de)研究,借助機(ji)器(計(ji)算機(ji)系統(tong)(tong))建立各(ge)種(zhong)(zhong)學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)模(mo)型(xing),賦予(yu)機(ji)器學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)的(de)(de)(de)能力,在此(ci)基礎上構建具有(you)(you)(you)特定應用(yong)的(de)(de)(de)面向(xiang)任(ren)(ren)務(wu)的(de)(de)(de)學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)系統(tong)(tong)。一個機(ji)器學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)系統(tong)(tong)主要有(you)(you)(you)學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)單(dan)(dan)元、知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)庫、執(zhi)(zhi)行(xing)單(dan)(dan)元組(zu)成,其中學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)單(dan)(dan)元利(li)用(yong)外(wai)界信(xin)息(xi)源提供的(de)(de)(de)信(xin)息(xi)來(lai)建立知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)庫并對其做出改(gai)進(增加(jia)新知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)或重新組(zu)織(zhi)已有(you)(you)(you)知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)),執(zhi)(zhi)行(xing)單(dan)(dan)元利(li)用(yong)知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)庫中的(de)(de)(de)知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)執(zhi)(zhi)行(xing)任(ren)(ren)務(wu),任(ren)(ren)務(wu)執(zhi)(zhi)行(xing)后的(de)(de)(de)信(xin)息(xi)又(you)反饋給學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)單(dan)(dan)元作為(wei)進一步學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)的(de)(de)(de)輸入。學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)單(dan)(dan)元是(shi)機(ji)器學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)系統(tong)(tong)實現學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)功能的(de)(de)(de)核(he)心(xin)部分(fen),它(ta)涉(she)及(ji)處理外(wai)界信(xin)息(xi)的(de)(de)(de)方式(shi)以及(ji)獲取新知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)過程中所用(yong)的(de)(de)(de)方法(fa)。知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)庫用(yong)來(lai)存儲知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi),包括(kuo)系統(tong)(tong)原(yuan)有(you)(you)(you)的(de)(de)(de)領域知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)(這(zhe)種(zhong)(zhong)知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)是(shi)長期的(de)(de)(de)、相對穩定的(de)(de)(de)),以及(ji)通(tong)過學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)而獲得的(de)(de)(de)各(ge)種(zhong)(zhong)新知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)(這(zhe)種(zhong)(zhong)知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)是(shi)短期的(de)(de)(de)、變化(hua)的(de)(de)(de)),選擇何種(zhong)(zhong)知(zhi)(zhi)(zhi)(zhi)(zhi)(zhi)識(shi)表示對學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)系統(tong)(tong)的(de)(de)(de)設計(ji)起著(zhu)非常重要的(de)(de)(de)作用(yong)。執(zhi)(zhi)行(xing)單(dan)(dan)元是(shi)使學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)系統(tong)(tong)具有(you)(you)(you)實際用(yong)途(tu),同時(shi)又(you)能夠(gou)評價學(xue)(xue)(xue)習(xi)(xi)(xi)(xi)(xi)方法(fa)好(hao)壞的(de)(de)(de)關(guan)鍵部分(fen)。

機器學習(xi)研究中的(de)(de)很(hen)大一部分工作集中在(zai)分類和問題求解這(zhe)兩個領域;經過三十(shi)多年的(de)(de)發展,目前(qian)已有(you)了很(hen)多學習(xi)方法(fa),如(ru)歸納學習(xi)、實例學習(xi)、遺傳(chuan)學習(xi)等,但這(zhe)些方法(fa)均有(you)其局(ju)限性,結合(he)具體的(de)(de)應(ying)用領域探討(tao)新的(de)(de)學習(xi)方法(fa)和算法(fa)是目前(qian)的(de)(de)研究主(zhu)流。

2.2 定(ding)長(chang)命令序列檢測模(mo)型(xing)的(de)描述

美國Purdue大學(xue)的(de)Lane T等人提出了一種(zhong)基于機(ji)器學(xue)習的(de)用(yong)(yong)(yong)戶行(xing)為異常(chang)檢測(ce)模(mo)型(xing)(xing)(xing),并對模(mo)型(xing)(xing)(xing)進(jin)行(xing)了深入的(de)研究和實驗。其模(mo)型(xing)(xing)(xing)利(li)用(yong)(yong)(yong)長度(du)固定的(de)shell命令序(xu)列表示用(yong)(yong)(yong)戶的(de)行(xing)為模(mo)式,建立樣本序(xu)列庫(ku)來(lai)描(miao)述正常(chang)用(yong)(yong)(yong)戶的(de)行(xing)為輪廓;工(gong)作(zuo)時,將被(bei)監測(ce)用(yong)(yong)(yong)戶的(de)命令序(xu)列同正常(chang)用(yong)(yong)(yong)戶的(de)樣本命令序(xu)列庫(ku)進(jin)行(xing)比較和匹配,根據兩者的(de)相似度(du)對被(bei)監測(ce)用(yong)(yong)(yong)戶的(de)身份進(jin)行(xing)判(pan)斷(duan)。模(mo)型(xing)(xing)(xing)的(de)要點簡述如下[2]:

(1)將長(chang)度固定的(de)(de)shell命(ming)令序列作為描述用戶行為模式的(de)(de)最小數據(ju)單元(yuan),采(cai)用實(shi)例學習(xi)方法建立正常用戶的(de)(de)樣本序列庫(知識庫)。

(2)定義(yi)兩序列之間(jian)(jian)的(de)相(xiang)(xiang)似(si)度(du),它用于表(biao)示兩個(ge)序列所代表(biao)的(de)行為(wei)模(mo)式之間(jian)(jian)的(de)相(xiang)(xiang)似(si)程度(du)。在(zai)此基礎上,定義(yi)一個(ge)序列同樣本序列庫的(de)相(xiang)(xiang)似(si)度(du),它用于表(biao)示此序列所代表(biao)的(de)行為(wei)模(mo)式同正(zheng)常(chang)用戶各種行為(wei)模(mo)式之間(jian)(jian)的(de)最大相(xiang)(xiang)似(si)程度(du)。

(3)模型工作時,計(ji)算(suan)被監測(ce)用(yong)戶序列(lie)流(liu)中的每個序列(lie)同正常用(yong)戶樣本序列(lie)庫的相似度(du),然后,對相似度(du)進行(xing)加窗濾噪處理,得到按時間順(shun)序排列(lie)的相似度(du)判(pan)決(jue)值,根(gen)據(ju)判(pan)決(jue)值的大小對被監測(ce)用(yong)戶的身份進行(xing)實時判(pan)決(jue)。

模(mo)型中有以(yi)下(xia)幾個關鍵問(wen)題:一、最佳(jia)序列(lie)長度的(de)選(xuan)擇(ze);二(er)、樣(yang)本序列(lie)的(de)提取;三、相似度函數的(de)定義;四、濾噪算法(fa)的(de)選(xuan)擇(ze)。Lane T等人(ren)針對以(yi)上問(wen)題利用UNIX用戶的(de)shell命令數據做了大量實驗,以(yi)下(xia)是他們得出的(de)結(jie)論:

(1)最佳(jia)序列(lie)長度同(tong)(tong)具體用戶的(de)(de)行為特點有(you)關。隨(sui)著序列(lie)長度的(de)(de)增大(da)(從(cong)1到15),模(mo)型(xing)的(de)(de)檢測性能隨(sui)用戶的(de)(de)不同(tong)(tong)而呈(cheng)現出不同(tong)(tong)的(de)(de)變(bian)化趨(qu)勢(shi)。

(2)在(zai)各種相(xiang)(xiang)似度(du)函(han)數中,關(guan)心(xin)相(xiang)(xiang)鄰命令(ling)之間相(xiang)(xiang)關(guan)性(xing)的(de)相(xiang)(xiang)似度(du)函(han)數對應(ying)的(de)檢測性(xing)能(neng)(neng)優(you)于不(bu)考(kao)慮相(xiang)(xiang)關(guan)性(xing)的(de)相(xiang)(xiang)似度(du)函(han)數。均值濾噪(zao)(zao)和中值濾噪(zao)(zao)算法[2]對應(ying)的(de)檢測性(xing)能(neng)(neng)差別不(bu)大(da)。

(3)在(zai)聚(ju)類(lei)、按出現(xian)概率(lv)提(ti)取(qu)、按時間順序截取(qu)、隨機選擇(ze)等樣本序列提(ti)取(qu)方(fang)法中,聚(ju)類(lei)方(fang)法對不同用戶(hu)的(de)適應性要強一些(xie),但(dan)實(shi)現(xian)起來最復雜。

3 基于機器學習的變長命令(ling)序列(lie)檢測模(mo)型(xing)

3.1 變長命令(ling)序列檢測模型的(de)描述

Lane T等(deng)人(ren)提出(chu)的(de)(de)(de)定長命(ming)(ming)令序(xu)(xu)列檢測(ce)模(mo)型(xing)(xing)主要有(you)兩個缺(que)(que)點:一、在用(yong)(yong)戶(hu)行(xing)為模(mo)式(shi)(shi)的(de)(de)(de)表(biao)示上(shang)缺(que)(que)乏(fa)(fa)靈活性(xing)(xing)和適應(ying)性(xing)(xing)。行(xing)為模(mo)式(shi)(shi)是指用(yong)(yong)戶(hu)操作過程中體(ti)(ti)(ti)現出(chu)的(de)(de)(de)某種(zhong)規律(lv)性(xing)(xing);實際(ji)中,不同(tong)用(yong)(yong)戶(hu)所具有(you)的(de)(de)(de)行(xing)為模(mo)式(shi)(shi)存在差異(yi),同(tong)一用(yong)(yong)戶(hu)完成不同(tong)行(xing)為模(mo)式(shi)(shi)時所執行(xing)的(de)(de)(de)命(ming)(ming)令個數也不盡相同(tong),因(yin)而,用(yong)(yong)長度(du)(du)固定的(de)(de)(de)命(ming)(ming)令序(xu)(xu)列難以(yi)全面準確地(di)表(biao)示出(chu)用(yong)(yong)戶(hu)的(de)(de)(de)整體(ti)(ti)(ti)行(xing)為輪廓。二、不容易估算針對具體(ti)(ti)(ti)用(yong)(yong)戶(hu)的(de)(de)(de)最(zui)佳序(xu)(xu)列長度(du)(du)。Lane T等(deng)人(ren)主要采用(yong)(yong)實驗方(fang)法(fa)來確定最(zui)佳序(xu)(xu)列長度(du)(du),這(zhe)種(zhong)方(fang)法(fa)所需的(de)(de)(de)計算量很(hen)大(da),而且其性(xing)(xing)能缺(que)(que)乏(fa)(fa)穩定性(xing)(xing)。我們針對定長命(ming)(ming)令序(xu)(xu)列檢測(ce)模(mo)型(xing)(xing)的(de)(de)(de)以(yi)上(shang)不足進行(xing)了改進和修正,提出(chu)一種(zhong)變長命(ming)(ming)令序(xu)(xu)列檢測(ce)模(mo)型(xing)(xing),具體(ti)(ti)(ti)描述如下:

(1)根據正常(chang)用(yong)戶的歷(li)史行為(wei),定(ding)義種長(chang)度不(bu)同的shell命令序(xu)列,用(yong)于表示正常(chang)用(yong)戶的各(ge)種行為(wei)模(mo)式。

設序列長(chang)度(du)(du)的(de)集合為(wei)(wei)(wei)(wei),其中表示第種(zhong)序列的(de)長(chang)度(du)(du),且。在(zai)(zai)樣本序列庫的(de)個數確定的(de)情(qing)況(kuang)下,可(ke)有(you)不同的(de)選(xuan)擇(ze)。例如時(shi),可(ke)以(yi)為(wei)(wei)(wei)(wei)(即三種(zhong)序列的(de)長(chang)度(du)(du)分(fen)別為(wei)(wei)(wei)(wei)),也(ye)可(ke)以(yi)為(wei)(wei)(wei)(wei)或其它(ta)組合。和(he)對檢(jian)(jian)測(ce)性能有(you)直接影響(xiang),在(zai)(zai)選(xuan)擇(ze)它(ta)們時(shi),除(chu)了(le)要充分(fen)考慮(lv)正(zheng)常用戶的(de)行為(wei)(wei)(wei)(wei)特點之外,還需考慮(lv)模型的(de)復雜(za)度(du)(du)及檢(jian)(jian)測(ce)效率(lv)(和(he)越大,檢(jian)(jian)測(ce)系統(tong)的(de)存儲量和(he)工作中的(de)運(yun)算量也(ye)會越大)。

(2)針(zhen)對每種序(xu)(xu)列(lie)建立一個(ge)(ge)樣(yang)本(ben)(ben)序(xu)(xu)列(lie)庫,用(yong)個(ge)(ge)樣(yang)本(ben)(ben)序(xu)(xu)列(lie)庫來描述正(zheng)常(chang)用(yong)戶(hu)的(de)行(xing)為(wei)輪(lun)廓(行(xing)為(wei)模式集合)。按照(zhao)正(zheng)常(chang)用(yong)戶(hu)歷史行(xing)為(wei)中各序(xu)(xu)列(lie)的(de)出現概率來提取(qu)樣(yang)本(ben)(ben)序(xu)(xu)列(lie)。

設(she)個(ge)樣(yang)(yang)本序(xu)列庫的(de)(de)(de)(de)集合(he),其(qi)中(zhong)表(biao)(biao)示長度為(wei)的(de)(de)(de)(de)序(xu)列對(dui)應的(de)(de)(de)(de)樣(yang)(yang)本序(xu)列庫。設(she)正(zheng)常(chang)用(yong)戶(hu)的(de)(de)(de)(de)訓練(lian)數據(歷史數據)為(wei),它是一個(ge)長度為(wei)的(de)(de)(de)(de)shell命(ming)(ming)令(ling)流,其(qi)中(zhong)表(biao)(biao)示按時(shi)間(jian)順序(xu)排列的(de)(de)(de)(de)第個(ge)命(ming)(ming)令(ling),對(dui)應的(de)(de)(de)(de)長度為(wei)()的(de)(de)(de)(de)命(ming)(ming)令(ling)序(xu)列流可表(biao)(biao)示為(wei),其(qi)中(zhong)。我(wo)們(men)設(she)定一個(ge)概(gai)(gai)率門(men)限,將()中(zhong)出現(xian)概(gai)(gai)率大于的(de)(de)(de)(de)命(ming)(ming)令(ling)序(xu)列視為(wei)正(zheng)常(chang)用(yong)戶(hu)的(de)(de)(de)(de)行為(wei)模式,即(ji)是由這些命(ming)(ming)令(ling)序(xu)列組成。

(3)定義序(xu)列之(zhi)間(jian)以及序(xu)列同(tong)樣本序(xu)列庫之(zhi)間(jian)的相(xiang)似度函數,用以描述行為模式(shi)之(zhi)間(jian)以及行為模式(shi)同(tong)用戶(hu)整體行為輪廓之(zhi)間(jian)的相(xiang)似程度。

設長(chang)度為的(de)兩序列和(he)的(de)相似度為,其(qi)計算方法如下[1]:

第(di)一步:設(she)定,,。

第(di)二步:如果(其(qi)中表示中的第(di)個命令),則,;否則,,。

第三步:。如果(guo),返回執行第二步;否則,。

根據以上定(ding)義,如(ru)果時(即(ji)兩序列相同),則有。

序(xu)列和(he)樣(yang)本序(xu)列庫(ku)的相似(si)度函數定(ding)義為:

(1)

(4)檢測時,以長度可變的(de)命令序列為(wei)單(dan)位(wei)進行相似度賦值,并將加(jia)窗濾(lv)噪后的(de)相似度作(zuo)為(wei)用戶(hu)身份的(de)判決依據。

對于被監測用戶的(de)命(ming)令流,將它所(suo)對應的(de)長度為的(de)序列(lie)(lie)流表示為,其中(zhong)。模型工作時,按照以(yi)下方法定義第(di)個長度可變的(de)序列(lie)(lie)并計算(suan)它同(tong)樣(yang)本序列(lie)(lie)庫集合的(de)相似度。

第一步:設定,,。

第二步(bu):如果,根據(1)式計算;否(fou)則,結束序列(lie)定義和相似度計算過程(cheng)。

第三步:如果(即與中(zhong)的某個序(xu)列相同),則,,,,,并返(fan)回執行第二(er)步;否則,。

第四步(bu)(bu)(bu):如果,返(fan)回(hui)執行第二步(bu)(bu)(bu);如果,則(ze),,,,,并返(fan)回(hui)執行第二步(bu)(bu)(bu)。

按照(zhao)以上方(fang)法進(jin)行變(bian)長序(xu)列的定(ding)義和相似度計算,可得到按時(shi)間順(shun)序(xu)排列的相似度輸出值序(xu)列,其中(zhong)(zhong)為中(zhong)(zhong)的變(bian)長序(xu)列個數(shu),,對(dui)此序(xu)列進(jin)行加窗濾(lv)噪(zao)處理,得到相似度判(pan)(pan)決(jue)值,對(dui)此值設定(ding)一個門限,若它大(da)于,將被監測用(yong)戶判(pan)(pan)為正常用(yong)戶,否則,將其判(pan)(pan)為異(yi)常用(yong)戶。采(cai)用(yong)均值濾(lv)噪(zao)算法時(shi)的相似度判(pan)(pan)決(jue)值為:

(2)

式中表(biao)示用(yong)戶(hu)第個變(bian)長序列對(dui)應(ying)時間(jian)(jian)(jian)點上的(de)相似度判決(jue)值(zhi)(模型在(zai)中第個變(bian)長序列之后的(de)每個序列對(dui)應(ying)時間(jian)(jian)(jian)點上都做一次(ci)判決(jue)),為窗長度,它(ta)是(shi)一個很重要(yao)的(de)參(can)數,決(jue)定了從被監測用(yong)戶(hu)行(xing)為發生到(dao)檢(jian)測系(xi)統對(dui)其行(xing)為做出判斷的(de)最短時間(jian)(jian)(jian)(即檢(jian)測時間(jian)(jian)(jian))。

3.2 模型的(de)分(fen)析(xi)與比較(jiao)

我們(men)提出的變長(chang)命令序(xu)列檢測模(mo)型主(zhu)要有以下幾(ji)個特(te)點:

(1)用(yong)多種(zhong)長度不同的命令序列表示正常用(yong)戶(hu)的行為模式,并針對每種(zhong)命令序列建立一個樣本序列庫,這可以更好(hao)地反映正常用(yong)戶(hu)的實際行為輪廓(kuo)。

(2)以(yi)長(chang)度(du)可變的(de)(de)(de)序(xu)(xu)(xu)(xu)列(lie)(lie)為(wei)(wei)(wei)(wei)單位進(jin)行相(xiang)(xiang)似(si)度(du)賦值(zhi),其實質是(shi)在(zai)被監測(ce)用戶命令流中(zhong)進(jin)行行為(wei)(wei)(wei)(wei)模(mo)式(shi)挖掘(jue)。行為(wei)(wei)(wei)(wei)模(mo)式(shi)挖掘(jue)過程中(zhong),以(yi)當前命令為(wei)(wei)(wei)(wei)起(qi)點組(zu)(zu)成(cheng)多(duo)個(ge)長(chang)度(du)不同(tong)的(de)(de)(de)序(xu)(xu)(xu)(xu)列(lie)(lie),并按(an)照(zhao)長(chang)度(du)從(cong)大到小的(de)(de)(de)順(shun)序(xu)(xu)(xu)(xu)依次同(tong)相(xiang)(xiang)應(ying)的(de)(de)(de)樣本(ben)序(xu)(xu)(xu)(xu)列(lie)(lie)庫(ku)進(jin)行比較,如果其中(zhong)一個(ge)序(xu)(xu)(xu)(xu)列(lie)(lie)同(tong)相(xiang)(xiang)應(ying)樣本(ben)序(xu)(xu)(xu)(xu)列(lie)(lie)庫(ku)中(zhong)的(de)(de)(de)某個(ge)序(xu)(xu)(xu)(xu)列(lie)(lie)相(xiang)(xiang)同(tong),則(ze)認為(wei)(wei)(wei)(wei)挖掘(jue)到一個(ge)行為(wei)(wei)(wei)(wei)模(mo)式(shi),將(jiang)(jiang)此序(xu)(xu)(xu)(xu)列(lie)(lie)提(ti)(ti)取出(chu)來并進(jin)行相(xiang)(xiang)似(si)度(du)賦值(zhi),序(xu)(xu)(xu)(xu)列(lie)(lie)長(chang)度(du)越大,所賦的(de)(de)(de)值(zhi)也越大,如果任何(he)一個(ge)序(xu)(xu)(xu)(xu)列(lie)(lie)同(tong)相(xiang)(xiang)應(ying)樣本(ben)序(xu)(xu)(xu)(xu)列(lie)(lie)庫(ku)中(zhong)的(de)(de)(de)序(xu)(xu)(xu)(xu)列(lie)(lie)都不相(xiang)(xiang)同(tong),則(ze)將(jiang)(jiang)當前命令提(ti)(ti)取出(chu)來作為(wei)(wei)(wei)(wei)長(chang)度(du)為(wei)(wei)(wei)(wei)1的(de)(de)(de)序(xu)(xu)(xu)(xu)列(lie)(lie),并將(jiang)(jiang)它與(yu)樣本(ben)序(xu)(xu)(xu)(xu)列(lie)(lie)庫(ku)的(de)(de)(de)相(xiang)(xiang)似(si)度(du)賦以(yi)0值(zhi);然后(hou),再以(yi)此序(xu)(xu)(xu)(xu)列(lie)(lie)之后(hou)的(de)(de)(de)下一個(ge)命令為(wei)(wei)(wei)(wei)起(qi)點組(zu)(zu)成(cheng)多(duo)個(ge)序(xu)(xu)(xu)(xu)列(lie)(lie)繼續進(jin)行挖掘(jue)和賦值(zhi)。

Lane T等人的(de)(de)定長序列(lie)(lie)檢測模(mo)(mo)型關心(xin)(xin)的(de)(de)是(shi)以(yi)當前命(ming)令(ling)為(wei)起點(dian)(dian)的(de)(de)定長序列(lie)(lie)與正(zheng)常用戶各個行為(wei)模(mo)(mo)式(shi)(shi)之(zhi)間的(de)(de)最大相似程(cheng)度(du),而變長序列(lie)(lie)檢測模(mo)(mo)型關心(xin)(xin)的(de)(de)是(shi)以(yi)當前命(ming)令(ling)為(wei)起點(dian)(dian)的(de)(de)多個長度(du)不同的(de)(de)序列(lie)(lie)是(shi)否能夠同正(zheng)常用戶的(de)(de)某個行為(wei)模(mo)(mo)式(shi)(shi)完全(quan)匹配。

(3)定長(chang)序(xu)列(lie)檢測(ce)模(mo)型對(dui)(dui)(dui)正常(chang)(chang)用(yong)(yong)戶(hu)(hu)和異(yi)常(chang)(chang)用(yong)(yong)戶(hu)(hu)的(de)檢測(ce)時(shi)(shi)(shi)間(jian)是相(xiang)同的(de)。變長(chang)序(xu)列(lie)檢測(ce)模(mo)型則(ze)(ze)不然,其(qi)(qi)(qi)檢測(ce)時(shi)(shi)(shi)間(jian)為(wei)個變長(chang)序(xu)列(lie)持(chi)續時(shi)(shi)(shi)間(jian)(不考慮模(mo)型的(de)計(ji)算時(shi)(shi)(shi)間(jian)),設變長(chang)序(xu)列(lie)的(de)平(ping)均長(chang)度為(wei),則(ze)(ze)平(ping)均檢測(ce)時(shi)(shi)(shi)間(jian)為(wei)個命(ming)令(ling)持(chi)續時(shi)(shi)(shi)間(jian);當被(bei)監測(ce)用(yong)(yong)戶(hu)(hu)是正常(chang)(chang)用(yong)(yong)戶(hu)(hu)時(shi)(shi)(shi),在(zai)其(qi)(qi)(qi)命(ming)令(ling)流中挖(wa)掘(jue)到的(de)行為(wei)模(mo)式(shi)會(hui)比(bi)較多,相(xiang)對(dui)(dui)(dui)較大,最大可為(wei),當被(bei)監測(ce)用(yong)(yong)戶(hu)(hu)是異(yi)常(chang)(chang)用(yong)(yong)戶(hu)(hu)時(shi)(shi)(shi),在(zai)其(qi)(qi)(qi)命(ming)令(ling)流中只能挖(wa)掘(jue)到很少的(de)(正常(chang)(chang)用(yong)(yong)戶(hu)(hu)的(de))行為(wei)模(mo)式(shi),相(xiang)對(dui)(dui)(dui)較小(xiao)(最小(xiao)可為(wei)1);所(suo)以,模(mo)型對(dui)(dui)(dui)異(yi)常(chang)(chang)用(yong)(yong)戶(hu)(hu)的(de)平(ping)均檢測(ce)時(shi)(shi)(shi)間(jian)相(xiang)對(dui)(dui)(dui)要短。

(4)此模型需要建立(li)多個樣本序(xu)列庫,因而對(dui)(dui)檢測系(xi)統數據存(cun)儲空間的需求相對(dui)(dui)較大。

4 實驗結果

我們進行了分組實驗,每組實驗中(zhong)(zhong)(zhong)將一個用戶(hu)(hu)設為正(zheng)常(chang)用戶(hu)(hu),而將其(qi)他三(san)個設為異常(chang)用戶(hu)(hu),分別采用兩(liang)(liang)種模(mo)型(xing)進行訓(xun)練(lian)和測試;正(zheng)常(chang)用戶(hu)(hu)的(de)前個命令(ling)用于(yu)模(mo)型(xing)的(de)訓(xun)練(lian)(建立樣(yang)本序(xu)(xu)列(lie)(lie)(lie)庫),正(zheng)常(chang)用戶(hu)(hu)和異常(chang)用戶(hu)(hu)的(de)后個命令(ling)用于(yu)模(mo)型(xing)檢測性能的(de)測試。在定長序(xu)(xu)列(lie)(lie)(lie)檢測模(mo)型(xing)中(zhong)(zhong)(zhong),序(xu)(xu)列(lie)(lie)(lie)長度為;在變長序(xu)(xu)列(lie)(lie)(lie)檢測模(mo)型(xing)中(zhong)(zhong)(zhong),序(xu)(xu)列(lie)(lie)(lie)長度集(ji)合。兩(liang)(liang)種模(mo)型(xing)中(zhong)(zhong)(zhong),每種樣(yang)本序(xu)(xu)列(lie)(lie)(lie)庫均由(you)正(zheng)常(chang)用戶(hu)(hu)的(de)近個序(xu)(xu)列(lie)(lie)(lie)中(zhong)(zhong)(zhong)出(chu)現(xian)概率大于(yu)的(de)序(xu)(xu)列(lie)(lie)(lie)組成,檢測時采用均值濾(lv)噪(zao)算(suan)法計算(suan)判決值。

為(wei)(wei)了在對(dui)(dui)異(yi)(yi)常(chang)用(yong)(yong)戶(hu)(hu)的(de)平(ping)均(jun)檢(jian)測(ce)時間相同(tong)的(de)情況下比較兩種模(mo)(mo)型(xing)(xing)的(de)性能(neng),我們(men)做了四組實驗,四個(ge)用(yong)(yong)戶(hu)(hu)各(ge)在一組實驗中(zhong)(zhong)被設(she)為(wei)(wei)正(zheng)常(chang)用(yong)(yong)戶(hu)(hu)。每(mei)組實驗中(zhong)(zhong),采用(yong)(yong)變長(chang)序(xu)列(lie)檢(jian)測(ce)模(mo)(mo)型(xing)(xing)時,用(yong)(yong)于性能(neng)測(ce)試的(de)各(ge)異(yi)(yi)常(chang)用(yong)(yong)戶(hu)(hu)命令流(包含個(ge)命令)中(zhong)(zhong)的(de)變長(chang)序(xu)列(lie)個(ge)數平(ping)均(jun)約為(wei)(wei),因(yin)此,我們(men)將變長(chang)序(xu)列(lie)檢(jian)測(ce)模(mo)(mo)型(xing)(xing)的(de)窗(chuang)長(chang)度設(she)為(wei)(wei),而將定長(chang)序(xu)列(lie)檢(jian)測(ce)模(mo)(mo)型(xing)(xing)的(de)窗(chuang)長(chang)度設(she)為(wei)(wei),以(yi)保證(zheng)兩種模(mo)(mo)型(xing)(xing)對(dui)(dui)異(yi)(yi)常(chang)用(yong)(yong)戶(hu)(hu)的(de)平(ping)均(jun)檢(jian)測(ce)時間基本相同(tong)。實驗中(zhong)(zhong)通過(guo)調整(zheng)判決門(men)限可(ke)以(yi)得到不同(tong)虛(xu)警概率情況下對(dui)(dui)三(san)個(ge)異(yi)(yi)常(chang)用(yong)(yong)戶(hu)(hu)的(de)平(ping)均(jun)檢(jian)測(ce)概率。表1給出了USER4被設(she)為(wei)(wei)正(zheng)常(chang)用(yong)(yong)戶(hu)(hu)時的(de)一組實驗結果。

表1 USER4被設(she)為正常(chang)用戶時的實(shi)驗結(jie)果

虛警概率

0.001

0.005

0.010

0.050

定長序(xu)列模型的 平均檢測概率

0.67

0.70

0.76

0.79

0.96

變長序列模型的 平均(jun)檢測(ce)概率

0.83

0.86

0.88

0.92

0.99

根據表1的實驗(yan)結果,在虛警概(gai)率較低的區間,變長序(xu)列檢(jian)測(ce)模型對(dui)應的平(ping)均檢(jian)測(ce)概(gai)率相對(dui)定長序(xu)列檢(jian)測(ce)模型有明(ming)顯的提(ti)高。其余三(san)組(zu)實驗(yan)的結果也證(zheng)明(ming)了這一(yi)點(dian),這里不再一(yi)一(yi)列出。

5 結論

本文提出一(yi)種(zhong)新的(de)(de)(de)基(ji)于機(ji)器學習的(de)(de)(de)IDS用(yong)(yong)戶行(xing)為異常檢(jian)(jian)測模型,并利(li)用(yong)(yong)UNIX用(yong)(yong)戶的(de)(de)(de)shell命(ming)令數據(ju)進行(xing)了實驗,實驗結果表明,新模型的(de)(de)(de)檢(jian)(jian)測性能同Lane T等人提出的(de)(de)(de)檢(jian)(jian)測模型相比有(you)較大(da)改(gai)善。由(you)于模型中的(de)(de)(de)學習方法和檢(jian)(jian)測算(suan)法對(dui)不(bu)同的(de)(de)(de)檢(jian)(jian)測數據(ju)有(you)一(yi)定(ding)的(de)(de)(de)適應(ying)性,因而此模型也可以用(yong)(yong)于shell命(ming)令之外(wai)其它數據(ju)類型(如系統調(diao)用(yong)(yong))的(de)(de)(de)IDS,但具體的(de)(de)(de)應(ying)用(yong)(yong)范圍及檢(jian)(jian)測性能還需要進一(yi)步的(de)(de)(de)研究和實驗。

篇6

Statistical and Machine

Learning Approaches for

Network Analysis

2012,344p

Hardcover

ISBN9783527331833

M·德默等編

圖(tu)形(xing)(xing)結(jie)構(gou)(gou)(gou)被用于(yu)(yu)計算機可以(yi)(yi)識別的(de)(de)(de)(de)結(jie)構(gou)(gou)(gou)信息(xi)時,對圖(tu)形(xing)(xing)信息(xi)進行統(tong)計分(fen)(fen)析(xi)就(jiu)成為可能(neng)。生(sheng)(sheng)物(wu)信息(xi)學(xue)、分(fen)(fen)子(zi)與系統(tong)生(sheng)(sheng)物(wu)學(xue)、理(li)論(lun)物(wu)理(li)、計算機科(ke)學(xue)、化學(xue)、工程等多(duo)個(ge)領域都在利用這一(yi)特(te)點(dian)充分(fen)(fen)發(fa)揮計算機在分(fen)(fen)析(xi)和統(tong)計方(fang)面的(de)(de)(de)(de)優勢。本書(shu)的(de)(de)(de)(de)一(yi)個(ge)重要特(te)點(dian)就(jiu)是將諸如(ru)(ru)圖(tu)論(lun)、機器學(xue)習及(ji)統(tong)計數據分(fen)(fen)析(xi)之類的(de)(de)(de)(de)理(li)論(lun)相互結(jie)合(he),形(xing)(xing)成一(yi)個(ge)新領域,以(yi)(yi)交叉學(xue)科(ke)的(de)(de)(de)(de)方(fang)式探索復(fu)雜(za)網(wang)(wang)絡(luo)。基因組、蛋白質,信號以(yi)(yi)及(ji)代(dai)謝組學(xue)數據的(de)(de)(de)(de)大規模生(sheng)(sheng)成使得(de)復(fu)雜(za)網(wang)(wang)絡(luo)的(de)(de)(de)(de)構(gou)(gou)(gou)建成為可能(neng),它為理(li)解生(sheng)(sheng)理(li)學(xue)以(yi)(yi)及(ji)病(bing)理(li)學(xue)狀態的(de)(de)(de)(de)分(fen)(fen)子(zi)基礎提供了一(yi)個(ge)嶄新的(de)(de)(de)(de)框架。網(wang)(wang)絡(luo)和基于(yu)(yu)網(wang)(wang)絡(luo)的(de)(de)(de)(de)方(fang)法用于(yu)(yu)生(sheng)(sheng)物(wu)學(xue)中以(yi)(yi)便表征(zheng)基因組、遺傳機理(li)以(yi)(yi)及(ji)蛋白質信號。疾(ji)病(bing)被看作關(guan)鍵(jian)細胞網(wang)(wang)絡(luo)的(de)(de)(de)(de)異常(chang)干(gan)擾。如(ru)(ru)今,在對諸如(ru)(ru)癌癥、糖(tang)尿病(bing)等的(de)(de)(de)(de)復(fu)雜(za)疾(ji)病(bing)的(de)(de)(de)(de)干(gan)預中,就(jiu)使用網(wang)(wang)絡(luo)理(li)論(lun)來分(fen)(fen)析(xi)。

本(ben)書共有11章:1.重構(gou)(gou)及(ji)(ji)劃分生(sheng)物(wu)網(wang)絡(luo)(luo)(luo)計算方法概(gai)(gai)論; 2.復(fu)雜網(wang)絡(luo)(luo)(luo)入(ru)門:度量(liang)、統(tong)計性質及(ji)(ji)模(mo)型; 3.進化(hua)中(zhong)的(de)(de)生(sheng)物(wu)網(wang)絡(luo)(luo)(luo)建模(mo); 4.內(nei)含動力(li)學的(de)(de)生(sheng)物(wu)網(wang)絡(luo)(luo)(luo)的(de)(de)模(mo)塊性配置; 5.統(tong)計概(gai)(gai)算機對(dui)管(guan)理網(wang)絡(luo)(luo)(luo)大規模(mo)因果推理的(de)(de)影響(xiang); 6.加權(quan)頻譜分布:網(wang)絡(luo)(luo)(luo)結構(gou)(gou)分析的(de)(de)度量(liang); 7.進化(hua)中(zhong)的(de)(de)隨機二部圖的(de)(de)結構(gou)(gou); 8.圖形內(nei)核; 9.用(yong)于(yu)早(zao)老(lao)性癡呆(dai)病(bing)的(de)(de)基于(yu)網(wang)絡(luo)(luo)(luo)的(de)(de)信(xin)息(xi)協(xie)同分析; 10.結構(gou)(gou)化(hua)數(shu)據中(zhong)基于(yu)密度的(de)(de)集合枚舉; 11.采(cai)用(yong)加權(quan)圖形內(nei)核的(de)(de)下位詞析取。

本書(shu)第1主編是(shi)奧地(di)利(li)健(jian)康與生(sheng)(sheng)命大學生(sheng)(sheng)物(wu)信息學和(he)轉化(hua)研(yan)究所(suo)所(suo)長,他在生(sheng)(sheng)物(wu)信息學、系統生(sheng)(sheng)物(wu)學和(he)應用離散數學領域130篇。他是(shi)Wiley出版的(de)《復雜(za)疾(ji)病醫(yi)學生(sheng)(sheng)物(wu)統計學》《復雜(za)網絡分析(xi)》和(he)《微陣列數據分析(xi)》等書(shu)的(de)合(he)作編者。

本書(shu)可用(yong)(yong)作(zuo)應用(yong)(yong)離(li)散數學、生物信息學、模式識別、計(ji)算機(ji)科學專業跨(kua)學科研究生課程(cheng)的(de)補充讀物,對于這些領域的(de)研究人員和專業人員,也是一本有價值(zhi)的(de)參考書(shu)。

胡光華,退休高工

(原中(zhong)國科學院物(wu)理學研究所)

篇7

關鍵詞:域名系統拒(ju)絕(jue)服務,神經網絡機(ji)器(qi)學習

 

1 引言

早(zao)期的(de)(de)(de)(de)(de)DNS是(shi)基于不(bu)可靠傳遞的(de)(de)(de)(de)(de)用(yong)戶(hu)數(shu)據報協議(UDP)設計的(de)(de)(de)(de)(de),而且DNS的(de)(de)(de)(de)(de)安全性在(zai)當時并不(bu)是(shi)大問題,因為早(zao)期的(de)(de)(de)(de)(de)設計足(zu)以滿足(zu)互聯(lian)網(wang)的(de)(de)(de)(de)(de)需求(qiu)。現(xian)在(zai),DNS已成為互聯(lian)網(wang)和具有一(yi)定(ding)規模的(de)(de)(de)(de)(de)專用(yong)網(wang)絡的(de)(de)(de)(de)(de)運(yun)營的(de)(de)(de)(de)(de)一(yi)項重要服務,所以有必要確保DNS系統避免(mian)任何未(wei)經授權的(de)(de)(de)(de)(de)訪問。本文的(de)(de)(de)(de)(de)第(di)一(yi)個目(mu)標是(shi)評估(gu)對DNS的(de)(de)(de)(de)(de)不(bu)同(tong)類(lei)型的(de)(de)(de)(de)(de)DoS攻擊。這些(xie)攻擊識(shi)別模式(shi)促使(shi)我們通(tong)過改變不(bu)同(tong)的(de)(de)(de)(de)(de)參數(shu)模擬不(bu)同(tong)的(de)(de)(de)(de)(de)攻擊方案來產生所需的(de)(de)(de)(de)(de)數(shu)據。

最常見的(de)兩種DNS拒絕服務(wu)攻(gong)擊(ji)(ji)是(shi)直接DoS攻(gong)擊(ji)(ji)和(he)放大攻(gong)擊(ji)(ji)。首先,攻(gong)擊(ji)(ji)者試圖通(tong)過從(cong)單個(ge)或多(duo)個(ge)源(yuan)發(fa)送(song)過多(duo)流量來擊(ji)(ji)垮服務(wu)器(qi)(qi)(qi)。因此,這(zhe)將導(dao)致目標服務(wu)器(qi)(qi)(qi)接收大量查詢數(shu)(shu)據包。被DoS攻(gong)擊(ji)(ji)淹沒的(de)域名服務(wu)器(qi)(qi)(qi)將經受丟失包和(he)不能總(zong)是(shi)回(hui)復所有DNS請求。參考文(wen)獻[1]指出(chu)DNS數(shu)(shu)據流的(de)數(shu)(shu)據包長(chang)度小(xiao),況且異常數(shu)(shu)據包相似性使得檢測過程更加困難。

另一方面(mian),攻(gong)(gong)(gong)(gong)(gong)擊(ji)(ji)者建立最(zui)先進和典型(xing)的(de)DoS攻(gong)(gong)(gong)(gong)(gong)擊(ji)(ji)類型(xing),稱為(wei)放(fang)大(da)(da)攻(gong)(gong)(gong)(gong)(gong)擊(ji)(ji),來(lai)(lai)增強一般(ban)DOS攻(gong)(gong)(gong)(gong)(gong)擊(ji)(ji)的(de)影響(xiang)(xiang)。這(zhe)(zhe)種攻(gong)(gong)(gong)(gong)(gong)擊(ji)(ji)類型(xing)命(ming)名為(wei)放(fang)大(da)(da)是(shi)因為(wei)攻(gong)(gong)(gong)(gong)(gong)擊(ji)(ji)者抓住了(le)小查詢(xun)可(ke)以(yi)產生更大(da)(da)量(liang)UDP響(xiang)(xiang)應數據(ju)包(bao)這(zhe)(zhe)個事(shi)實(shi)[2]。現在,DNS協議(yi)(RFC2671)被攻(gong)(gong)(gong)(gong)(gong)擊(ji)(ji)者用來(lai)(lai)擴大(da)(da)放(fang)大(da)(da)系數。例如,一個60字節(jie)的(de)DNS請(qing)求可(ke)以(yi)得到超過(guo)4000個字節(jie)的(de)回(hui)應。這(zhe)(zhe)將(jiang)產生超過(guo)60的(de)放(fang)大(da)(da)因素。多(duo)位(wei)研(yan)究者研(yan)究過(guo)放(fang)大(da)(da)攻(gong)(gong)(gong)(gong)(gong)擊(ji)(ji)的(de)影響(xiang)(xiang)。根(gen)據(ju)他們的(de)分析,這(zhe)(zhe)些攻(gong)(gong)(gong)(gong)(gong)擊(ji)(ji)模式包(bao)含了(le)龐大(da)(da)數量(liang)的(de)大(da)(da)于512字節(jie)的(de)標準(zhun)DNS數據(ju)包(bao)的(de)非(fei)標準(zhun)包(bao)[3]。

2 數據集生成仿真模型(xing)

訪問流量(liang)仿真真實(shi)環境較難,所以我(wo)(wo)們利用了網絡模(mo)擬(ni)器。據我(wo)(wo)們所知,可用的(de)DNS的(de)DoS攻(gong)擊生成數據集并不(bu)存在。因此,我(wo)(wo)們的(de)實(shi)驗(yan)用模(mo)擬(ni)生成所需的(de)數據。我(wo)(wo)們的(de)模(mo)型(xing)使用NS-2(版本2.28)的(de)OTcl程序進(jin)行模(mo)擬(ni),它用于構造DNS不(bu)同(tong)的(de)DoS攻(gong)擊。

我們(men)的(de)模(mo)擬(ni)網絡(luo)拓撲(pu)結構包含(han)一(yi)臺合(he)法的(de)客戶機、一(yi)個(ge)(ge)攻(gong)擊者和兩(liang)臺服務(wu)器(qi)。所有節點都(dou)連接到同一(yi)個(ge)(ge)路(lu)(lu)由(you)器(qi)。所有鏈路(lu)(lu)都(dou)是100Mbps和10ms延(yan)遲(chi),除了目標服務(wu)器(qi)和路(lu)(lu)由(you)器(qi)之間(jian)(jian)鏈路(lu)(lu)是10Mbps和10ms延(yan)遲(chi)。我們(men)以落尾排(pai)隊(dui)策略使用(yong)一(yi)個(ge)(ge)100個(ge)(ge)數(shu)據包大小的(de)隊(dui)列。網絡(luo)中有兩(liang)種類型的(de)流(liu)量的(de)產(chan)生(sheng),即合(he)法流(liu)量和攻(gong)擊流(liu)量。我們(men)模(mo)擬(ni)修(xiu)改了服務(wu)器(qi)的(de)應(ying)(ying)用(yong)程序,請求間(jian)(jian)隔時間(jian)(jian)固定(ding)為10秒(miao)。攻(gong)擊者期望用(yong)過剩(sheng)的(de)流(liu)量淹沒目標域(yu)名服務(wu)器(qi)。DOS流(liu)量模(mo)擬(ni)成(cheng)(cheng)恒(heng)定(ding)比(bi)特率(CBR)源。CBR由(you)NS-2中CBR流(liu)量生(sheng)成(cheng)(cheng)器(qi)生(sheng)成(cheng)(cheng)。我們(men)選取不同的(de)延(yan)遲(chi)值來確定(ding)攻(gong)擊開始時間(jian)(jian),來應(ying)(ying)對(dui)各種變化。

3 系統結構

本節提出了一種(zhong)新(xin)型DNS的(de)DoS攻擊(ji)檢(jian)測系(xi)統,它使用了一種(zhong)機器(qi)學習引(yin)擎來檢(jian)測和分類攻擊(ji)。該IDS是一個(ge)基于IDS(NNIDS)的(de)網絡節點,它可實施在(zai)域名服(fu)務器(qi)上以達到檢(jian)測攻擊(ji)的(de)目的(de)。圖1用輸(shu)入(ru)輸(shu)出數據(ju)類型給出了我們所提出的(de)系(xi)統的(de)總(zong)體結構(gou)。

該系統從收(shou)集(ji)域名服務器收(shou)到的(de)(de)(de)數據包流(liu)開始。接下(xia)來,預(yu)處理器基于(yu)一個(ge)管理員指(zhi)定(ding)的(de)(de)(de)20秒(miao)時間窗口統計分析流(liu)量,超過了最(zui)大查找延遲(chi)。可能標識域名服務器收(shou)到的(de)(de)(de)DNS流(liu)量的(de)(de)(de)參數,構成(cheng)了分類器的(de)(de)(de)輸入定(ding)義如下(xia):

① 收(shou)到的DNS吞吐量(liang)需定義為服務器所收(shou)到的比特數量(liang)。我們測量(liang)了指定的時間窗(chuang)口指標的平均值。

② 服務器在監測時間(jian)窗口接(jie)收的(de)數據包(bao)平(ping)均(jun)長(chang)度(du)。,域名(ming)(ming)系(xi)統(tong)拒(ju)絕(jue)服務。,域名(ming)(ming)系(xi)統(tong)拒(ju)絕(jue)服務。

③ 丟失(shi)包定義為(wei)由于洪(hong)水(shui)攻擊流量(liang)沒能達到其目標(biao)的(de)丟失(shi)DNS數據包的(de)數量(liang)。,域名(ming)系統拒絕服務(wu)。,域名(ming)系統拒絕服務(wu)。

在預處理流量和基于指定特征選擇產生所需數(shu)據(ju)集(ji)后,機(ji)器(qi)(qi)(qi)學習(xi)引擎得以應用(yong)。,域名系(xi)統(tong)拒(ju)絕(jue)服(fu)務。四種不同的(de)(de)(de)機(ji)器(qi)(qi)(qi)學習(xi)引擎已為我們的(de)(de)(de)系(xi)統(tong)所評估,其中三個(ge)在神(shen)經(jing)網絡分類器(qi)(qi)(qi)范疇,最后一個(ge)是基于支持向(xiang)量的(de)(de)(de)典型算法。這些引擎在接下來的(de)(de)(de)章(zhang)節中將詳細介紹。

圖1 系統框架

3.1 BP神經網絡

本(ben)文中,我們嘗試找(zhao)到(dao)優化的(de)(de)(de)BP網(wang)絡(luo)(luo)來有(you)(you)效地檢測和對不同的(de)(de)(de)DNS的(de)(de)(de)DOS攻擊(ji)分類。我們的(de)(de)(de)BP神經網(wang)絡(luo)(luo)有(you)(you)三(san)(san)個層次(ci)。輸(shu)入層的(de)(de)(de)單元(yuan)數目適合于輸(shu)入矢(shi)量(liang)的(de)(de)(de)特(te)(te)征,即(ji)DNS流量(liang)的(de)(de)(de)三(san)(san)大(da)特(te)(te)征。輸(shu)出(chu)層還有(you)(you)三(san)(san)個單元(yuan)表(biao)(biao)示(shi)正(zheng)常和DoS攻擊(ji)的(de)(de)(de)不同狀態(tai): [0 0 0]表(biao)(biao)示(shi)正(zheng)常狀態(tai),[0 0 1]表(biao)(biao)示(shi)直接DoS攻擊(ji)以(yi)及[0 1 0]表(biao)(biao)示(shi)放大(da)攻擊(ji)。我們為BP網(wang)絡(luo)(luo)訓練過程(cheng)做出(chu)下列(lie)主(zhu)要假設(she):時代數= 500,平均方差(MSE)= 0.00001,培訓功(gong)能(neng)=列(lie)文伯格-馬夸(kua)爾特(te)(te)法反(fan)向傳播(trainlm),激(ji)活功(gong)能(neng)=tan-sigmoid函數。我們的(de)(de)(de)網(wang)絡(luo)(luo)優化結構(gou),發現隱藏神經元(yuan)的(de)(de)(de)數量(liang)從3到(dao)13個不等。該系統在隱藏層的(de)(de)(de)最佳精度是7個神經元(yuan)。

3.2 RBF神經網絡

為了實現一(yi)個優化的RBF神(shen)經網絡(luo)的分類問題,我(wo)們需要為隱(yin)藏單(dan)(dan)元和RBF中心(xin)和寬(kuan)度(du)指(zhi)定激活函(han)數(shu)。隱(yin)藏層(ceng)主要使用的激活函(han)數(shu)是高斯函(han)數(shu),它已(yi)經用于(yu)我(wo)們的RBF分類器(qi)的隱(yin)藏單(dan)(dan)元。質(zhi)心(xin)位(wei)置已(yi)用K-means聚類算(suan)法(fa)選(xuan)擇,接著寬(kuan)度(du)參數(shu)計算(suan)公式如下:

由于要求高計(ji)算能(neng)力,我們初步測試中(zhong)不可能(neng)獲取(qu)與(yu)BP神經網絡相(xiang)同(tong)的MSE。因此(ci),我們設定MSE值0.001。

3.3 SOM神(shen)經(jing)網絡

在這個實驗中,三個特(te)征的(de)輸入(ru)向量因輸入(ru)值(zhi)的(de)差(cha)別很大已(yi)被(bei)歸一。如果原(yuan)始數據被(bei)直接應用到網絡,那么具有較(jiao)高值(zhi)的(de)輸入(ru)樣本可能會導致抑制較(jiao)小值(zhi)的(de)影響。因此,下(xia)面(mian)的(de)公式給出標準的(de)規范化:

測(ce)試(shi)不同數(shu)(shu)(shu)目(mu)的(de)神經元(yuan),以(yi)找到(dao)最佳的(de)執行網(wang)絡。,域名系統拒絕服務(wu)。查看流(liu)量數(shu)(shu)(shu)據使(shi)用的(de)分類器(qi)的(de)輸出(chu),我(wo)們(men)得到(dao)了同樣(yang)的(de)結果,并且注意到(dao)所有正常流(liu)量在(zai)指定范圍內聚集(ji),而可疑流(liu)量在(zai)顯示可能攻擊群的(de)外面。當我(wo)們(men)對結果充滿信心時(shi),受測(ce)試(shi)數(shu)(shu)(shu)據控制訓練好的(de)網(wang)絡得以(yi)評估。因此,實(shi)施(shi)SOM神經網(wang)絡的(de)主要假(jia)設如下(xia):時(shi)代(dai)數(shu)(shu)(shu)= 1000,神經元(yuan)數(shu)(shu)(shu)目(mu)= 25,相鄰拓撲= Hextop(六角層拓撲函(han)數(shu)(shu)(shu)),距離函(han)數(shu)(shu)(shu)= Linkdist,預(yu)訂階(jie)(jie)段學(xue)習率= 0.9,預(yu)訂階(jie)(jie)段步驟= 1000,調(diao)(diao)整階(jie)(jie)段學(xue)習率= 0.02,調(diao)(diao)整階(jie)(jie)段相鄰距離= 1。

3.4 支持向(xiang)量機

SVM是最(zui)(zui)近(jin)入(ru)侵檢測(ce)(ce)系統中(zhong)使用的(de)(de)另(ling)一(yi)種(zhong)(zhong)(zhong)學習與軟(ruan)計算技(ji)術(shu)。基本的(de)(de)SVM算法是為(wei)分類(lei)(lei)對(dui)象分為(wei)兩(liang)類(lei)(lei)而(er)(er)設計的(de)(de),但許(xu)多現實世(shi)界的(de)(de)問題(ti)有兩(liang)種(zhong)(zhong)(zhong)以(yi)上(shang)的(de)(de)處理方(fang)法。在我(wo)們的(de)(de)實驗中(zhong),實施一(yi)對(dui)所(suo)有的(de)(de)方(fang)案是為(wei)解決這個(ge)問題(ti)的(de)(de)。它構造3位SVM分類(lei)(lei)器(qi)(qi),每個(ge)分類(lei)(lei)器(qi)(qi)將(jiang)其中(zhong)一(yi)個(ge)類(lei)(lei)從其余類(lei)(lei)分開。第i 個(ge)SVM是利用第i類(lei)(lei)正標簽(+1)的(de)(de)訓練集進行訓練,而(er)(er)負標簽(-1)則為(wei)其他。最(zui)(zui)后(hou),我(wo)們的(de)(de)測(ce)(ce)試數據的(de)(de)樣本歸為(wei)第i類(lei)(lei),它擁有三種(zhong)(zhong)(zhong)分類(lei)(lei)器(qi)(qi)之間的(de)(de)最(zui)(zui)大值(zhi)。

在訓(xun)練階段, 應提供(gong)具(ju)有(you)(you)相應參數(shu)的(de)適當函(han)數(shu)。這將是(shi)一個耗時的(de)過(guo)程(cheng),因(yin)為(wei)訓(xun)練的(de)機器使用不同的(de)內(nei)核參數(shu),且當中(zhong)只(zhi)有(you)(you)一個是(shi)測試過(guo)程(cheng)中(zhong)選為(wei)表現最好(hao)的(de)。

三(san)個(ge)徑(jing)向(xiang)(xiang)內核(he)分(fen)別為1.5、10和(he)5伽馬的支持向(xiang)(xiang)量機和(he)最(zui)佳正規參數C= 100、1和(he)1000000用來(lai)實施三(san)個(ge)分(fen)類器。徑(jing)向(xiang)(xiang)基礎內核(he)公(gong)式如(ru)下:

4 系統評估

為(wei)評估我們所提出的系統(tong),定(ding)義(yi)了下(xia)列性能指標(biao):

精度(du),是(shi)指歸為(wei)總體數(shu)(shu)據(ju)中準(zhun)確(que)類型的(de)(de)(de)數(shu)(shu)據(ju)比例。準(zhun)確(que)的(de)(de)(de)情(qing)況是(shi)真陽(yang)性(TP)和(he)真陰(yin)性(TN),而(er)虛假的(de)(de)(de)檢(jian)測情(qing)況是(shi)假陽(yang)性(FP)和(he)假陰(yin)性(FN)。該系統的(de)(de)(de)精度(du)計算公式如下:

檢測率(lv)(DR),是(shi)指(zhi)在所(suo)有攻擊(ji)中檢測到的攻擊(ji)所(suo)占的比例。兩種攻擊(ji)的指(zhi)標按下列公式計算:

誤報率(FAR),是指被分類器錯誤分類的網絡流量的百分比。其計(ji)算公式如下:

表1:不同分類(lei)器(qi)的性能比較

表(biao)(biao)1列(lie)出(chu)了三個神(shen)經網絡分類(lei)器以及SVM的(de)(de)性能比較(jiao)。結果表(biao)(biao)明(ming),BP神(shen)經網絡優于本文實現的(de)(de)其他類(lei)型的(de)(de)分類(lei)器。它給我們提供了以可接受(shou)的(de)(de)誤(wu)報率(lv)對DNS的(de)(de)拒絕(jue)服務的(de)(de)良好(hao)的(de)(de)檢測(ce)率(lv)。

5 結束語

本(ben)文介(jie)紹了DNS的(de)(de)兩個不(bu)同(tong)類型(xing)的(de)(de)DoS攻擊(ji),直接DoS和(he)放(fang)大攻擊(ji)。對DNS流(liu)(liu)量(liang)的(de)(de)DoS攻擊(ji)的(de)(de)影響的(de)(de)調查使(shi)我(wo)們發現可疑(yi)行為。基于這些(xie)模式,分析測(ce)量(liang)所需的(de)(de)流(liu)(liu)量(liang)數據通過(guo)使(shi)用最靈活的(de)(de)網絡模擬器(qi)(qi)NS - 2進行模擬。最后,提出了基于機器(qi)(qi)學(xue)習的(de)(de)系(xi)統,通過(guo)幾(ji)種流(liu)(liu)量(liang)統計來檢(jian)測(ce)和(he)分類DNS的(de)(de)DoS攻擊(ji)。兩種不(bu)同(tong)的(de)(de)機器(qi)(qi)學(xue)習算法為探測(ce)器(qi)(qi)引擎進行了評估,也即神(shen)(shen)經網絡分類器(qi)(qi)和(he)支持向(xiang)量(liang)機。性能比較結(jie)果表明,BP神(shen)(shen)經網絡以對直接DoS攻擊(ji)99.55%的(de)(de)檢(jian)測(ce)率(lv)優(you)于其(qi)他分類器(qi)(qi),97.82%放(fang)大攻擊(ji)檢(jian)測(ce)率(lv),99%的(de)(de)準確率(lv),以及0.28%的(de)(de)誤報率(lv)。

【參考文獻】

[1]Y. Wang, M. Hu, B. Li and B. Yan, Tracking anomalous behaviors of name serversby mining DNS traffic, LECTURE NOTES IN COMPUTER SCIENCE,p351-357, 2006

[2]R. Vaughn and G. Evron. DNS Amplification Attacks,isotf.org/news/

DNS-Amplification-Attacks.pdf.Accessed,Nov. 2008

篇8

關鍵詞:圖像(xiang)處理;機器學(xue)習;邏(luo)輯回歸;梯度下降

中圖分類(lei)號(hao):TP391.41

1 背景簡介

現今(jin),人(ren)(ren)(ren)與計(ji)算(suan)機(ji)的(de)(de)交(jiao)互(hu)(hu)活(huo)動越(yue)來越(yue)成(cheng)為人(ren)(ren)(ren)們日(ri)常生活(huo)的(de)(de)一(yi)個重要組成(cheng)部(bu)分。傳統的(de)(de)人(ren)(ren)(ren)機(ji)交(jiao)互(hu)(hu)存在各種(zhong)缺(que)陷(xian),如(ru):必須使(shi)用(yong)鍵盤、鼠標或操(cao)縱桿方能完(wan)成(cheng)人(ren)(ren)(ren)機(ji)交(jiao)互(hu)(hu)。因此,新興(xing)的(de)(de)交(jiao)互(hu)(hu)方式應運而生,其中(zhong)動態(tai)手(shou)勢識(shi)(shi)別逐(zhu)漸成(cheng)為人(ren)(ren)(ren)機(ji)交(jiao)互(hu)(hu)中(zhong)最熱門的(de)(de)新興(xing)交(jiao)互(hu)(hu)方式之(zhi)一(yi)。動態(tai)手(shou)勢識(shi)(shi)別采用(yong)手(shou)指的(de)(de)形(xing)態(tai)來進行標記和識(shi)(shi)別,從而操(cao)控計(ji)算(suan)機(ji),在人(ren)(ren)(ren)機(ji)交(jiao)互(hu)(hu)過程中(zhong)發揮越(yue)來越(yue)重要的(de)(de)作(zuo)用(yong)。因此,體感手(shou)勢這一(yi)課題意(yi)義深遠,具有廣闊(kuo)的(de)(de)實(shi)際應用(yong)前景。

2 系統功能介紹

2.1 定(ding)義人(ren)機交互手(shou)(shou)勢:通過在手(shou)(shou)指(zhi)上面套上兩種(zhong)顏色鮮明的指(zhi)環,規定(ding)控制方(fang)向(xiang)(xiang)(xiang)的向(xiang)(xiang)(xiang)上,向(xiang)(xiang)(xiang)下,向(xiang)(xiang)(xiang)左(zuo),向(xiang)(xiang)(xiang)右四種(zhong)手(shou)(shou)勢,點擊以及縮小,放大(da)等手(shou)(shou)勢操作。

2.2 在(zai)OpenCV平(ping)臺上面,利用CamShift算法來獲取多個動(dong)態(tai)手勢點的(de)位置。

2.3 將(jiang)多個位置(zhi)點的(de)視頻流數據利用機器學習中(zhong)的(de)線性回歸,梯度下(xia)降算法,得出(chu)相應的(de)手勢操作(zuo)結果。

2.4 利用(yong)(yong)手勢操作(zuo)的結果,利用(yong)(yong)無線網(wang)絡傳輸(shu)數據來(lai)(lai)控制(zhi)鼠標的移動/利用(yong)(yong)紅外數據來(lai)(lai)控制(zhi)電視機電臺切換(huan)以及音量控制(zhi),替代遙(yao)控器的功(gong)能。

3 理論算法

3.1 Camshift算(suan)法(fa)(fa)介紹。Camshift算(suan)法(fa)(fa)是MeanShift算(suan)法(fa)(fa)的改進,稱為連續自(zi)適(shi)應的MeanShift算(suan)法(fa)(fa)。

Camshift算(suan)法可(ke)以分(fen)為三個部(bu)分(fen):(1)計(ji)算(suan)色(se)(se)(se)彩投(tou)影圖(tu)(tu):將(jiang)圖(tu)(tu)像(xiang)從RGB顏色(se)(se)(se)空(kong)間轉換到(dao)HSV顏色(se)(se)(se)空(kong)間,對(dui)H分(fen)量進(jin)行直方(fang)圖(tu)(tu)統(tong)計(ji),將(jiang)圖(tu)(tu)像(xiang)中每個像(xiang)素(su)的(de)(de)值用其顏色(se)(se)(se)出現的(de)(de)概率進(jin)行替換,由此得(de)(de)到(dao)顏色(se)(se)(se)概率分(fen)布圖(tu)(tu)。(2)MeanShift尋優算(suan)法:通過不斷迭代計(ji)算(suan)得(de)(de)到(dao)最優搜索窗口的(de)(de)位置(zhi)和(he)大小(xiao)。(3)CamShift跟蹤算(suan)法:在視頻序列的(de)(de)每一(yi)(yi)幀(zhen)當(dang)中都(dou)運用meanShift,并將(jiang)上一(yi)(yi)幀(zhen)的(de)(de)MeanShift結果(guo)作(zuo)為下一(yi)(yi)幀(zhen)的(de)(de)初(chu)始(shi)值,如此不斷循環(huan)迭代,就可(ke)以實現目標的(de)(de)跟蹤了。

3.2 邏(luo)輯回歸(gui)以及(ji)梯度下降(jiang)算法

我們(men)利用邏(luo)輯(ji)回歸函(han)數可以來(lai)實現有監督學習的多(duo)分類(lei)實現。

4.3 手(shou)勢(shi)(shi)操(cao)作(zuo)的(de)機器實現。通(tong)過(guo)提(ti)取視(shi)頻流(liu)中動(dong)態手(shou)勢(shi)(shi)點(dian)(dian)的(de)特征信(xin)息,通(tong)過(guo)機器學(xue)習的(de)決策分(fen)類(lei)之后獲得(de)了不同手(shou)勢(shi)(shi)的(de)操(cao)作(zuo)。利用API函數GetCursorPos SetCursorPos mouse_event來操(cao)作(zuo)鼠標(biao)的(de)移動(dong)/點(dian)(dian)擊/滾作(zuo)。

4.4 實驗結果。經(jing)過(guo)機器學習算法提取的手勢點坐標(biao):

5 結束語

本(ben)文提(ti)出了基于Camshift算法結合(he)機器學(xue)習分(fen)類(lei)算法實現了手勢(shi)多點跟蹤(zong)以及(ji)簡單的(de)(de)(de)鼠標控制操作。由(you)于Camshift算法對(dui)顏(yan)色(se)要求比較高,在(zai)實際情景(jing)中對(dui)顏(yan)色(se)要求很(hen)苛(ke)刻。而(er)且為了更(geng)好更(geng)精準的(de)(de)(de)對(dui)鼠標進(jin)行操控,該算法需(xu)要戴(dai)實驗(yan)用的(de)(de)(de)指環套,并且手勢(shi)類(lei)型不夠多樣化。在(zai)算法的(de)(de)(de)準確性上(shang)面(mian)還有待改進(jin)。

參考文獻:

[1]Gray Bradski& Adrian Kaebler 著,于仕琪,劉瑞禎,譯.學習(xi)OpenCV(中文版)[M].清華大學出版社,2009-10.

[2]于仕(shi)琪,劉瑞禎.OpenCV教程(cheng)(基礎篇)[M].北京:航空大學(xue)出版社(she),2007-6.

[3]斯蒂格 尤里(li)奇 威德曼 著,楊少榮(rong),譯.機(ji)器視覺算法與應用[M].清華大學出版社,2008-11.

[4]西(xi)剎子.安防(fang)天下:智能網絡(luo)視頻監控技(ji)術詳解與實(shi)踐[M].清(qing)華大(da)學出版社,2010-2.

[5]汪光華.智(zhi)能安防:視(shi)頻監控全面解(jie)析與實(shi)例分(fen)析[M].機(ji)械工業(ye)出版(ban)社,2012-8.

[6]康威 John Myles White 著(zhu),陳開江(jiang),劉(liu)逸(yi)哲,孟曉(xiao)楠,譯.機器學習:實用案例解析[M].機械工業出版社,2013-4.

作者簡介:高鑫(1992.7.20-),男,浙江寧波(bo)人,學生,本科(ke),研究方(fang)向:信息安全(quan)。

篇9

>> 機(ji)器(qi)人智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)研(yan)究(jiu)(jiu)(jiu)的(de)(de)(de)(de)(de)關鍵技(ji)術(shu)與(yu)發(fa)(fa)展(zhan)展(zhan)望(wang) 智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)綠(lv)色建(jian)(jian)筑(zhu)(zhu)在(zai)辦公園區中(zhong)(zhong)的(de)(de)(de)(de)(de)實踐及(ji)展(zhan)望(wang) 能(neng)(neng)(neng)(neng)效管理在(zai)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)建(jian)(jian)筑(zhu)(zhu)中(zhong)(zhong)的(de)(de)(de)(de)(de)應(ying)用(yong)(yong)及(ji)發(fa)(fa)展(zhan)趨(qu)勢(shi) 基于車(che)(che)聯網(wang)的(de)(de)(de)(de)(de)汽(qi)車(che)(che)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)發(fa)(fa)展(zhan)研(yan)究(jiu)(jiu)(jiu) 汽(qi)車(che)(che)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)技(ji)術(shu)的(de)(de)(de)(de)(de)發(fa)(fa)展(zhan)趨(qu)勢(shi)研(yan)究(jiu)(jiu)(jiu) 汽(qi)車(che)(che)基本構(gou)造及(ji)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)的(de)(de)(de)(de)(de)研(yan)究(jiu)(jiu)(jiu) 綠(lv)色建(jian)(jian)筑(zhu)(zhu)中(zhong)(zhong)的(de)(de)(de)(de)(de)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)技(ji)術(shu)應(ying)用(yong)(yong)探究(jiu)(jiu)(jiu) 智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)技(ji)術(shu)在(zai)綠(lv)色建(jian)(jian)筑(zhu)(zhu)中(zhong)(zhong)的(de)(de)(de)(de)(de)應(ying)用(yong)(yong)論述 智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)技(ji)術(shu)在(zai)綠(lv)色建(jian)(jian)筑(zhu)(zhu)中(zhong)(zhong)的(de)(de)(de)(de)(de)應(ying)用(yong)(yong)分析(xi) 遺傳算(suan)法在(zai)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)機(ji)器(qi)人行為規劃中(zhong)(zhong)的(de)(de)(de)(de)(de)應(ying)用(yong)(yong)研(yan)究(jiu)(jiu)(jiu) 智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)、信(xin)(xin)息化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)技(ji)術(shu)在(zai)紡織行業中(zhong)(zhong)的(de)(de)(de)(de)(de)應(ying)用(yong)(yong)與(yu)發(fa)(fa)展(zhan) 智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)和(he)信(xin)(xin)息化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)在(zai)工程(cheng)機(ji)械(xie)(xie)發(fa)(fa)展(zhan)中(zhong)(zhong)的(de)(de)(de)(de)(de)應(ying)用(yong)(yong) 智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)噴涂機(ji)器(qi)人的(de)(de)(de)(de)(de)研(yan)究(jiu)(jiu)(jiu)現(xian)狀及(ji)進(jin)展(zhan) 智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)數字電(dian)源的(de)(de)(de)(de)(de)應(ying)用(yong)(yong)與(yu)發(fa)(fa)展(zhan)研(yan)究(jiu)(jiu)(jiu) 國內外智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)建(jian)(jian)筑(zhu)(zhu)的(de)(de)(de)(de)(de)發(fa)(fa)展(zhan)動態及(ji)展(zhan)望(wang) 電(dian)氣(qi)自動化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)在(zai)樓宇智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)中(zhong)(zhong)的(de)(de)(de)(de)(de)應(ying)用(yong)(yong)研(yan)究(jiu)(jiu)(jiu) 智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)技(ji)術(shu)在(zai)電(dian)氣(qi)工程(cheng)自動化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)中(zhong)(zhong)的(de)(de)(de)(de)(de)應(ying)用(yong)(yong)價值研(yan)究(jiu)(jiu)(jiu) 建(jian)(jian)筑(zhu)(zhu)電(dian)氣(qi)自動化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)在(zai)樓宇智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)中(zhong)(zhong)的(de)(de)(de)(de)(de)應(ying)用(yong)(yong)研(yan)究(jiu)(jiu)(jiu) 智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)技(ji)術(shu)在(zai)機(ji)械(xie)(xie)工程(cheng)自動化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)中(zhong)(zhong)的(de)(de)(de)(de)(de)應(ying)用(yong)(yong)研(yan)究(jiu)(jiu)(jiu) 試(shi)論固(gu)網(wang)智(zhi)(zhi)(zhi)(zhi)能(neng)(neng)(neng)(neng)化(hua)(hua)(hua)(hua)(hua)(hua)(hua)(hua)的(de)(de)(de)(de)(de)應(ying)用(yong)(yong)與(yu)展(zhan)望(wang) 常見(jian)問(wen)題(ti)解答 當(dang)前所在(zai)位置:l.

[8] 王笑京,沈鴻飛(fei),汪林.中國智(zhi)能交(jiao)(jiao)通系(xi)統(tong)發展(zhan)戰略研究[J].交(jiao)(jiao)通運輸(shu)系(xi)統(tong)工程與信息(xi),2006,6(4):9-12.

[9] 邵(shao)恩坡.發展(zhan)天(tian)然氣汽車(che)存在的問題及對(dui)策[J].節能(neng)技術,2005,23(6):554-556.

[10] WicksM C.Radar the next generation2sensors as robots[C]//. IEEE Radar Conference,Washington,USA.2003:4-18.

[11] 沈(shen),毛建國,李舜酩.單目視(shi)覺車(che)道線識別算法及其ARM實現[J].南京(jing)航空(kong)航天大學(xue)學(xue)報,2008,40(2):208-212.

[12] Baber J,Kolodko J,Noe T,et al.Intelligent vehicles sharing city roads[J].IEEE Transactions on Robotics & Automation Magazine,2005,12(1):44-49.

[13] Liu Y,Ozguner U,Acarman T.Performance evaluation of intervehicle communication in highway systems and in urban areas[J]. IEEE Intelligent Transport Systems,2006,153 (1) : 63-75.

[14] Chen Q,OzgunerU,Redmill K. Developing acompletely autonomous vehicle[J]. IEEE Intelligence Systems,2004,19(5) : 8-11.

[15] 張新豐,林凱,劉旺,等.汽車(che)語(yu)控智能電器系(xi)統[J].汽車(che)工程,2007,29 (7):601-605.

[16] 韓玉敏(min).汽車智(zhi)能電子節氣門控制系統研(yan)究[J].交(jiao)通科技(ji)與經濟,2006,8(2):87-89.

[17] 趙(zhao)巖,王哈力,等.汽(qi)車智能雨刷系統的設計[J].電子科技(ji),2007,2(209): 70-72.

[18] Xin J ianghui,Li Shunming,Liao Qingbin,et al. The application of fuzzy logic in exploration vehicle[C]//.International Conferenceon Fuzzy Systems and Knowledge Discovery.2007:195-203.

[19] 王(wang)珊,王(wang)會舉(ju),覃雄派,等.架構大數據:挑戰現狀與(yu)展(zhan)望(wang)[J].計算(suan)機(ji)學報,2011(10):1741-1752.

[20] 余凱(kai),賈(jia)磊,陳雨強.深度學習:推進人工智能的夢(meng)想[J].程序員,2013(6): 22-27.

篇10

【關鍵詞(ci)】糧食 種植面積 指標體系

一、引言

糧食(shi)(shi)種(zhong)(zhong)植(zhi)(zhi)面積(ji)是保證國家(jia)糧食(shi)(shi)供給(gei)安(an)全的(de)(de)(de)重要前提,研(yan)究(jiu)糧食(shi)(shi)種(zhong)(zhong)植(zhi)(zhi)面積(ji)是十分有(you)意(yi)義的(de)(de)(de)。國家(jia)糧價收購政策、農業從業人員、糧食(shi)(shi)進(jin)出(chu)口貿(mao)易、農民受教(jiao)育程度、城鄉收入差距等因(yin)素(su)(su)都影響著糧食(shi)(shi)種(zhong)(zhong)植(zhi)(zhi)面積(ji),為綜合度量(liang)各因(yin)素(su)(su)對糧食(shi)(shi)種(zhong)(zhong)植(zhi)(zhi)面積(ji)的(de)(de)(de)影響程度,下(xia)文(wen)將(jiang)建立指標(biao)體(ti)(ti)系(xi)進(jin)一(yi)步分析(xi)(xi)。考慮到數據的(de)(de)(de)可得性,再參考現(xian)有(you)文(wen)獻研(yan)究(jiu)成果的(de)(de)(de)基礎上(shang),本(ben)文(wen)選取投入、產出(chu)及可持續發(fa)展三(san)個方(fang)面的(de)(de)(de)指標(biao)建立有(you)關糧食(shi)(shi)種(zhong)(zhong)植(zhi)(zhi)面積(ji)的(de)(de)(de)指標(biao)體(ti)(ti)系(xi)。為了更好的(de)(de)(de)研(yan)究(jiu)它們之(zhi)間的(de)(de)(de)關系(xi),決定采用多元線(xian)性回(hui)(hui)歸(gui)模型、Bagging、m-Boosting回(hui)(hui)歸(gui)模型、支持向量(liang)機回(hui)(hui)歸(gui)、決策樹、神(shen)經網絡(luo)等方(fang)法(fa)分別對其進(jin)行分析(xi)(xi),以期得到最有(you)效的(de)(de)(de)結論(lun)。

二、方法介B

在(zai)研究變(bian)量(liang)對(dui)(dui)(dui)變(bian)量(liang)的(de)(de)影響(xiang)或變(bian)量(liang)之間(jian)的(de)(de)關系時,人們(men)最先想到的(de)(de)是(shi)(shi)回(hui)歸(gui),而線性回(hui)歸(gui)模(mo)型(xing)的(de)(de)前提假設較(jiao)多(duo)且要求(qiu)較(jiao)高(gao),所以現(xian)實數(shu)據(ju)是(shi)(shi)很難滿足(zu)這(zhe)些條件,即使(shi)是(shi)(shi)滿足(zu),還要受到其他因(yin)素的(de)(de)影響(xiang),近年來,隨(sui)著專家學(xue)(xue)者們(men)對(dui)(dui)(dui)建(jian)模(mo)認(ren)識的(de)(de)逐漸深入(ru),再加(jia)上(shang)計(ji)算機技術的(de)(de)快速發展(zhan),出(chu)現(xian)了諸如決(jue)策樹、m-boosting等(deng)(deng)機器(qi)學(xue)(xue)習算法,這(zhe)些算法模(mo)型(xing)在(zai)建(jian)模(mo)之前對(dui)(dui)(dui)數(shu)據(ju)沒(mei)有(you)做出(chu)任何(he)假定,使(shi)用的(de)(de)是(shi)(shi)諸如一(yi)致性、無偏性等(deng)(deng)概念進(jin)行建(jian)模(mo),能夠很好的(de)(de)解決(jue)多(duo)元線性回(hui)歸(gui)的(de)(de)不足(zu),預測精(jing)度(du)高(gao),所以本(ben)文在(zai)建(jian)模(mo)中引(yin)入(ru)機器(qi)學(xue)(xue)習方法對(dui)(dui)(dui)糧食種(zhong)植(zhi)面積進(jin)行研究。

決策(ce)樹(shu)(shu)(Decision Tree)是(shi)在已知(zhi)概(gai)率的(de)(de)(de)(de)(de)基(ji)礎(chu)上(shang),通過計算預期的(de)(de)(de)(de)(de)凈現值大于(yu)或者等于(yu)零的(de)(de)(de)(de)(de)概(gai)率來評(ping)價某一(yi)項目運行(xing)的(de)(de)(de)(de)(de)風險(xian)。隨(sui)機(ji)森(sen)林(lin)是(shi)用隨(sui)機(ji)的(de)(de)(de)(de)(de)方式建(jian)立(li)一(yi)個“森(sen)林(lin)”,森(sen)林(lin)里面有很多的(de)(de)(de)(de)(de)決策(ce)樹(shu)(shu)組成。Bagging與m-Boosting算法類似,區別(bie)在于(yu)Bagging訓練集(ji)的(de)(de)(de)(de)(de)選(xuan)擇(ze)(ze)是(shi)隨(sui)機(ji)的(de)(de)(de)(de)(de),各輪(lun)訓練集(ji)之間相(xiang)互獨(du)立(li),而m-Boosting訓練集(ji)的(de)(de)(de)(de)(de)選(xuan)擇(ze)(ze)不是(shi)獨(du)立(li)的(de)(de)(de)(de)(de),各輪(lun)訓練集(ji)的(de)(de)(de)(de)(de)選(xuan)擇(ze)(ze)與前面各輪(lun)的(de)(de)(de)(de)(de)學(xue)習結果有關。神經網(wang)絡(luo)本質上(shang)是(shi)人腦處理信息方式的(de)(de)(de)(de)(de)簡化模型。支持向量機(ji)(SVM,Support Vector Machines)有兩種功(gong)能(neng),一(yi)是(shi)對(dui)數(shu)(shu)據(ju)進(jin)行(xing)分(fen)類,二是(shi)對(dui)數(shu)(shu)據(ju)進(jin)行(xing)回(hui)歸(gui),目前主(zhu)要用于(yu)對(dui)小樣本、非(fei)線性及(ji)高維數(shu)(shu)據(ju)進(jin)行(xing)分(fen)類和回(hui)歸(gui)。

三、實證分析

糧(liang)食種植(zhi)面積指(zhi)標體系(xi)的(de)建立是(shi)從投入、產(chan)出及(ji)可(ke)持續發展(zhan)三個角(jiao)度出發的(de),投入是(shi)指(zhi)種植(zhi)糧(liang)食的(de)成本,產(chan)出是(shi)指(zhi)通過(guo)種植(zhi)糧(liang)食獲得(de)的(de)收入,可(ke)持續發展(zhan)是(shi)綜(zong)合(he)考(kao)慮影(ying)響糧(liang)食種植(zhi)面積的(de)其他因素(su)。具體的(de)指(zhi)標選擇如下表:

其中:自然(ran)災(zai)害成(cheng)災(zai)率=成(cheng)災(zai)面(mian)積(ji)/受災(zai)面(mian)積(ji);人(ren)力(li)資本:受教育程度(du)初(chu)中及以上勞動力(li)

比(bi)重(zhong)(zhong);農(nong)(nong)業(ye)勞動力比(bi)重(zhong)(zhong):鄉村就(jiu)業(ye)人數占(zhan)鄉村總人口的比(bi)重(zhong)(zhong);農(nong)(nong)業(ye)增加值(zhi)比(bi)重(zhong)(zhong)=農(nong)(nong)業(ye)增

加值/國內(nei)生產總值。

數據來源于《中國統(tong)計(ji)(ji)年(nian)(nian)鑒2015》與《中國農(nong)村(cun)統(tong)計(ji)(ji)年(nian)(nian)鑒2015》,時間維度為1990~2014年(nian)(nian)。糧(liang)食(shi)最(zui)(zui)(zui)低收購(gou)價(jia)(jia)格用稻(dao)谷、小麥和玉(yu)米的(de)平(ping)均價(jia)(jia)格計(ji)(ji)算。由于我國糧(liang)食(shi)最(zui)(zui)(zui)低收購(gou)價(jia)(jia)格政策(ce)是(shi)從(cong)2005年(nian)(nian)開始實施的(de),故(gu)糧(liang)食(shi)的(de)最(zui)(zui)(zui)低收購(gou)價(jia)(jia)格只有2005年(nian)(nian)之后數據,2004年(nian)(nian)及之前的(de)糧(liang)食(shi)最(zui)(zui)(zui)低收購(gou)價(jia)(jia)格用當年(nian)(nian)糧(liang)食(shi)的(de)最(zui)(zui)(zui)低收購(gou)價(jia)(jia)格代替。

在建模之前為了消除數(shu)(shu)量級和單(dan)位對(dui)模型(xing)精確性的影響,對(dui)數(shu)(shu)據進(jin)行標(biao)準(zhun)化(hua)處理,利用標(biao)準(zhun)化(hua)之后的數(shu)(shu)據進(jin)行建模,可以得(de)出(chu)各種機器學習回歸方法關于訓練集(ji)和測試集(ji)的錯判率,具體(ti)如下表2:

由(you)上表可(ke)知(zhi),利用隨機森(sen)林(lin)建模(mo)所(suo)得的(de)(de)(de)訓練集與測(ce)試(shi)集的(de)(de)(de)錯判率最(zui)低,分別為0.084與0.729,故(gu)選擇隨機森(sen)林(lin)回歸(gui)模(mo)型作(zuo)為最(zui)終回歸(gui)模(mo)型。通過隨機森(sen)林(lin)回歸(gui)模(mo)型可(ke)以得到每個(ge)變量的(de)(de)(de)對(dui)糧(liang)食種(zhong)植(zhi)面(mian)積(ji)的(de)(de)(de)重(zhong)(zhong)要(yao)性排(pai)名,結果顯示農業(ye)勞(lao)動力(li)比重(zhong)(zhong)、農業(ye)機械總動力(li)、農用化肥施用量、農村(cun)居民家庭人(ren)均(jun)純收入和(he)農業(ye)增加(jia)值比重(zhong)(zhong)對(dui)糧(liang)食種(zhong)植(zhi)面(mian)積(ji)的(de)(de)(de)影響(xiang)排(pai)在前(qian)(qian)五(wu)位,其中前(qian)(qian)三名分別為勞(lao)動力(li)投(tou)(tou)入、機械投(tou)(tou)入和(he)資本投(tou)(tou)入,可(ke)以看到糧(liang)食種(zhong)植(zhi)的(de)(de)(de)投(tou)(tou)入對(dui)種(zhong)植(zhi)面(mian)積(ji)的(de)(de)(de)影響(xiang)很大,排(pai)名第四和(he)第五(wu)的(de)(de)(de)指標屬于地區(qu)經(jing)濟發展水平,顯然(ran)地區(qu)經(jing)濟發展水平對(dui)種(zhong)植(zhi)面(mian)積(ji)的(de)(de)(de)影響(xiang)也(ye)是非常大的(de)(de)(de)。

四、研究結論

為(wei)了保(bao)障糧食(shi)安全(quan),我國需要將增加(jia)農(nong)民(min)收(shou)入放在糧食(shi)保(bao)護政策(ce)的(de)(de)第一(yi)位(wei)。本文從投入、產出及可(ke)持續發(fa)展三個角度(du)(du)出發(fa)建(jian)立了糧食(shi)種植(zhi)面積的(de)(de)指標體系(xi),并利用(yong)多(duo)元線(xian)性(xing)、Bagging、m-Boosting回歸(gui)模型、支持向量機(ji)、決策(ce)樹、隨機(ji)森(sen)(sen)林、神經網絡等回歸(gui)模型分(fen)別對糧食(shi)種植(zhi)面積的(de)(de)影響(xiang)(xiang)(xiang)因素(su)(su)進(jin)行了分(fen)析(xi),分(fen)析(xi)表明,使用(yong)隨機(ji)森(sen)(sen)林建(jian)模方法隨機(ji)森(sen)(sen)林準確度(du)(du)最(zui)高。對影響(xiang)(xiang)(xiang)因素(su)(su)的(de)(de)重(zhong)要性(xing)進(jin)行度(du)(du)量可(ke)以發(fa)現(xian),排(pai)名前(qian)五(wu)位(wei)的(de)(de)為(wei)農(nong)業勞(lao)動力(li)比重(zhong)、農(nong)業機(ji)械總動力(li)、農(nong)用(yong)化肥施用(yong)量、農(nong)村(cun)居民(min)家庭人均(jun)純(chun)收(shou)入和(he)農(nong)業增加(jia)值比重(zhong),可(ke)以得到糧食(shi)最(zui)低收(shou)購價對糧食(shi)種植(zhi)面積有一(yi)定的(de)(de)影響(xiang)(xiang)(xiang),但其影響(xiang)(xiang)(xiang)力(li)低于農(nong)業勞(lao)動力(li)比重(zhong)與農(nong)村(cun)居民(min)家庭人均(jun)純(chun)收(shou)入。

參考文獻

[1]王雙英,王群偉,曹(cao)澤.多指(zhi)標(biao)面板(ban)數據聚類方(fang)法及應(ying)用――以(yi)行業一次能源消(xiao)費面板(ban)數據為例[J].數理統(tong)計與管理,2014,01:42-49.

[2]蘭(lan)錄(lu)平.中(zhong)國(guo)糧食最低收購(gou)價政(zheng)策(ce)研究[D].湖南農業大學,2013.