功能描述:
分析流程如下所示,根據(jù)本課題的數(shù)據(jù)以及所需要的結(jié)果形式,其結(jié)果符合要求的為1,不符合的為空,這里我們將不符合數(shù)據(jù)的定義為0,那么整個(gè)系統(tǒng)其實(shí)可以等效為一個(gè)分類算法,即通過數(shù)據(jù)挖掘進(jìn)行分類,即符合需求類1和不符合需求類0,基于這個(gè)思路進(jìn)行設(shè)計(jì)。
一般數(shù)據(jù)挖掘算法流程如下所示:
第一步,建立模型,確定數(shù)據(jù)表中哪些列是要用于輸入,哪些是用于預(yù)測,選擇用何種算法。這時(shí)建立的模型內(nèi)容是空的,在模型沒有經(jīng)過訓(xùn)練之前,計(jì)算機(jī)是無法知道如何分類數(shù)據(jù)的。
第二步,準(zhǔn)備模型數(shù)據(jù)集,例子中的模型數(shù)據(jù)集就是1000個(gè)會(huì)員數(shù)據(jù)。通常的做法是將模型集分成訓(xùn)練集和檢驗(yàn)集,比如從1000個(gè)會(huì)員數(shù)據(jù)中隨機(jī)抽取700個(gè)作為訓(xùn)練集,剩下300個(gè)作為檢驗(yàn)集。
第三步,用訓(xùn)練數(shù)據(jù)集填充模型,這個(gè)過程是對(duì)模型進(jìn)行訓(xùn)練,模型訓(xùn)練后就有分類的內(nèi)容了,像例子圖中的樹狀結(jié)構(gòu)那樣,然后模型就可以對(duì)新加入的會(huì)員事例進(jìn)行分類了。比如前兩年的數(shù)據(jù)訓(xùn)練之后預(yù)測第三年的,當(dāng)進(jìn)入第四年的時(shí)候,使用第二年和第三年的數(shù)據(jù)進(jìn)行訓(xùn)練,從而不斷的更新模型。
第四步,使用模型對(duì)預(yù)測集進(jìn)行預(yù)測。
整個(gè)算法的理論如下所示:
首先,我們需要建立的是一個(gè)函數(shù)f,該函數(shù)滿足如下的需求:
其中f可以是一個(gè)數(shù)學(xué)公式,也可以是一個(gè)抽象的網(wǎng)絡(luò)。這里,根據(jù)各種實(shí)戰(zhàn)經(jīng)驗(yàn),一般對(duì)于復(fù)雜的情況,一般最后得到的函數(shù)f為一個(gè)抽象的網(wǎng)絡(luò)。
決策樹是一樹狀結(jié)構(gòu),它從根節(jié)點(diǎn)開始,對(duì)數(shù)據(jù)樣本進(jìn)行測試,根據(jù)不同的結(jié)果將數(shù)據(jù)樣本劃分成不同的數(shù)據(jù)樣本子集,每個(gè)數(shù)據(jù)樣本子集構(gòu)成一子節(jié)點(diǎn)。生成的決策樹每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)一個(gè)分類。構(gòu)造決策樹的目的是找出屬性和類別間的關(guān)系,用它來預(yù)測將來未知類別的記錄的類別。
根據(jù)決策樹分為分類樹和回歸樹兩種,分類樹對(duì)離散變量做決策樹,回歸樹對(duì)連續(xù)變量做決策樹。
決策樹方法中分類的目的是分析輸入數(shù)據(jù),通過在訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來的特性,為每一個(gè)類找到一種準(zhǔn)確的描述或者模型。由此生成的類描述用來對(duì)未來的測試數(shù)據(jù)進(jìn)行分類。盡管這些未來的測試數(shù)據(jù)的類標(biāo)簽是未知的,我們?nèi)钥梢杂纱祟A(yù)測這些新數(shù)據(jù)所屬的類。我們也可以由此對(duì)數(shù)據(jù)中的每一個(gè)類有更好的理解;蛘哒f我們獲得了對(duì)這個(gè)類的知識(shí)。
構(gòu)造一個(gè)決策樹通常分為兩步:樹的生成和剪枝。
決策樹的生成是一個(gè)從上至下,是一個(gè)遞歸的過程。設(shè)數(shù)據(jù)樣本集S,算法框?yàn)槿绻麛?shù)據(jù)樣本集S中所有樣本都屬于同一類或者滿足其它終止準(zhǔn)則, 則S不再劃分,形成葉節(jié)點(diǎn);否則,根據(jù)某種策略選擇一個(gè)屬性,按照屬性的各個(gè)取值對(duì)S進(jìn)行劃分,得到n個(gè)子樣本集,記為Si。再對(duì)每個(gè)Si迭代執(zhí)行步驟1。經(jīng)過n 次遞歸, 最后生成決策樹。從根到葉結(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條規(guī)則, 整棵決策樹就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則。樹構(gòu)成步驟中, 主要就是找出節(jié)點(diǎn)的屬性和如何對(duì)屬性值進(jìn)行劃分。
決策樹生成后面臨的問題是樹的過度細(xì)化,特別是存在噪聲數(shù)據(jù)或不規(guī)范屬性時(shí)更為突出,決策樹的修剪就是對(duì)過度細(xì)化的模型進(jìn)行調(diào)整。修剪算法分為前剪枝算法和后剪枝算法兩種。前剪枝算法是在樹的生長過程完成前就進(jìn)行剪枝。這類算法的優(yōu)點(diǎn)是在樹的生長同時(shí)就進(jìn)行了剪枝,因而效率高,但是它可能剪去了某些有用但還沒有生成的節(jié)點(diǎn)。后剪枝算法是當(dāng)決策樹的生長過程完成后再進(jìn)行剪枝。它分為需要單獨(dú)剪枝集和不需要單獨(dú)剪枝集兩種情況。后剪枝有一些優(yōu)點(diǎn),例如,當(dāng)單個(gè)的兩個(gè)屬性似乎沒什么用處,但當(dāng)結(jié)合在一起時(shí)卻有強(qiáng)大的預(yù)測能力,即一種結(jié)合效果,在兩個(gè)屬性值正確結(jié)合時(shí)是非常有用的,而單個(gè)屬性則沒有用。
聯(lián)系:highspeedlogic
QQ :1224848052
微信:HuangL1121
郵箱:1224848052@qq.com
網(wǎng)站:http://www.mat7lab.com/
網(wǎng)站:http://www.hslogic.com/
|