發(fā)布時(shí)間:2023-01-03 00:41:12
序言:寫作是分享個(gè)人見解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了8篇的數(shù)據(jù)挖掘課程樣本,期待這些樣本能夠?yàn)槟峁┴S富的參考和啟發(fā),請盡情閱讀。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘課程;教學(xué)方法;人才培養(yǎng)
近年來,在社會(huì)發(fā)展和科學(xué)進(jìn)步的過程中,以信息技術(shù)為中心的各領(lǐng)域產(chǎn)生了豐富的數(shù)據(jù),引起了社會(huì)各界人員的高度關(guān)注。體量大、速度快、模態(tài)多和價(jià)值密度低是大數(shù)據(jù)具有的特點(diǎn),其能夠促進(jìn)科學(xué)和社會(huì)經(jīng)濟(jì)的進(jìn)一步發(fā)展,對國家安全也具有重要的影響。然而從大量數(shù)據(jù)中挖掘出有價(jià)值的信息和知識(shí)是需要專業(yè)的數(shù)據(jù)挖掘人才來實(shí)現(xiàn)的,因此,在高校數(shù)據(jù)挖掘課程教學(xué)過程中,教師要?jiǎng)?chuàng)新教學(xué)方法,運(yùn)用科學(xué)的教學(xué)理論培養(yǎng)學(xué)生對數(shù)據(jù)的意識(shí),從而促進(jìn)教學(xué)質(zhì)量的提高和大量數(shù)據(jù)人才的培養(yǎng)。
一、科學(xué)引導(dǎo),培養(yǎng)數(shù)據(jù)意識(shí)
在我國的各大高校中,數(shù)據(jù)挖掘課程是理科和工科都開設(shè)的一門課程,其專業(yè)性質(zhì)較強(qiáng),最初開設(shè)這門課程的主要目的是在于讓學(xué)生了解數(shù)據(jù)的相關(guān)概念和挖掘數(shù)據(jù)的相關(guān)技術(shù)手段,并能夠在以后的社會(huì)實(shí)踐中應(yīng)用到數(shù)據(jù)挖掘技術(shù)。但社會(huì)經(jīng)濟(jì)的發(fā)展和科學(xué)技術(shù)的進(jìn)步,給數(shù)據(jù)挖掘課程帶來了較大的挑戰(zhàn),僅僅是了解數(shù)據(jù)的相關(guān)知識(shí)和掌握淺層次的數(shù)據(jù)挖掘技術(shù)是不能適應(yīng)時(shí)展需求的。因此,需要開設(shè)數(shù)據(jù)挖掘課程的高校教師在教學(xué)過程中對學(xué)生要進(jìn)行科學(xué)的引導(dǎo),注重培養(yǎng)學(xué)生的數(shù)據(jù)意識(shí),提高學(xué)生對數(shù)據(jù)挖掘課程的積極性。
數(shù)據(jù)驅(qū)動(dòng)的理論分析和應(yīng)用是數(shù)據(jù)挖掘課程的重點(diǎn),具體性和抽象性是其具有的兩個(gè)特點(diǎn)。數(shù)據(jù)挖掘課程的主要研究對象是具體的數(shù)據(jù),并從數(shù)據(jù)中挖掘出有價(jià)值的信息和知識(shí),能夠?qū)?shù)據(jù)進(jìn)行解釋和理解,這主要體現(xiàn)出數(shù)據(jù)挖掘課程的具體性特點(diǎn);而在進(jìn)行數(shù)據(jù)挖掘過程中使用的理論、方法和技術(shù)等概念,體現(xiàn)的是數(shù)據(jù)挖掘課程的抽象性,其在課堂學(xué)習(xí)過程中的消化和理解的難度是較大的,因?yàn)闀r(shí)間較短。由于種種因素對數(shù)據(jù)挖掘課程造成影響,因此在設(shè)計(jì)數(shù)據(jù)挖掘課程的教學(xué)之前,首先要做的就是讓學(xué)生對數(shù)據(jù)挖掘課程感興趣,并在發(fā)展過程中使學(xué)生的數(shù)據(jù)意識(shí)得以培養(yǎng)和提高。
在設(shè)計(jì)數(shù)據(jù)挖掘課程的教學(xué)過程中,可以增加講解什么是數(shù)據(jù)、數(shù)據(jù)有什么作用、所具有的重要性等的學(xué)時(shí),加強(qiáng)學(xué)生對數(shù)據(jù)的認(rèn)識(shí)和重視。處在大數(shù)據(jù)的時(shí)代環(huán)境下,要讓學(xué)生了解什么是“大數(shù)據(jù)”,而生活中的哪些方面存在大數(shù)據(jù)、大數(shù)據(jù)是以何種增長方式在哪些領(lǐng)域進(jìn)行發(fā)展的大數(shù)據(jù)能夠發(fā)揮作用等。教師在教學(xué)過程中可以使用多媒體教學(xué)的方法,通過實(shí)例和聲像的展示,讓學(xué)生了解生活中存在的數(shù)量,并清楚的掌握數(shù)據(jù)挖掘的技術(shù)方法,并從大量的數(shù)據(jù)中挖掘出有價(jià)值的信息和知識(shí),為社會(huì)發(fā)展和企業(yè)進(jìn)步提供服務(wù),讓學(xué)生了解在企業(yè)的發(fā)展過程中,數(shù)據(jù)挖掘的重要性。為了增加學(xué)生對數(shù)據(jù)挖掘課程的興趣和重視程度,在教學(xué)過程中,教師還可以將數(shù)據(jù)分析和數(shù)據(jù)挖掘的相關(guān)招聘案例融入到教學(xué)過程中,從數(shù)據(jù)挖掘課程以往的就業(yè)率、職位性質(zhì)、工資待遇及未來的職業(yè)發(fā)展前景等方面來增加學(xué)生對數(shù)據(jù)挖掘課程的興趣,有利于在以后的學(xué)習(xí)生活中更好地掌握數(shù)據(jù)挖掘技術(shù)和應(yīng)用數(shù)據(jù)知識(shí)。
二、深化基礎(chǔ),加強(qiáng)理論體系
現(xiàn)有的數(shù)據(jù)中心技術(shù)因大數(shù)據(jù)的特征而很難滿足數(shù)據(jù)分析的需求,去噪降維技術(shù)、數(shù)據(jù)儲(chǔ)存、數(shù)據(jù)整合、數(shù)據(jù)特征表示、數(shù)據(jù)通信傳輸和處理,以及非結(jié)構(gòu)化和半結(jié)構(gòu)化處理等方面是其主要表現(xiàn)?;诖耍瑪?shù)據(jù)挖掘技術(shù)面臨的局勢較為嚴(yán)峻,并且數(shù)據(jù)挖掘課程是一門綜合性較強(qiáng)的學(xué)科,涉及的內(nèi)容較為廣泛、復(fù)雜,主要包括數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)知識(shí)、機(jī)器設(shè)備知識(shí)、信息檢索技術(shù)和智能計(jì)算等學(xué)科內(nèi)容。然而現(xiàn)階段的高校在教學(xué)設(shè)計(jì)過程中難以在有限的時(shí)間里將這些學(xué)科全部開設(shè),即使是將這些學(xué)科全部開設(shè)了,每個(gè)學(xué)科的課時(shí)就會(huì)較少,不利于各學(xué)科的深入學(xué)習(xí),從而對數(shù)據(jù)挖掘技術(shù)的掌握造成不同程度的阻礙。為了解決這個(gè)問題,在高校進(jìn)行教學(xué)設(shè)計(jì)的過程中,可以把大三或大四的學(xué)生作為數(shù)據(jù)挖掘課程的主要教學(xué)對象,因?yàn)檫@部分學(xué)生對自己的職業(yè)生涯有清晰的認(rèn)識(shí),并且在大一、大二的學(xué)習(xí)過程中有一定的知識(shí)基礎(chǔ)。在大一學(xué)年和大二學(xué)年開設(shè)高等數(shù)學(xué)、統(tǒng)計(jì)學(xué)、算法分析、智能計(jì)算、數(shù)據(jù)庫原理和計(jì)算機(jī)系統(tǒng)原理等學(xué)科,為數(shù)據(jù)挖掘課程的學(xué)習(xí)做好基礎(chǔ)性的工作。在教學(xué)過程中,教師也可以向?qū)W生推薦數(shù)據(jù)挖掘課程相關(guān)的數(shù)據(jù),最好的專業(yè)領(lǐng)域較為著名的案例,有利于鼓勵(lì)學(xué)生學(xué)習(xí)數(shù)據(jù)挖掘課程的自信心。外語水平也是數(shù)據(jù)挖掘課程對學(xué)生的一個(gè)要求,因?yàn)橹挥姓莆樟烁咚降耐庹Z,才能夠了解國外的數(shù)據(jù)挖掘技術(shù)的發(fā)展水平,全面的掌握國內(nèi)外的數(shù)據(jù)挖掘發(fā)展情況。所以在設(shè)計(jì)高校數(shù)據(jù)挖掘課程的教學(xué)過程中,要推進(jìn)基礎(chǔ)知識(shí)的深化以及理論體系的完善,為日后的數(shù)據(jù)挖掘課程的學(xué)習(xí)奠定知識(shí)基礎(chǔ)。
三、聯(lián)系實(shí)際,創(chuàng)新教學(xué)方法
實(shí)踐是理論來源的基礎(chǔ),對于理論的檢驗(yàn),實(shí)踐是最有效的途徑。由于數(shù)據(jù)挖掘技術(shù)具有強(qiáng)烈的抽象性,以至于學(xué)生對大數(shù)據(jù)的認(rèn)識(shí)較為模糊,讓學(xué)生了解數(shù)據(jù)挖掘課程的內(nèi)容和在實(shí)際生活中的應(yīng)用所采取的方式就是教師的教學(xué)方法。案列教學(xué)法是教學(xué)過程中最好的教學(xué)方法,有利于學(xué)生對數(shù)據(jù)挖掘知識(shí)的了解和掌握,還有利于學(xué)生掌握良好的數(shù)據(jù)挖掘技術(shù)方法。通過案例教學(xué)法,讓學(xué)生了解數(shù)據(jù)挖掘在生活中的重要作用,在處理大數(shù)據(jù)時(shí)具有很大的作用。
教師在積極轉(zhuǎn)變教學(xué)內(nèi)容和教學(xué)方法的同時(shí),學(xué)生也應(yīng)該積極探索提高學(xué)習(xí)質(zhì)量的方法,在課堂教學(xué)過程中,雖然教師起主導(dǎo)作用,但是課堂的主體仍然是學(xué)生。對于教學(xué)內(nèi)容,學(xué)生應(yīng)該主動(dòng)接受,與被動(dòng)接受相比,會(huì)獲得較好的學(xué)習(xí)效果,因此要讓學(xué)生欣然地接受教師教學(xué)過程中的新內(nèi)容和新方法。此外,在上機(jī)實(shí)驗(yàn)課程的教學(xué)過程中,對于案例中的具體案例需要學(xué)生親自來演算,而教師在這個(gè)過程中主要是引導(dǎo)和指導(dǎo),啟發(fā)學(xué)生對深層次內(nèi)容的創(chuàng)新思考。還可以在每次采集和試驗(yàn)案例之后,要求學(xué)生提交相應(yīng)的分析研究報(bào)告,這樣一來,學(xué)生對于大數(shù)據(jù)挖掘課程的接受程度能夠被教師很好地掌握,從而完善教師的教學(xué)方法,提高教學(xué)質(zhì)量。
四、增強(qiáng)興趣,深入科學(xué)研究
數(shù)據(jù)挖掘在大數(shù)據(jù)下面臨著巨大的挑戰(zhàn),數(shù)據(jù)挖掘?qū)W科是一門綜合性的學(xué)科,其中涉及的其他學(xué)科較多,所以學(xué)習(xí)難度和教學(xué)難度較大。因此在教學(xué)過程中要充分發(fā)揮教師的主導(dǎo)作用,引導(dǎo)學(xué)生對數(shù)據(jù)挖掘課程的深入學(xué)習(xí)。例如,讓學(xué)生間隔性地去了解大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘技術(shù)解決了什么問題,甚至讓他們調(diào)查如今各大型招聘網(wǎng)中有關(guān)大數(shù)據(jù)分析和數(shù)據(jù)挖掘等職位的情況,進(jìn)而增強(qiáng)學(xué)生對數(shù)據(jù)挖掘的興趣。此外,對于年級(jí)較高的學(xué)生來說,深造是其主要選擇的方式,也可以通過出國或是考研等渠道進(jìn)行知識(shí)資源的深入學(xué)習(xí),從而掌握更多的知識(shí),提升自身的綜合素養(yǎng)。對于這樣的學(xué)生,教師應(yīng)該通過鼓勵(lì)的方式使其選擇研究數(shù)據(jù)挖掘方向的科學(xué),為了充分有效地提高這部分學(xué)生的研究水平,教師可以給學(xué)生布置一些具體的課題任務(wù),課題任務(wù)的研究內(nèi)容一定要保證精細(xì)程度,甚至可以精細(xì)到數(shù)據(jù)挖掘過程中使用的一個(gè)方法的研究,這有利于學(xué)生深刻認(rèn)識(shí)課題任務(wù)重要性的培養(yǎng),同時(shí)還有利于學(xué)生較為準(zhǔn)確地把握問題研究的方法和內(nèi)容。提高學(xué)生對新型研究技術(shù)和研究方法的掌握,可以增加學(xué)生的經(jīng)典文獻(xiàn)的閱讀量,在這個(gè)過程中,學(xué)生的創(chuàng)新性思維得到了有效培養(yǎng),教師還要采取有效的措施引導(dǎo)學(xué)生進(jìn)行學(xué)術(shù)性的創(chuàng)作研究。在實(shí)際的教學(xué)過程中,將科學(xué)研究引入到其中,有利于促進(jìn)學(xué)生對新知識(shí)的理解和吸收,還能夠使學(xué)生解決問題的能力得到有效提升,為學(xué)生研究大數(shù)據(jù)的挖掘提供有利保證,并且打下一個(gè)堅(jiān)實(shí)的基礎(chǔ)。
五、結(jié)語
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)挖掘課程是各大高校急需開設(shè)的一門課程,教師在教學(xué)過程中,要使用創(chuàng)新的教學(xué)方法,讓學(xué)生真正地了解到數(shù)據(jù)挖掘技術(shù)對社會(huì)進(jìn)步和企業(yè)發(fā)展的重大作用。教師還要結(jié)合教學(xué)經(jīng)驗(yàn),重點(diǎn)從培養(yǎng)學(xué)生的數(shù)據(jù)意識(shí)、加強(qiáng)理論體系、創(chuàng)新教學(xué)方法和深入科學(xué)研究等方面進(jìn)行數(shù)據(jù)挖掘課程教學(xué)設(shè)計(jì),為提高大數(shù)據(jù)環(huán)境下挖掘課程的教學(xué)質(zhì)量提供參考依據(jù)。
參考文獻(xiàn):
[1]劉建偉.數(shù)據(jù)挖掘課程設(shè)計(jì)的教學(xué)探索[J].科技信息,2013,(23).
[2]黃美麗.“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”研討型教學(xué)實(shí)踐探析[J].計(jì)算機(jī)時(shí)代,2012,(12).
[3]周森鑫,盛鵬飛,王夫芹.數(shù)據(jù)挖掘課程案例教學(xué)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,(11).
關(guān)鍵詞:數(shù)據(jù)挖掘原理與算法;實(shí)例;教學(xué)探索
0.引言
隨著經(jīng)濟(jì)、科技和信息技術(shù)的飛速發(fā)展,特別是網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)的產(chǎn)生和存儲(chǔ)能力有了很大程度的提高。數(shù)據(jù)挖掘的出現(xiàn),為人們提供了一條解決“數(shù)據(jù)豐富而知識(shí)貧乏”困境的有效途徑Ⅲ。所以很多高校,包括世界上一些著名高校都開設(shè)了數(shù)據(jù)挖掘課程。課程的基礎(chǔ)理論部分一般包括數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則、分類、聚類、時(shí)間序列挖掘、Web挖掘等內(nèi)容。該課程使學(xué)生學(xué)會(huì)分析研究數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理、常用算法、結(jié)果的可視化等技術(shù),并培養(yǎng)學(xué)生的數(shù)據(jù)抽象能力,幫助學(xué)生形成科學(xué)思維和專業(yè)素養(yǎng),使他們畢業(yè)后在就業(yè)上有更多的選擇。
筆者將探討基于實(shí)例教學(xué)的數(shù)據(jù)挖掘課程的教學(xué)內(nèi)容安排,強(qiáng)調(diào)淡化學(xué)科背景,加強(qiáng)算法的應(yīng)用性訓(xùn)練,將實(shí)際的例子貫穿于教學(xué)中,并重新組織授課內(nèi)容、安排實(shí)踐環(huán)節(jié),教會(huì)學(xué)生學(xué)以致用。
1.教學(xué)現(xiàn)狀分析
1.1課程本質(zhì)
數(shù)據(jù)挖掘原理與算法涉及的學(xué)科領(lǐng)域很寬泛。其最終目的是在數(shù)據(jù)中挖掘出可供人們利用的知識(shí)和信息,因此數(shù)據(jù)挖掘技術(shù)要從數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識(shí)系統(tǒng)、信息檢索、高性能計(jì)算和可視化等領(lǐng)域汲取營養(yǎng)。另外,每個(gè)學(xué)科都在進(jìn)行著日新月異的發(fā)展變化,數(shù)據(jù)挖掘技術(shù)遇到的挑戰(zhàn)也為相關(guān)學(xué)科領(lǐng)域的深入研究提供了新的契機(jī)。由于課程難度較大,很多高校把這門課程作為研究生的專業(yè)課程,也有院校將此課作為本科生高年級(jí)選修課開設(shè)腳。但是本科生開設(shè)這門課程的普通院校較少,我們能借鑒的教學(xué)經(jīng)驗(yàn)有限。
1.2數(shù)據(jù)挖掘課程教學(xué)環(huán)節(jié)的弊端
①某些學(xué)校對本科生開設(shè)的數(shù)據(jù)挖掘課程,其教學(xué)過程對理論的探討過多,與應(yīng)用存在距離,沒有體現(xiàn)出這門課程面向應(yīng)用的特質(zhì),缺少對學(xué)生工程能力的訓(xùn)練,存在學(xué)生在學(xué)了這門課程后不知道能干什么的現(xiàn)象。
②教學(xué)形式呆板單一。傳統(tǒng)的教師講、學(xué)生聽的教學(xué)模式,很難引起學(xué)生的探究興趣,不利于發(fā)揮他們自身的能動(dòng)性和創(chuàng)新動(dòng)機(jī)。
2.選擇恰當(dāng)實(shí)例貫穿數(shù)據(jù)挖掘課程的教學(xué)過程
煙臺(tái)大學(xué)計(jì)算機(jī)學(xué)院所開設(shè)的數(shù)據(jù)挖掘課程在教學(xué)上安排了6章內(nèi)容,涉及3個(gè)實(shí)例(其中兩個(gè)是實(shí)際生活中的項(xiàng)目課題):第1個(gè)是用于房產(chǎn)信息調(diào)查的房產(chǎn)客戶關(guān)系管理系統(tǒng);第2個(gè)是用于煙臺(tái)大學(xué)督評中心評教文本分類的中文文本數(shù)據(jù)挖掘系統(tǒng);第3個(gè)是用于國家葡萄酒檢測中心的數(shù)據(jù)分析的葡萄酒成分?jǐn)?shù)據(jù)挖掘系統(tǒng)。
2.1房產(chǎn)客戶關(guān)系管理系統(tǒng)
在講述房產(chǎn)客戶關(guān)系管理系統(tǒng)時(shí)內(nèi)容涵蓋緒論、知識(shí)發(fā)現(xiàn)過程和關(guān)聯(lián)規(guī)則3章,重點(diǎn)講授內(nèi)容包括:
(1)數(shù)據(jù)倉庫。住房管理數(shù)據(jù)倉庫中的數(shù)據(jù)是按主題組織的,可從歷史觀點(diǎn)提供信息。數(shù)據(jù)挖掘技術(shù)能按知識(shí)工程的方法完成高層次需求,可以發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)內(nèi)部的知識(shí)模式。挖掘后形成的知識(shí)表示模式可為企業(yè)決策提供支持。
(2)通過對客戶信息進(jìn)行分析,闡述關(guān)聯(lián)規(guī)則的參數(shù):support、confidence、expected confidence,并簡單介紹關(guān)聯(lián)規(guī)則中的多維、多層次等拓展知識(shí)。
(3)關(guān)聯(lián)規(guī)則挖掘。①講授關(guān)聯(lián)規(guī)則挖掘的Apriori算法;②講述布爾關(guān)聯(lián)規(guī)則的概念,對處理后形成的交易數(shù)據(jù)庫進(jìn)行布爾關(guān)聯(lián)規(guī)則挖掘,將問題轉(zhuǎn)化為尋找以決策屬性為結(jié)果的規(guī)則;③將關(guān)聯(lián)規(guī)則挖掘應(yīng)用于客戶關(guān)系管理的最終目的是努力將潛在客戶轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)客戶,將滿意客戶轉(zhuǎn)變?yōu)橹艺\的終生客戶,提高客戶滿意程度,降低市場銷售及宣傳成本,增加利潤率。
(4)設(shè)minsup=10%,minconf=70%。在統(tǒng)計(jì)的各類人群中獵取咨詢的渠道主要是雜志、報(bào)紙、互聯(lián)網(wǎng)和電視。經(jīng)試驗(yàn)統(tǒng)計(jì)后得到以下有關(guān)知識(shí):①滿足age>50 AND職業(yè)=“工人”的客戶占所統(tǒng)計(jì)總?cè)藬?shù)的9.7%;其中滿足age>50 AND職業(yè)=“工人”AND渠道=“TV”的客戶占92%。②符合學(xué)歷=“大?!盇ND職業(yè)=“工人”的客戶占所統(tǒng)計(jì)總?cè)藬?shù)的24.8%,其中滿足學(xué)歷=“大?!盇ND職業(yè)=“工人”AND渠道=“newspaper”的客戶占82%。③被統(tǒng)計(jì)人群中滿足income=“5000-9000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”的客戶占所統(tǒng)計(jì)總?cè)藬?shù)的32.7%;其中滿足income=“4000-6000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”AND渠道=“雜志”的客戶占83%。④被統(tǒng)計(jì)人群中滿足學(xué)歷=“本科”AND income≥“10000”的客戶占所統(tǒng)計(jì)總?cè)藬?shù)的占11.6%;其中符合學(xué)歷=“本科”ANDincome≥“8000”AND職業(yè)=“公司經(jīng)理”AND渠道=“雜志”的客戶占86.5%。
(5)教師要分析Apriori算法的瓶頸和改進(jìn),介紹Close算法和FP-樹算法,并且要求學(xué)生們掌握這3種經(jīng)典算法。
2.2中文文本數(shù)據(jù)挖掘系統(tǒng)
中文文本數(shù)據(jù)挖掘系統(tǒng)圍繞評教分類模型的建立講述特征選擇和主要分類算法。根據(jù)煙臺(tái)大學(xué)教學(xué)督評中心提供的學(xué)生對教師的中文評教文本,利用分類的方法找出其評價(jià)的傾向性,結(jié)合教材,重點(diǎn)講授了以下內(nèi)容:
1)特征選擇。
①介紹有監(jiān)督、無監(jiān)督和半監(jiān)督的特征選擇方法。②介紹使用分詞軟件后,統(tǒng)計(jì)詞頻,去掉小于閾值的低頻詞。③對比詞頻率、IG值(信息增益)、期望值差異對分類結(jié)果的影響留取特征詞。
部分?jǐn)?shù)據(jù)示例如下:用特征選擇的方法對重要的屬性進(jìn)行抽取,略去對分類影響不大的屬性,達(dá)到降維的目的,把特征選擇作為預(yù)處理。我們選用517條主觀評價(jià)作為訓(xùn)練樣本,其中233條留言是一般評價(jià),采用以下3種方式進(jìn)行特征選擇:詞頻率、IG值(信息增益)、期望值差異。不同方式特征選擇對分類準(zhǔn)確性的影響如表1所示。
2)分類。
在介紹常用的分類基礎(chǔ)知識(shí)和決策樹、ID3、樸素貝葉斯分類、最近鄰分類算法之后,又介紹了基于潛在語義分析的降維技術(shù),講授了支持向量機(jī)(SVM)適用于文本分類的原因。布置給學(xué)生的任務(wù)是用爬蟲獲取網(wǎng)評,作傾向性分析。
評教文本分類統(tǒng)計(jì)后的結(jié)論是:將降維技術(shù)和支持向量機(jī)算法結(jié)合在評教模型的建立過程中,研究討論的主要內(nèi)容有:①各個(gè)指標(biāo)取不同值對分類的影響,這些指標(biāo)主要集中在特征抽取和選擇、保留詞性和降維維數(shù)等幾方面;②對分詞后的文本進(jìn)行特征選擇,篩去了詞頻數(shù)小于4的文本;③降維至30維,并適當(dāng)設(shè)置SVM中的可變參數(shù),找到合適的訓(xùn)練一測試樣本的比例,最后綜合出一個(gè)現(xiàn)有條件下的最佳分類模型。
2.3葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)
葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)介紹數(shù)值數(shù)據(jù)的預(yù)處理和聚類2章內(nèi)容。對葡萄酒成份的分析是根據(jù)所提供的酒中各成份的含量數(shù)據(jù),采用聚類或分類的方法確定某種葡萄酒的種類,比如是紅葡萄酒、白葡萄酒還是甜葡萄酒。圍繞這個(gè)問題我們介紹了如下內(nèi)容:
1)數(shù)值數(shù)據(jù)的預(yù)處理。
①介紹葡萄酒中各個(gè)屬性的含義和取值范圍;②講授數(shù)據(jù)的離散化技術(shù),如等深、等寬、聚類技術(shù);③講授本例中使用的m一估值計(jì)算對數(shù)值屬,1生的離散化技術(shù);④講述本例中如何避免0值出現(xiàn)及去噪聲技術(shù)。
葡萄酒中各成份的含量數(shù)據(jù)如表2所示。
2)聚類。
在介紹聚類的基本知識(shí)和常用算法(如k均值、k中心點(diǎn)、DBSCAN技術(shù))之后,講解了:①本課題使用的層次聚類算法。在測試結(jié)果時(shí)通過測試樣本和分類樣本的不同比例,對結(jié)果進(jìn)行了對比。②講述了用樸素貝葉斯分類計(jì)數(shù)對這一問題的分類處理,同時(shí)對比了聚類和分類算法在同一問題上的結(jié)論差異。利用樸素的貝葉斯分類器可以完成預(yù)測目標(biāo),根據(jù)訓(xùn)練樣本建立分類器,對待測樣本進(jìn)行預(yù)測,準(zhǔn)確率可達(dá)到90%以上。③引導(dǎo)學(xué)生思考對問題的處理可以聯(lián)合使用各種算法,并分析各種算法對結(jié)果的影響,從而找出解決問題的最佳方案。
2.4利用已知算法和實(shí)例講授Web挖掘技術(shù)
因特網(wǎng)規(guī)模龐大、結(jié)構(gòu)復(fù)雜、動(dòng)態(tài)變化性大,蘊(yùn)含大量的信息。將Web上豐富的信息轉(zhuǎn)變成有用的知識(shí)正是Web挖掘的意義所在。用之前中文文本分類的方法引導(dǎo)學(xué)生在一些購物網(wǎng)站中下載對商品評論的中文文本,抽取特征詞,進(jìn)行傾向性分析,使學(xué)生熟悉支持向量機(jī)的分類方法,分詞軟件的使用及文本挖掘的整個(gè)過程。
3.結(jié)語
文章在前期制定應(yīng)用型本科生數(shù)據(jù)挖掘課程教學(xué)大綱的基礎(chǔ)上,針對數(shù)據(jù)挖掘課程內(nèi)容多學(xué)科交叉的特點(diǎn),在教學(xué)中提出淡化學(xué)科背景,注重算法應(yīng)用與實(shí)踐,以客戶關(guān)系管理、葡萄酒數(shù)據(jù)分析、中文評教文本分類等實(shí)例作為授課內(nèi)容主線,讓實(shí)例教學(xué)始終圍繞著典型的算法和前沿知識(shí)展開的教學(xué)方式。在今后的教學(xué)工作中,我們還應(yīng)該不斷站在學(xué)科發(fā)展的前列,經(jīng)常更新實(shí)例,使其更好地融入教學(xué),將教與學(xué)有機(jī)統(tǒng)一,取得更好的教學(xué)效果。因此我們還有大量的工作需要探索研究。
參考文獻(xiàn):
[1]宋成,李晉宏,項(xiàng)目驅(qū)動(dòng)的數(shù)據(jù)挖掘教學(xué)模式探討[J],中國電力教育,2011(27):116-177.
[2]劉云霞,統(tǒng)計(jì)學(xué)專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J],吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2010(6),20-22.
[3]徐金寶,對應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程的嘗試[J],計(jì)算機(jī)教育,2007(7):27-29.
[4]高園園,呂慶文,數(shù)據(jù)挖掘課程的教學(xué)思考[J],醫(yī)學(xué)信息,2009,22(11):23-24.
[關(guān)鍵詞] 經(jīng)濟(jì)與管理;本科生;數(shù)據(jù)挖掘;教學(xué)探索
[中圖分類號(hào)] G642.3 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1005-4634(2013)04-0082-03
0 引言
數(shù)據(jù)挖掘技術(shù)能從大量數(shù)據(jù)中發(fā)現(xiàn)和學(xué)習(xí)有價(jià)值的和隱藏的知識(shí),因而近年來在國內(nèi)外受到極大重視,在電信業(yè)、零售業(yè)和銀行業(yè)等生產(chǎn)大數(shù)據(jù)的行業(yè)中正獲得越來越廣泛的應(yīng)用[1]。因此,近幾年數(shù)據(jù)挖掘這門課程已越來越多的走進(jìn)了高校課堂。但是,數(shù)據(jù)挖掘又是一門綜合性較強(qiáng)的交叉學(xué)科,它涉及到統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)、數(shù)據(jù)倉庫、人工智能、機(jī)器學(xué)習(xí)和數(shù)據(jù)可視化等學(xué)科知識(shí),對學(xué)生的專業(yè)知識(shí)背景和前期所學(xué)課程有較高的要求,這在一定程度上限制了數(shù)據(jù)挖掘作為一門既有理論價(jià)值又有實(shí)踐價(jià)值的學(xué)科的應(yīng)用和推廣。筆者結(jié)合自己的教學(xué)實(shí)踐研究經(jīng)管類專業(yè)本科生開設(shè)數(shù)據(jù)挖掘課程的教學(xué)探索。
1 經(jīng)管類專業(yè)本科生開設(shè)數(shù)據(jù)挖掘課程的必要性和可行性分析
從經(jīng)管類各專業(yè)的培養(yǎng)目標(biāo)角度分析。以南京郵電大學(xué)經(jīng)管類專業(yè)為例,該專業(yè)包含信息管理與信息系統(tǒng)、電子商務(wù)、市場營銷、經(jīng)濟(jì)學(xué)和工商管理等專業(yè),這些專業(yè)的培養(yǎng)計(jì)劃都把培養(yǎng)學(xué)生具備市場分析、經(jīng)營和管理決策能力作為專業(yè)的基本培養(yǎng)要求之一。數(shù)據(jù)挖掘作為商務(wù)智能的核心技術(shù),是輔助管理者進(jìn)行決策分析的有效工具,在激烈的商業(yè)競爭中發(fā)揮的作用越來越大。因此,為經(jīng)管類專業(yè)本科生開設(shè)數(shù)據(jù)挖掘課程可以更好地實(shí)現(xiàn)專業(yè)培養(yǎng)目標(biāo)。
從經(jīng)管類專業(yè)本科生的就業(yè)角度分析。經(jīng)管類專業(yè)本科生畢業(yè)后,有相當(dāng)一部分同學(xué)會(huì)從事營銷崗位或者信息管理、網(wǎng)站設(shè)計(jì)與維護(hù)等技術(shù)崗位。對于從事營銷崗位的同學(xué)來說,由于現(xiàn)在的市場營銷概念已經(jīng)發(fā)展到精細(xì)營銷理念,即企業(yè)恰當(dāng)而貼切地對自己的市場進(jìn)行細(xì)分,對各種客戶群進(jìn)行深入的分析和定位,并根據(jù)不同的客戶群特點(diǎn),采取精耕細(xì)作式的營銷操作方式,將市場做深做透,進(jìn)而獲得預(yù)期效益。數(shù)據(jù)挖掘技術(shù)是實(shí)現(xiàn)精細(xì)營銷的重要工具;對于從事技術(shù)崗位的同學(xué)來說,學(xué)習(xí)數(shù)據(jù)挖掘課程,掌握數(shù)據(jù)挖掘的思想和方法對培養(yǎng)學(xué)生的系統(tǒng)思維和解決實(shí)際問題的能力、提高學(xué)生的信息素養(yǎng)很有必要。因此,學(xué)習(xí)數(shù)據(jù)挖掘課程對學(xué)生未來的工作也是非常有幫助的。
數(shù)據(jù)挖掘是一門交叉學(xué)科,課程理論性強(qiáng),且對學(xué)生的計(jì)算機(jī)基礎(chǔ)要求較高。經(jīng)管類專業(yè)只有信息管理與信息系統(tǒng)、電子商務(wù)兩個(gè)專業(yè)開設(shè)了較多的計(jì)算機(jī)課程。但是所有經(jīng)管類專業(yè)都開設(shè)了統(tǒng)計(jì)學(xué)必修課程和數(shù)據(jù)庫原理與應(yīng)用必修或選修課程,這兩門課程是數(shù)據(jù)挖掘的核心。因此,適當(dāng)?shù)卣{(diào)整教學(xué)目標(biāo),將數(shù)據(jù)挖掘作為一門選修課程為經(jīng)管類專業(yè)本科學(xué)生開設(shè)是完全可行的。
2 教學(xué)過程中存在的問題
筆者在為經(jīng)管類專業(yè)本科生開設(shè)數(shù)據(jù)挖掘課程的過程中,往往遇到兩個(gè)問題。
1)課程較強(qiáng)的理論性與學(xué)生知識(shí)結(jié)構(gòu)缺陷之間的矛盾問題。數(shù)據(jù)挖掘這門課程涵蓋了統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫原理、機(jī)器學(xué)習(xí)、信息論和時(shí)間序列等眾多內(nèi)容,課程教材中有較多的公式推導(dǎo)和算法分析,因此課程的理論性較強(qiáng)。然而,經(jīng)管類專業(yè)本科生之前只是學(xué)習(xí)了統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫原理與應(yīng)用兩門課程,機(jī)器學(xué)習(xí)等其他課程知識(shí)均沒有涉及到,因此在學(xué)習(xí)數(shù)據(jù)挖掘課程時(shí)會(huì)感到內(nèi)容難度較大,障礙較多[2]。
2)理論教學(xué)與實(shí)驗(yàn)教學(xué)學(xué)時(shí)合理分配的問題。由于數(shù)據(jù)挖掘課程通常是作為選修課安排在經(jīng)管類專業(yè)本科生培養(yǎng)計(jì)劃中,總學(xué)時(shí)數(shù)相比學(xué)位課程要少,只有32學(xué)時(shí)。正如前文所述,這門課程包含的內(nèi)容多、難度大,因此必須要保證足夠的理論教學(xué)學(xué)時(shí)數(shù)量。同時(shí),數(shù)據(jù)挖掘又是一門應(yīng)用性較強(qiáng)的課程,特別是對于經(jīng)管類專業(yè)本科生來說,一定要安排足夠的實(shí)驗(yàn)教學(xué)學(xué)時(shí),讓學(xué)生在實(shí)踐中提高分析問題和解決問題的能力。在較少的總學(xué)時(shí)約束條件下,如何合理地分配理論教學(xué)學(xué)時(shí)和實(shí)驗(yàn)教學(xué)學(xué)時(shí)是課程教學(xué)遇到的又一個(gè)問題。
針對經(jīng)管類專業(yè)本科生開設(shè)數(shù)據(jù)挖掘課程時(shí)遇到的矛盾問題,將這門課程的教學(xué)目標(biāo)確定為:掌握數(shù)據(jù)挖掘基本流程和經(jīng)典算法的基本原理,熟練運(yùn)用數(shù)據(jù)挖掘軟件工具,分析和解決商業(yè)應(yīng)用問題。課程教學(xué)目標(biāo)指出,為經(jīng)管類專業(yè)本科生開設(shè)數(shù)據(jù)挖掘課程的目的是培養(yǎng)學(xué)生利用數(shù)據(jù)挖掘這種工具去分析和解決商業(yè)應(yīng)用問題的能力,而不是要求學(xué)生具備數(shù)據(jù)挖掘算法設(shè)計(jì)能力。因此,對于經(jīng)管類專業(yè)本科生來說,實(shí)驗(yàn)教學(xué)和理論教學(xué)同等重要。在課程教學(xué)大綱中應(yīng)將理論教學(xué)學(xué)時(shí)和實(shí)驗(yàn)教學(xué)學(xué)時(shí)設(shè)置為各16個(gè)學(xué)時(shí)。
3 教學(xué)內(nèi)容設(shè)計(jì)
用16個(gè)學(xué)時(shí)來介紹數(shù)據(jù)挖掘課程的理論知識(shí)點(diǎn),這就要求教師能夠?yàn)榻?jīng)管類專業(yè)本科生精心挑選知識(shí)點(diǎn),“量身定做”教學(xué)內(nèi)容。
1)以應(yīng)用為目的設(shè)計(jì)教學(xué)內(nèi)容。根據(jù)經(jīng)管類專業(yè)本科生數(shù)據(jù)挖掘課程的教學(xué)目標(biāo),本門課程在教學(xué)過程中應(yīng)注重培養(yǎng)學(xué)生應(yīng)用數(shù)據(jù)挖掘分析問題和解決問題的能力,這就要求教師能夠圍繞數(shù)據(jù)挖掘的整個(gè)應(yīng)用過程來安排教學(xué)內(nèi)容。數(shù)據(jù)挖掘的應(yīng)用過程包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模型構(gòu)建和知識(shí)評價(jià)四個(gè)主要步驟。數(shù)據(jù)收集步驟是指準(zhǔn)備數(shù)據(jù)挖掘的對象——數(shù)據(jù)源,有的數(shù)據(jù)源是一個(gè)數(shù)據(jù)文件或者是數(shù)據(jù)庫中的一張關(guān)系表,但對于具體的商業(yè)應(yīng)用來說,數(shù)據(jù)源往往是來源于同一個(gè)或不同數(shù)據(jù)庫中的多張關(guān)系表,或者是多個(gè)數(shù)據(jù)文件,這時(shí)需要對數(shù)據(jù)源進(jìn)行集成,甚至是構(gòu)建數(shù)據(jù)倉庫;數(shù)據(jù)預(yù)處理步驟是指通過數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等操作為數(shù)據(jù)挖掘任務(wù)提供干凈、準(zhǔn)確和簡潔的數(shù)據(jù),提高數(shù)據(jù)挖掘效率和挖掘結(jié)果的質(zhì)量,它是數(shù)據(jù)挖掘中非常重要的環(huán)節(jié);模型構(gòu)建步驟是指選用數(shù)據(jù)挖掘算法在預(yù)處理后的數(shù)據(jù)集上構(gòu)建挖掘模型的過程,關(guān)聯(lián)、分類、聚類和回歸分析是數(shù)據(jù)挖掘中四個(gè)主要的挖掘任務(wù),每個(gè)挖掘任務(wù)又對應(yīng)了多個(gè)挖掘算法;知識(shí)評價(jià)步驟是指采用各種統(tǒng)計(jì)指標(biāo)對挖掘結(jié)果進(jìn)行評價(jià),以發(fā)現(xiàn)有價(jià)值的知識(shí)。由于不同挖掘算法得出的挖掘結(jié)果表現(xiàn)形式不同,知識(shí)評價(jià)應(yīng)針對具體挖掘算法進(jìn)行,因此知識(shí)評價(jià)步驟要安排在每個(gè)挖掘算法介紹完之后。
2)重點(diǎn)介紹經(jīng)典算法。針對經(jīng)管類專業(yè)本科生在學(xué)習(xí)數(shù)據(jù)挖掘課程時(shí)感到內(nèi)容難度較大這一問題,且考慮到課程的理論授課學(xué)時(shí)有限,筆者對原有的數(shù)據(jù)挖掘內(nèi)容進(jìn)行了適當(dāng)?shù)木?。?shù)據(jù)挖掘包含數(shù)十種挖掘算法,刪除復(fù)雜和難度大的數(shù)據(jù)挖掘算法,針對每種挖掘任務(wù)重點(diǎn)介紹其經(jīng)典算法。例如,關(guān)聯(lián)挖掘中的Apriori算法,實(shí)現(xiàn)分類挖掘的決策樹算法,實(shí)現(xiàn)回歸分析的最小二乘法以及聚類分析的k-means算法。對于神經(jīng)網(wǎng)絡(luò)、貝葉斯分類、時(shí)間序列挖掘和Web數(shù)據(jù)挖掘等難度較大或內(nèi)容拓展性算法,在介紹相關(guān)章節(jié)時(shí)略提一下,并鼓勵(lì)有興趣的學(xué)生在課余時(shí)間自學(xué)。
3)增加商業(yè)案例。數(shù)據(jù)挖掘是一門技術(shù)性較強(qiáng)的課程,一般的教材往往注重理論,相關(guān)案例較少,因而不容易激發(fā)學(xué)生的學(xué)習(xí)熱情[3]。為了幫助經(jīng)管類專業(yè)本科生增加對課程中各種挖掘任務(wù)的感性認(rèn)識(shí),同時(shí)也是為了激發(fā)學(xué)生對本門課程的學(xué)習(xí)興趣,筆者在講授過程中增加了若干關(guān)于數(shù)據(jù)挖掘的幽默故事、經(jīng)典案例和在各行業(yè)中的應(yīng)用案例,通過分析案例加深學(xué)生對算法應(yīng)用的理解。例如,在介紹關(guān)聯(lián)挖掘任務(wù)時(shí)給學(xué)生們引入“啤酒與尿布”的故事;在介紹分類挖掘任務(wù)時(shí)講解客戶流失分析的應(yīng)用案例;在介紹聚類挖掘任務(wù)時(shí)分析客戶細(xì)分的應(yīng)用案例。
基于上述分析,筆者為經(jīng)管類專業(yè)本科生開設(shè)的數(shù)據(jù)挖掘課程教學(xué)內(nèi)容具體如下。
第一章為緒論,主要是對數(shù)據(jù)挖掘技術(shù)作概括性描述,讓學(xué)生對數(shù)據(jù)挖掘定義、與數(shù)據(jù)倉庫的關(guān)系、研究熱點(diǎn)以及發(fā)展趨勢形成感性認(rèn)識(shí)。本章內(nèi)容分配2個(gè)理論教學(xué)學(xué)時(shí)。
第二章為數(shù)據(jù)倉庫,主要內(nèi)容包括數(shù)據(jù)倉庫的定義與特征、數(shù)據(jù)倉庫的數(shù)據(jù)組織、數(shù)據(jù)模型、總體結(jié)構(gòu)和設(shè)計(jì)等原理性知識(shí)點(diǎn),以及聯(lián)機(jī)分析處理(OLAP)的基本概念和分析操作等基本知識(shí)。本章內(nèi)容分配2個(gè)理論教學(xué)學(xué)時(shí)。
第三章為數(shù)據(jù)預(yù)處理,主要介紹數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)歸約等數(shù)據(jù)預(yù)處理的基本步驟和常見方法。本章分配3個(gè)理論教學(xué)學(xué)時(shí)。
第四章至第七章圍繞數(shù)據(jù)挖掘的4個(gè)重要任務(wù)——關(guān)聯(lián)、分類、聚類和回歸分析,在介紹每種挖掘任務(wù)基本概念的基礎(chǔ)上,重點(diǎn)介紹經(jīng)典算法的基本原理和挖掘結(jié)果評價(jià)方法,以及每個(gè)挖掘任務(wù)在具體行業(yè)的應(yīng)用案例。第四章至第六章每章內(nèi)容分別分配3個(gè)理論教學(xué)學(xué)時(shí),第七章內(nèi)容分配2個(gè)學(xué)時(shí)。
4 實(shí)驗(yàn)項(xiàng)目設(shè)計(jì)
數(shù)據(jù)挖掘是一門與實(shí)際應(yīng)用結(jié)合緊密、實(shí)踐性較強(qiáng)的課程。為了加深學(xué)生對數(shù)據(jù)挖掘理論知識(shí)點(diǎn)的理解,鍛煉和提高學(xué)生的實(shí)際動(dòng)手能力,必須結(jié)合實(shí)驗(yàn)進(jìn)行教學(xué)。數(shù)據(jù)挖掘課程的理論教學(xué)和實(shí)驗(yàn)教學(xué)構(gòu)成一個(gè)完整的整體,缺一不可[4]。實(shí)驗(yàn)教學(xué)要充分調(diào)動(dòng)學(xué)生的主動(dòng)積極性,而不是簡單地讓學(xué)生進(jìn)行驗(yàn)證式的操作實(shí)驗(yàn)或僅僅局限于機(jī)械地使用、熟悉某種軟件工具。
筆者針對課程知識(shí)點(diǎn)設(shè)計(jì)了4個(gè)實(shí)驗(yàn)項(xiàng)目,每個(gè)實(shí)驗(yàn)項(xiàng)目分配4個(gè)實(shí)驗(yàn)學(xué)時(shí)。
第一個(gè)實(shí)驗(yàn)項(xiàng)目為數(shù)據(jù)倉庫構(gòu)建,實(shí)驗(yàn)軟件是SQL Server 2000,它提供了一套完全的數(shù)據(jù)庫和數(shù)據(jù)分析解決方案,其中的Analysis Service 組件支持?jǐn)?shù)據(jù)倉庫的創(chuàng)建和應(yīng)用,并提供OLAP聯(lián)機(jī)分析操作。構(gòu)建數(shù)據(jù)倉庫的數(shù)據(jù)源來自SQL Server 2000的樣例數(shù)據(jù)庫Northwind,Northwind是一家虛構(gòu)的公司,從事世界各地的特產(chǎn)食品進(jìn)出口貿(mào)易。Northwind數(shù)據(jù)庫包含有這家公司的銷售數(shù)據(jù),數(shù)據(jù)內(nèi)容多,數(shù)據(jù)量大,數(shù)據(jù)結(jié)構(gòu)貼近企業(yè)的真實(shí)數(shù)據(jù),符合實(shí)驗(yàn)要求[5]。實(shí)驗(yàn)包含4個(gè)步驟:(1)理解業(yè)務(wù)數(shù)據(jù),確定分析主題。Northwind數(shù)據(jù)庫中的表非常多,需要理清各關(guān)系表的內(nèi)容及其相互間的關(guān)聯(lián),在此基礎(chǔ)上確定感興趣的主題;(2)圍繞分析主題,將主題相關(guān)的關(guān)系表通過企業(yè)管理器中的DTS進(jìn)行清洗和轉(zhuǎn)換,為數(shù)據(jù)倉庫提供合適的數(shù)據(jù);(3)使用Analysis Server向?qū)?,建立多維數(shù)據(jù)集;(4)基于構(gòu)建好的多維數(shù)據(jù)集,對數(shù)據(jù)進(jìn)行切片、切塊、鉆取、聚合和旋轉(zhuǎn)等各種OLAP分析操作。
第二至第四個(gè)實(shí)驗(yàn)項(xiàng)目均是基于Clementine12.0等數(shù)據(jù)挖掘工具,通過構(gòu)建數(shù)據(jù)挖掘模型分析具體商業(yè)問題。其中,第二個(gè)實(shí)驗(yàn)項(xiàng)目為關(guān)聯(lián)挖掘的綜合實(shí)踐,要求學(xué)生運(yùn)用關(guān)聯(lián)挖掘經(jīng)典算法Apriori分析移動(dòng)產(chǎn)品交叉銷售;第三個(gè)實(shí)驗(yàn)項(xiàng)目為分類挖掘的綜合實(shí)踐,要求運(yùn)用決策樹算法進(jìn)行電信客戶流失分析;第四個(gè)實(shí)驗(yàn)項(xiàng)目為聚類挖掘的綜合實(shí)踐,要求運(yùn)用聚類經(jīng)典算法K-means進(jìn)行電信客戶細(xì)分分析。上述三個(gè)綜合實(shí)驗(yàn)項(xiàng)目都要求學(xué)生首先能夠分析具體應(yīng)用問題,然后進(jìn)行數(shù)據(jù)預(yù)處理、構(gòu)建數(shù)據(jù)挖掘模型,并對挖掘結(jié)果進(jìn)行分析和討論,以鍛煉學(xué)生數(shù)據(jù)挖掘的思維體系和數(shù)據(jù)分析能力。
5 教學(xué)方案實(shí)施
在教學(xué)方案實(shí)施過程中,著重營造活躍的課堂教學(xué)氛圍,重視對課后作業(yè)的指導(dǎo),以期提高課堂教學(xué)效果。考慮到經(jīng)管類專業(yè)本科生的知識(shí)背景和本門課程的特點(diǎn),在每次課堂上都會(huì)拋出一個(gè)思考題,要求學(xué)生們運(yùn)用所學(xué)理論聯(lián)系身邊實(shí)際展開討論。例如,在介紹完第一章后設(shè)計(jì)了一個(gè)討論題:如何運(yùn)用數(shù)據(jù)挖掘幫助電信企業(yè)提高競爭優(yōu)勢?學(xué)生討論得很熱烈,也得出了多個(gè)答案。由于本門課程課堂講授學(xué)時(shí)較少,為了幫助學(xué)生復(fù)習(xí)、鞏固及應(yīng)用所學(xué)內(nèi)容,課程每章節(jié)后都安排了課外作業(yè),并就其中的難點(diǎn)進(jìn)行指導(dǎo)和講解。實(shí)驗(yàn)過程中,著重培養(yǎng)學(xué)生的獨(dú)立性和數(shù)據(jù)分析能力。首先向?qū)W生講授清楚實(shí)驗(yàn)具體要求和注意事項(xiàng),然后放手讓學(xué)生自己去做,遇到問題先鼓勵(lì)學(xué)生自己思考解決,實(shí)在有困難再稍加指點(diǎn)。實(shí)驗(yàn)結(jié)束后,要認(rèn)真分析實(shí)驗(yàn)結(jié)果,完成實(shí)驗(yàn)報(bào)告。選擇實(shí)驗(yàn)數(shù)據(jù)時(shí)要考慮到數(shù)據(jù)是否符合現(xiàn)實(shí)情況且能夠突出所分析的問題。除實(shí)驗(yàn)以外,其它實(shí)驗(yàn)項(xiàng)目均采用SPSS產(chǎn)品培訓(xùn)過程中所用的相關(guān)數(shù)據(jù),數(shù)據(jù)量大小適中,適合在實(shí)驗(yàn)課上使用,而且這些數(shù)據(jù)與真實(shí)數(shù)據(jù)的差異小,有助于提高學(xué)生解決現(xiàn)實(shí)問題的能力。數(shù)據(jù)挖掘課程的教學(xué)方案已實(shí)踐了5年,其間不斷進(jìn)行經(jīng)驗(yàn)總結(jié)和探索,無論從近幾年選修本門課程的學(xué)生人數(shù)還是從課堂上學(xué)生的反映和學(xué)習(xí)氣氛看,本門課程都取得了很好的課堂教學(xué)效果。
6 結(jié)束語
數(shù)據(jù)挖掘作為一門技術(shù)性和應(yīng)用性較強(qiáng)的課程,對優(yōu)化經(jīng)管類專業(yè)本科學(xué)生的知識(shí)結(jié)構(gòu)、擴(kuò)展學(xué)生的專業(yè)應(yīng)用領(lǐng)域有著重要的作用。筆者結(jié)合自己的教學(xué)經(jīng)驗(yàn),對經(jīng)管類專業(yè)本科生數(shù)據(jù)挖掘課程的教學(xué)內(nèi)容和實(shí)驗(yàn)環(huán)節(jié)等方面進(jìn)行了積極的教學(xué)探討和實(shí)踐,學(xué)生反映非常好。在今后的教學(xué)工作中,要不斷實(shí)踐,不斷總結(jié),進(jìn)而不斷改進(jìn)和提高數(shù)據(jù)挖掘課程的教學(xué)質(zhì)量。
參考文獻(xiàn)
[1]劉云霞.統(tǒng)計(jì)學(xué)專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J].吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2010,26(6):20-22.
[2]李志勇,王翔,喻軍.信息管理專業(yè)數(shù)據(jù)挖掘課程教學(xué)探討[J].管理工程師,2012,(4):66-68.
[3]劉昆宏.淺談本科階段數(shù)據(jù)挖掘課程設(shè)置[C]//In Proceedings of 2010 Third International Conference on Education Technology and Trainning,Wuhan,2010:4-5.
基金項(xiàng)目:上海市信息安全綜合管理技術(shù)研究重點(diǎn)實(shí)驗(yàn)室開放課題項(xiàng)目(AGK2009004)。
作者簡介:趙躍華(1958-),男,江蘇蘇州人,教授,博士,主要研究方向:信息理論與安全、通信安全; 張翼(1985-),男,江蘇姜堰人,碩士研究生,主要研究方向:信息安全、網(wǎng)絡(luò)對抗; 言洪萍(1985-),男,江蘇常州人,碩士研究生,主要研究方向:計(jì)算機(jī)病毒與反病毒、驅(qū)動(dòng)開發(fā)與防火墻。
文章編號(hào):1001-9081(2011)07-1901-03doi:10.3724/SP.J.1087.2011.01901
(江蘇大學(xué) 計(jì)算機(jī)科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江 212013)
()
摘 要:惡意代碼大量快速的繁衍使得惡意代碼自動(dòng)化檢測成為必然趨勢,加殼程序識(shí)別是惡意代碼分析的一個(gè)必要步驟。為識(shí)別加殼可執(zhí)行程序,提出一種基于數(shù)據(jù)挖掘技術(shù)的自動(dòng)化加殼程序識(shí)別方法,該方法提取和選取可移植可執(zhí)行(PE)特征,使用分類算法檢測PE文件是否加殼。測試結(jié)果表明,在使用J48分類器時(shí)加殼文件識(shí)別率為98.7%。
關(guān)鍵詞:可移植可執(zhí)行文件分析;加殼識(shí)別;數(shù)據(jù)挖掘
中圖分類號(hào):TP309.5文獻(xiàn)標(biāo)志碼:A
Classification of packed PE files based on data mining
ZHAO Yue-hua,ZHANG Yi,YAN Hong-ping
(Department of Computer Science and Communication Engineering, Jiangsu University, Zhenjiang Jiangsu 212013, China)
Abstract: The proliferation of malicious code makes automatic malicious code detection an inevitable trend. Packed Portable Executable (PE) files identification is a necessary step of malicious code analysis. The paper presented an automatic identification method based on data mining, through which feature was extracted from PE files. The paper used classification algorithms and selected features to detect packed PE files. The test results show that the identification rate is 98.7% when using J48 classifier.
Key words: Portable Executable (PE) file analysis; packing detection; data mining
0 引言
近年來,惡意代碼數(shù)量劇增,而惡意代碼作者對惡意代碼的保護(hù)也逐漸增強(qiáng),多態(tài)、加殼等方法的運(yùn)用使得惡意代碼識(shí)別更加復(fù)雜,依靠傳統(tǒng)方式分析惡意代碼已經(jīng)無法跟上病毒發(fā)展速度,因此惡意代碼的自動(dòng)化識(shí)別被提上了日程,其中惡意代碼加殼[1-2]的識(shí)別是一個(gè)必要步驟。
現(xiàn)在的加殼PE(Portable Executable)文件檢測手段主要有三種主要方式。第一種是特征碼匹配,常見的工具如PEID[3],它可以識(shí)別上千種加殼程序,這些查殼工具對惡意代碼加殼識(shí)別率很低,需要事先添加各種殼的特征到特征庫中,常常滯后于殼的發(fā)展,因而無法識(shí)別新的或者少見的加殼程序特征。第二種是PE文件信息熵,Lyda等人[4]提出一種信息熵方式檢測加殼PE文件,其原理是加殼后的PE文件相對未加殼的混亂度增加,導(dǎo)致部分節(jié)的熵值增高,通過計(jì)算PE文件各個(gè)部分?jǐn)?shù)據(jù)的信息熵,然后根據(jù)熵值判斷病毒文件是否加殼,但是作者對整個(gè)PE文件計(jì)算熵,這并不能最明顯地反映其熵值變化。第三種方法使用PE文件頭部屬性,文獻(xiàn)[5]提出一種新型的殼檢測工具,利用加殼前和加殼后的PE文件頭部屬性不同來判斷文件是否加殼,實(shí)驗(yàn)表明它的殼檢測實(shí)時(shí)性較高,但對于偽裝殼的誤報(bào)率和漏報(bào)率較高。
現(xiàn)在的研究中對PE文件結(jié)構(gòu)信息使用較少,本文將充分發(fā)掘PE結(jié)構(gòu)特征,并將各項(xiàng)特征去除冗余和加以整理,最后利用數(shù)據(jù)挖掘方法檢測加殼文件,得到了較好的分類效果。
1 特征抽取和篩選
1.1 特征抽取
PE文件格式是Windows平臺(tái)上可執(zhí)行文件的標(biāo)準(zhǔn)格式。在Windows系統(tǒng)中以EXE、DLL、OCX、SYS為后綴名的文件都是PE文件。加殼一般是對PE文件進(jìn)行加密或壓縮的過程。加殼后PE文件與原文件有很大的區(qū)別,但是仍然遵循PE文件格式。
圖1 PE文件格式
如圖1所示,PE文件包含了一個(gè)PE文件頭,一個(gè)節(jié)表,然后是節(jié)表中所指向的節(jié)。PE文件頭包含MS-DOS樁、PE標(biāo)簽、COFF頭(Common Object File Format)和可選頭??蛇x頭包含了PE文件的重要信息,包括節(jié)的個(gè)數(shù)、堆棧大小等。節(jié)表中包含節(jié)的大小、名稱等。這些節(jié)的內(nèi)容包括代碼、資源、數(shù)據(jù)等。本文根據(jù)對殼的先驗(yàn)知識(shí),選取表1中的部分PE結(jié)構(gòu)信息作為初選特征。
表1 PE文件可用分類特征
1.2 特征選擇
PE結(jié)構(gòu)信息中包括了大量信息,其中大部分不能用于識(shí)別加殼PE文件。為了提高挖掘的工作效率和準(zhǔn)確率,需要將冗余信息去除。在本文中引入冗余特征消除的算法――主成分分析(Principal Component Analysis,PCA)[6-7],它將多個(gè)變量通過線性變換以選出較少個(gè)數(shù)重要變量的一種多元統(tǒng)計(jì)分析方法。
該方法的最優(yōu)性是從N個(gè)訓(xùn)練樣本中提取m個(gè)主要特征,來達(dá)到降維的目的。假設(shè)n個(gè)d維的原始樣本x1,x2,…,xn,組成一個(gè)矩陣X(d*n)其中X的每一列為一個(gè)樣本,主成分分析按照式(1)中的線性變換把X投影到低維空間中的向量Y。
YWTX(1)
式中W(d*d′,d′d),Y(d′*n)為經(jīng)過PCA變換后的樣本特征。
首先求得樣本均值u,并按照式(2)協(xié)方差矩陣ST。
ST∑Ni1(xi-μ)(xi-μ)T(2)
然后按照式(3)計(jì)算ST的特征值ei,并由大到小排序。
λieiSTei; i∈[1,N](3)
最后選擇前d′個(gè)特征值對應(yīng)的特征矢量作為變換矩陣W[e1,e2,…,ed′]。
本實(shí)驗(yàn)中使用向量空間模型來格式化數(shù)據(jù),每個(gè)程序被定義為一個(gè)64維向量。提取所有的程序向量建立一個(gè)矩陣,使用PCA算法得到11個(gè)特征的主成分系數(shù)大于87%,可以移除其余53個(gè)冗余特征。
接下來把這11個(gè)特征深入分析,根據(jù)實(shí)際意義格式化特征向量。
1)在默認(rèn)條件下,編譯器生成的PE文件會(huì)有調(diào)試信息,但是加殼文件中基本不存在調(diào)試信息。
2)加殼PE文件的引入函數(shù)相對較少,并且都會(huì)有GetProcAddress和LoadLibrary這兩個(gè)函數(shù)。
3)文獻(xiàn)[4]中使用整個(gè)PE文件的信息熵來判斷PE文件是否加殼,而根據(jù)本文統(tǒng)計(jì)得到的數(shù)據(jù)來看,加殼和未加殼PE文件的熵值區(qū)間有很大的交集,而在統(tǒng)計(jì)數(shù)據(jù)中發(fā)現(xiàn)加殼后的PE文件入口點(diǎn)所在節(jié)的熵平均值遠(yuǎn)遠(yuǎn)高出未加殼PE文件入口點(diǎn)所在節(jié)的熵平均值,兩個(gè)熵值區(qū)間相對獨(dú)立,但是仍然存在部分特殊的PE文件的入口點(diǎn)所在節(jié)表熵值異常,所以入口點(diǎn)所在節(jié)的熵值不能作為唯一的判斷依據(jù),如圖2,通過計(jì)算得出加殼PE文件的入口代碼段平均熵值為7.57,而未加殼PE文件平均熵值為5.78。
4)節(jié)屬性。在未加殼的PE文件中,代碼段的屬性沒有可寫(IMAGE_SCN_MEM_WRITE)的屬性,而在加殼PE文件中,殼的加載器需要在內(nèi)存空間中恢復(fù)代碼,所以加殼PE文件中代碼段有可寫屬性。另外,加殼PE文件的其他非代碼節(jié)也多為可寫屬性。
5)節(jié)長度。編譯器默認(rèn)情況下生成的PE文件中不存在長度為0的節(jié),而在統(tǒng)計(jì)中發(fā)現(xiàn)被加殼的PE文件多數(shù)存在長度為0的節(jié)。
6)另外,編譯器生成的PE文件節(jié)名固定,經(jīng)過加殼的文件會(huì)出現(xiàn)非可見字符或其他的節(jié)名,特殊的節(jié)表名稱等其他屬性都可以作為判斷的依據(jù)。
圖2 加殼PE文件與未加殼文件熵值分布
通過整理,得到了表2中列出的各項(xiàng)特征。
表2 篩選整理后PE特征描述
將每個(gè)PE文件用一個(gè)向量VPE表示,其中A12packed用于標(biāo)識(shí)文件是否加殼,VPE定義如下:
VPE(A1DebugInfo,A2ImportTableSize,A3EntrySectionEntropy,
A4SectionNameVisible,A5SectionAttribute,A6ExecutableData,
A7SectionNameAbnormal,A8NoCodeSection,A9EntryPointNotInCodeSection,
A10SumSizeOfRawData!SizeOfCode,A11PEOffset,A12packed)
按照以上向量定義格式化所有實(shí)驗(yàn)數(shù)據(jù),使其符合數(shù)據(jù)挖掘工具要求,表3中給出了以上向量的部分實(shí)例。
表3 部分實(shí)驗(yàn)數(shù)據(jù)
2 驗(yàn)證分析
實(shí)驗(yàn)使用的數(shù)據(jù)集包括5578個(gè)PE文件信息,其中包括從vx heavean[8]獲取的2855個(gè)加殼PE文件和從Windows XP系統(tǒng)中獲取的2723個(gè)未加殼PE文件。為了獲取PE特征,使用pefile[9]提供的python庫開發(fā)了PEWalker,PEWalker可以獲取包括PE文件中的結(jié)構(gòu)信息、字符串信息、各節(jié)表的信息熵等。實(shí)驗(yàn)使用Knime[10]作為數(shù)據(jù)挖掘平臺(tái),Knime提供了SVM、Naive Bayes、MLP、J48等分類算法,由于篇幅所限,本文只給出J48分類器的流程。
實(shí)驗(yàn)中把PE特征數(shù)據(jù)集分為不相交的訓(xùn)練集Straining和測試集Stest兩部分,其中Straining∩ StestВ另外將訓(xùn)練集劃分為加殼程序集Spacked和未加殼程序集Sunpacked,且Spacked∪ Sunpacked Straining,Spacked∩ SunpackedВ
1)訓(xùn)練集,包含1800個(gè)加殼PE文件和1600個(gè)未加殼PE文件;2)測試集,包含1055個(gè)加殼PE文件和1123個(gè)未加殼PE文件。
表4中測試結(jié)果表明,相對于Native Bayes、MLP、SVM等分類器,J48分類器有較好的識(shí)別率和誤報(bào)率,對殼的識(shí)別準(zhǔn)確率達(dá)到了98.7%,可以對加殼PE文件作出有效判斷。
圖3 Knime搭建的分類工作流程
表4 測試結(jié)果
通過圖4的ROC(Receiver Operating Characteristic)曲線可以看出在本實(shí)驗(yàn)中MLP和SVM分類器得到了相近的分類效果,而Naive Bayes分類效果最差。J48分類器在誤報(bào)率為0.3%時(shí)得到了最好的檢測效果。
圖4 誤報(bào)率和檢測率
以下為J48分類器中的部分分類規(guī)則:
If DebugInfo1 and ImportTableSize > 36 and
ExecutableData0 :UnpackedFile
If SectionNameVisible0 and SectionNameAbnormal1 and
SectionAttribute 1 :PackedFile
If EntrySectionEntropy > 5.8 and
EntryPointNotInCodeSection 1:PackedFile
3 結(jié)語
本文對加殼PE文件進(jìn)行深入研究,使用PE文件中的調(diào)試信息、節(jié)屬性等結(jié)構(gòu)信息作為特征,并使用SVM、Naive Bayes、MLP、J48等分類算法,實(shí)驗(yàn)表明J48分類器在檢測加殼PE文件得到了較好的檢測效果,彌補(bǔ)了基于特征碼的PE文件加殼檢測的不足,目前的缺點(diǎn)是不能檢測殼的種類。后期的工作是進(jìn)一步提高檢測率,降低誤報(bào)率,增加殼類型檢測功能,并利用導(dǎo)出的語義化規(guī)則建立加殼PE文件檢測系統(tǒng)。
參考文獻(xiàn):
[1] 于淼,孫強(qiáng).對加殼技術(shù)的改進(jìn):超粒度混雜技術(shù)[J].計(jì)算機(jī)應(yīng)用,2004,24(8):137-139.
[2] 龐立會(huì).PE文件動(dòng)態(tài)加殼技術(shù)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2008,34(19):166-168.
[3] PEID.[CP/OL]. [2010-12-05]. peid.info.
[4] LYDA R, HAMROCK J. Using entropy analysis to find encrypted and packed malware[J]. IEEE Security and Privacy, 2007,5(2):40-45.
[5] CHOI Y S, KIM I K. PE file header analysis-based packed PE file detection technique[C]// Proceedings of International Symposium on Computer Science and Its Applications. New York: IEEE, 2008:28-31.
[6] 王正群,鄒軍,劉風(fēng).基于集成主成分分析的人臉識(shí)別[J].計(jì)算機(jī)應(yīng)用,2004,28(1):120-124.
[7] 朱明旱,羅大庸,易勵(lì)群.一種廣義的主成分分析特征提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(26):38-40.
[8] VX Heavens [EB/OL]. [2010-12-05]. .
關(guān)鍵詞:成績分析;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712 (2013) 20-0000-01
隨著高職院校的不斷擴(kuò)招,生源質(zhì)量在下降,生源的數(shù)量也在逐步出現(xiàn)萎縮。在這種情況下,如何有效的利用現(xiàn)有的教學(xué)資源,改善教學(xué)質(zhì)量,使人才的培養(yǎng)質(zhì)量得到進(jìn)一步的提高,在逆境中成長,是每一所高職院校面臨的重大挑戰(zhàn)。
目前各個(gè)高職院校的教務(wù)管理基本上都是采用基于數(shù)據(jù)庫的教務(wù)管理系統(tǒng)軟件。教務(wù)軟件在這么多年的應(yīng)用中積累了大量的數(shù)據(jù),學(xué)生的成績信息在教務(wù)軟件的數(shù)據(jù)庫中就大量的存在。一般情況下,成績數(shù)據(jù)僅僅只是作為一種備份數(shù)據(jù)存放于數(shù)據(jù)庫中,大部分只是進(jìn)行簡單的查詢修改操作等,對于數(shù)據(jù)之間潛在的聯(lián)系,影響成績的因素等這些信息,我們卻無從得知,并沒有做到充分的利用這些數(shù)據(jù)。
利用數(shù)據(jù)挖掘技術(shù),我們可以從這些成績數(shù)據(jù)中挖掘出可以指導(dǎo)我們教學(xué)的,有意義的信息,主要表現(xiàn)在:(1)可以全面地認(rèn)識(shí)學(xué)生的學(xué)習(xí)狀況。對學(xué)生學(xué)習(xí)成績的全面分析,不僅能夠獲得學(xué)生學(xué)習(xí)的整體情況,還可以了解學(xué)生對具體課程內(nèi)容的掌握情況。(2)可以分析課程之間的相關(guān)性。分析各個(gè)專業(yè)的核心課程,可以了解學(xué)生對這些課程的理解情況,以及學(xué)生在這些課程中的得分情況,找出課程之間的聯(lián)系,還可以對排課情況進(jìn)行指導(dǎo)。(3)可以分析入學(xué)成績對在校學(xué)習(xí)情況的影響。跟蹤學(xué)生在本專業(yè)的學(xué)習(xí)情況,結(jié)合入學(xué)的成績,找出入學(xué)成績對專業(yè)相關(guān)課程的影響情況,從而指導(dǎo)學(xué)生的專業(yè)學(xué)習(xí)。
一、數(shù)據(jù)挖掘的概念與技術(shù)
(一)什么是數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是一門涉及面很廣的交叉學(xué)科,受到了各種不同領(lǐng)域的專家學(xué)者的關(guān)注,關(guān)于數(shù)據(jù)挖掘的定義也有非常多種,但歸納起來數(shù)據(jù)挖掘主要就是從大量的沒有經(jīng)過處理的數(shù)據(jù)中發(fā)現(xiàn)未知的有價(jià)值的規(guī)律的過程。
(二)數(shù)據(jù)挖掘的過程。數(shù)據(jù)挖掘的過程一般由五個(gè)階段組成:(1)定義問題,明確數(shù)據(jù)挖掘的目的是什么。(2)數(shù)據(jù)準(zhǔn)備,包括要選擇什么樣的數(shù)據(jù)以及對選擇到的數(shù)據(jù)如何進(jìn)行預(yù)處理等。(3)數(shù)據(jù)挖掘,根據(jù)數(shù)據(jù)的特點(diǎn),選擇合適的數(shù)據(jù)挖掘算法,在已經(jīng)處理過的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘。(4)結(jié)果分析,對數(shù)據(jù)挖掘的結(jié)果進(jìn)行合理的解釋,給出能夠被用戶所接受的知識(shí)。(5)知識(shí)運(yùn)用,將數(shù)據(jù)挖掘出來的結(jié)果應(yīng)用到相應(yīng)的領(lǐng)域中。
數(shù)據(jù)挖掘的過程并不是一個(gè)簡單的按流程完成任務(wù)的過程,在數(shù)據(jù)挖掘的過程中往往會(huì)出現(xiàn)循環(huán)往復(fù),精益求精的過程。例如,在任務(wù)過程中發(fā)現(xiàn)之前選擇的數(shù)據(jù)不是很好或者對數(shù)據(jù)的預(yù)處理沒有達(dá)到我們的效果,那么這個(gè)時(shí)候我們就需要重新對數(shù)據(jù)進(jìn)行選擇或者重新對數(shù)據(jù)進(jìn)行處理,直到達(dá)到我們的效果。
(三)常用的數(shù)據(jù)挖掘方法。數(shù)據(jù)挖掘技術(shù)是一門交叉學(xué)科,充分結(jié)合了人工智能與機(jī)器學(xué)習(xí)的特點(diǎn),因此如聚類分析,決策樹,統(tǒng)計(jì)分析等在機(jī)器學(xué)習(xí),模式識(shí)別,人工智能等這些領(lǐng)域中的一些常規(guī)技術(shù)經(jīng)過改進(jìn),大部分都可以作為數(shù)據(jù)挖掘的方法進(jìn)行使用。模糊集方法,關(guān)聯(lián)規(guī)則方法,遺傳算法,神經(jīng)網(wǎng)絡(luò)方法,覆蓋正例排斥反例方法,決策樹方法,統(tǒng)計(jì)分析方法和粗集理論方法等都是數(shù)據(jù)挖掘技術(shù)中常用的方法。
二、成績分析中的數(shù)據(jù)挖掘方法
成績分析中主要是采用關(guān)聯(lián)規(guī)則算法作為數(shù)據(jù)挖掘的方法。關(guān)聯(lián)是指兩個(gè)或兩個(gè)以上的事務(wù)間存在著某種的規(guī)律性,數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中普遍存在的可被發(fā)現(xiàn)且重要的知識(shí)。關(guān)聯(lián)規(guī)則算法就是從大量的數(shù)據(jù)中找出隱藏在其中的關(guān)聯(lián)數(shù)據(jù)的一種算法。把關(guān)聯(lián)規(guī)則算法應(yīng)用于成績分析中,主要是要從這些成績數(shù)據(jù)中找出他們之間存在的關(guān)聯(lián)關(guān)系,找出影響成績變化的因素,分析入學(xué)成績對在校成績的影響主要體現(xiàn)在哪些方面,以及針對試卷中的得分情況,對學(xué)生容易失分的知識(shí)點(diǎn)進(jìn)行總結(jié),還能夠得出課程之間的相關(guān)性分析。
以下是與關(guān)聯(lián)規(guī)則挖掘中需要特別注意的幾個(gè)概念:(1)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是表示成XY的一個(gè)蘊(yùn)含式,其含義為如果X在一個(gè)事務(wù)中出現(xiàn),那么Y肯定也會(huì)在出現(xiàn)在同一個(gè)事務(wù)中,X就稱之為條件,而Y就為這個(gè)規(guī)則中的結(jié)果。(2)置信度和支持度。XY的置信度指的是同時(shí)包含X和Y的事務(wù)數(shù)與只包含X的事務(wù)數(shù)的個(gè)數(shù)的比值。XY的支持度指的是同時(shí)包含X和Y的事務(wù)數(shù)與事務(wù)總數(shù)的比值。置信度與支持度主要是為了驗(yàn)證規(guī)則的可靠性與可用性。(3)最小置信度和最小支持度。最小置信度和最小支持度是關(guān)聯(lián)規(guī)則中依靠的兩個(gè)主要的評估準(zhǔn)則。這兩個(gè)數(shù)值都是由用戶定義的。最小置信度表示了關(guān)聯(lián)規(guī)則中必須滿足的最低可靠度,。最小支持度則是表示數(shù)據(jù)集在統(tǒng)計(jì)過程中必須滿足的一個(gè)最低程度。而支持度只要比最小支持度大的非空集合我們都稱之為頻繁項(xiàng)集。(4)強(qiáng)關(guān)聯(lián)規(guī)則。強(qiáng)關(guān)聯(lián)規(guī)則就是同時(shí)滿足最小置信度和最小支持度的規(guī)則。
三、關(guān)聯(lián)規(guī)則挖掘過程
利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘的過程從本質(zhì)來上說是找尋強(qiáng)關(guān)聯(lián)規(guī)則的過程,主要通過以下兩個(gè)階段來實(shí)現(xiàn):(1)分析識(shí)別數(shù)據(jù)庫中的頻繁項(xiàng)集。在數(shù)據(jù)挖掘之前,先定義出最小支持度,再根據(jù)這個(gè)最小支持度,從原始數(shù)據(jù)集合中找出支持度不小于最小支持度的項(xiàng)集,即頻繁項(xiàng)集。(2)強(qiáng)關(guān)聯(lián)規(guī)則的產(chǎn)生。利用(1)中所產(chǎn)生的頻繁項(xiàng)集,來產(chǎn)生規(guī)則,這個(gè)規(guī)則必需滿足的條件是其置信度要大于或者等于最小置信度
四、結(jié)語
成績作為現(xiàn)代高職院校管理系統(tǒng)的一個(gè)重要組成部分,要充分利用起來,才能更好的指導(dǎo)教學(xué),改善教學(xué)質(zhì)量,提高人才培養(yǎng)的水平,提升學(xué)校聲譽(yù)。通過對海量的成績數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,可以更好的獲得相關(guān)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,提高了成績分析的效率,保證了成績分析的科學(xué)性。
參考文獻(xiàn):
[1]楊曉,張迎新.Apriori算法在消費(fèi)市場價(jià)格分析中的研究與應(yīng)用[J].北京工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2009(3).
[2]唐新宇,陳曉明.最小支持度在教學(xué)質(zhì)量評價(jià)系統(tǒng)中的數(shù)據(jù)挖掘應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,2012(8).
[3]韓家煒,堪博.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.
對很多培養(yǎng)機(jī)構(gòu)而言,目前急需解決的問題主要有:如何根據(jù)不同成員需求設(shè)置合理的課程、如何通過教學(xué)方式提高成員學(xué)習(xí)積極性、如何提高成員培訓(xùn)效果、如何通過考核檢驗(yàn)成員學(xué)習(xí)成果等,都是培養(yǎng)機(jī)構(gòu)發(fā)展過程中必須面對的問題。隨著我國信息化進(jìn)程的加快,一些培養(yǎng)機(jī)構(gòu)也開始進(jìn)行信息化建設(shè),通過信息系統(tǒng)對培訓(xùn)相關(guān)事宜進(jìn)行管理。但目前在針對培養(yǎng)機(jī)構(gòu)的信息系統(tǒng)中,所實(shí)現(xiàn)的功能和模塊是進(jìn)行簡單的查詢、統(tǒng)計(jì)。在了解培訓(xùn)評估效果時(shí),目前的信息系統(tǒng)中,學(xué)員通過系統(tǒng)對不同課程的教師進(jìn)行打分,系統(tǒng)自對進(jìn)行匯總、統(tǒng)計(jì),得出教師評價(jià)。但這種匯總、統(tǒng)計(jì)是最簡單的,對教師評價(jià)也缺乏全面性和深度。
2數(shù)據(jù)挖掘在培訓(xùn)管理系統(tǒng)中的應(yīng)用
大數(shù)據(jù)時(shí)代下,數(shù)據(jù)信息呈現(xiàn)出海量特點(diǎn)。如何從海量、不完全的信息中尋找到真正有用的信息,是大數(shù)據(jù)時(shí)代中重要的問題。由此便利用到數(shù)據(jù)挖掘,顧名思義,數(shù)據(jù)挖掘就是從眾多數(shù)據(jù)信息中尋找到有用、有價(jià)值的信息。大數(shù)據(jù)時(shí)代下,教育行業(yè)中,信息量也是海量的,要想提高教學(xué)質(zhì)量就需要運(yùn)用數(shù)據(jù)挖掘找尋到有用的教育信息,并運(yùn)用到實(shí)際教學(xué)中。信息系統(tǒng)通過一段實(shí)際應(yīng)用后,里面存儲(chǔ)了大量數(shù)據(jù),相應(yīng)的,學(xué)習(xí)管理系統(tǒng)也是如此,里面蘊(yùn)含了大量數(shù)據(jù)信息。如在線課程等功能中藏有大量師生應(yīng)用過程中的數(shù)據(jù)資料。如圖1為數(shù)據(jù)挖掘在培訓(xùn)管理中的流程圖。
2.1初步探索
培訓(xùn)管理系統(tǒng)中一般具有數(shù)據(jù)統(tǒng)計(jì)功能,將相關(guān)事宜進(jìn)行統(tǒng)計(jì)。如網(wǎng)絡(luò)課程開展過程中,數(shù)據(jù)挖掘在培訓(xùn)管理系統(tǒng)中的應(yīng)用文/張宏亮在大數(shù)據(jù)時(shí)代,如何使用現(xiàn)有的數(shù)據(jù)對學(xué)員進(jìn)行培訓(xùn)管理,從而提高培訓(xùn)效率是當(dāng)前培訓(xùn)管理中所面臨的問題。本文分析了數(shù)據(jù)挖掘在培訓(xùn)管理中的應(yīng)用主要表現(xiàn)在初步探索、數(shù)據(jù)預(yù)處理以及數(shù)據(jù)挖掘過程。其中數(shù)據(jù)預(yù)處理和數(shù)據(jù)挖掘是培訓(xùn)系統(tǒng)的核心功能。
2.2數(shù)據(jù)預(yù)期處理
數(shù)據(jù)預(yù)處理時(shí),原始數(shù)據(jù)庫會(huì)發(fā)生轉(zhuǎn)變,以適應(yīng)數(shù)據(jù)挖掘、數(shù)據(jù)挖掘算法等的要求。在處理結(jié)構(gòu)化的數(shù)據(jù)時(shí),數(shù)據(jù)預(yù)處理需要完成兩項(xiàng)任務(wù),即消除數(shù)據(jù)缺陷現(xiàn)象的存在和為數(shù)據(jù)挖掘奠定良好基礎(chǔ)。數(shù)據(jù)處理是對現(xiàn)有的數(shù)據(jù)進(jìn)行前期處理,方便后期數(shù)據(jù)挖掘。如圖2為培訓(xùn)管理系統(tǒng)中數(shù)據(jù)預(yù)處理模塊。
2.3數(shù)據(jù)挖掘
WangJ開發(fā)了一個(gè)將數(shù)據(jù)挖掘技術(shù)與基于模擬的培訓(xùn)相結(jié)合的混合框架,以提高培訓(xùn)評估的有效性。以信仰為基礎(chǔ)的學(xué)習(xí)概念,用于從知識(shí)/技能水平和信心水平的兩個(gè)維度來評估學(xué)員的學(xué)習(xí)成果。數(shù)據(jù)挖掘技術(shù)用于分析受訓(xùn)人員的個(gè)人資料和基于模擬的培訓(xùn)產(chǎn)生的數(shù)據(jù),以評估學(xué)員的表現(xiàn)和學(xué)習(xí)行為。提出的方法論以臺(tái)灣基于模擬的步兵射擊訓(xùn)練的實(shí)例為例。結(jié)果表明,提出的方法可以準(zhǔn)確地評估學(xué)員的表現(xiàn)和學(xué)習(xí)行為,并且可以發(fā)現(xiàn)潛在的知識(shí)來提高學(xué)員的學(xué)習(xí)成果。BodeaCN使用數(shù)據(jù)挖掘技術(shù)進(jìn)行了培訓(xùn)學(xué)習(xí)管理,用于分析參加在線兩年制碩士學(xué)位課程項(xiàng)目管理的學(xué)生的表現(xiàn)。系統(tǒng)數(shù)據(jù)來源是收集學(xué)生意見的調(diào)查數(shù)據(jù),學(xué)生記錄的操作數(shù)據(jù)和電子學(xué)習(xí)平臺(tái)記錄的學(xué)生活動(dòng)數(shù)據(jù)。
3總結(jié)
目前培訓(xùn)機(jī)構(gòu)在進(jìn)行教學(xué)評估時(shí),所選擇的指標(biāo)都是參考其他機(jī)構(gòu)的,并沒有真正從自身實(shí)際出發(fā)進(jìn)行評估,因此教學(xué)評估時(shí)存在諸多問題。其中最明顯的兩個(gè)問題是:第一教學(xué)評估方式單一化嚴(yán)重,只以數(shù)字評估為主;第二評估時(shí)容易受各種主觀因素影響。
作者:張宏亮 單位:承德市統(tǒng)計(jì)局
參考文獻(xiàn)
[1]菅志剛,金旭.數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2004,21(07):117-118.
[2]王全旺,趙兵川.數(shù)據(jù)挖掘技術(shù)在Moodle課程管理系統(tǒng)中的應(yīng)用研究[J].電化教育研究,2011(11):69-73.
關(guān)鍵詞:web數(shù)據(jù)挖掘 智能選課系統(tǒng) 學(xué)生培養(yǎng)
中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-3973 (2010) 02-068-03
1引言
隨著教育信息化得發(fā)展,越來越多的高校開始使用智能系統(tǒng)對數(shù)據(jù)庫進(jìn)行管理,有利于實(shí)現(xiàn)對蘊(yùn)含在數(shù)據(jù)里的信息進(jìn)行挖掘,為相關(guān)工作提供理論依據(jù)。傳統(tǒng)的選課系統(tǒng)是教師按照專業(yè)進(jìn)行劃分,學(xué)生只能在專業(yè)相關(guān)的層次上對學(xué)習(xí)的課程進(jìn)行選擇。而智能選課系統(tǒng)改變了傳統(tǒng)的選課模型,能根據(jù)學(xué)生的不同興趣和特點(diǎn)提供相應(yīng)的學(xué)習(xí)課程選擇,能充分體現(xiàn)出因人施教。文章把web數(shù)據(jù)挖掘技術(shù)應(yīng)用到智能選課系統(tǒng)的模型構(gòu)建中,利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)學(xué)生的學(xué)習(xí)興趣和特點(diǎn),給出相應(yīng)的學(xué)習(xí)課程選擇,這將為高校針對性的對人才培養(yǎng)提供一個(gè)方法。
2數(shù)據(jù)挖掘的基本原理方法
數(shù)據(jù)挖掘是一種決策支持過程,主要基于人工智能、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)技術(shù),從數(shù)據(jù)庫的大量數(shù)據(jù)中提取出隱含的、先前未知的、有應(yīng)用價(jià)值的、非平凡的模式。其中,模式指數(shù)據(jù)庫之間的邏輯關(guān)系;而非平凡指在知識(shí)的發(fā)現(xiàn)過程中具有的不斷定性和一定的自由度 。數(shù)據(jù)挖掘的過程主要分為三步:數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘及結(jié)果的分析和評估 。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中一個(gè)很重要的步驟,尤其是在對含有噪聲、不完整、甚至不一致的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí),需要進(jìn)行數(shù)據(jù)預(yù)處理以提高數(shù)據(jù)的質(zhì)量,并最終達(dá)到提高數(shù)據(jù)挖掘所獲模式知識(shí)質(zhì)量的目的。數(shù)據(jù)挖掘首先要確定挖掘的任務(wù)和目的,確定挖掘任務(wù)后,就要決定用什么樣的挖掘算法。選擇算法有兩個(gè)考慮的因素:一是不同的數(shù)據(jù)有不同的特點(diǎn),因此要用與之相關(guān)的算法來挖掘;二是要根據(jù)用戶和實(shí)際運(yùn)行系統(tǒng)的要求。在結(jié)果的分析和評估中,對一些可能存在的冗余或無關(guān)的模式,要將其剔除。如果挖掘出來的模式不符合用戶要求,則需要重新選擇數(shù)據(jù),采用新的數(shù)據(jù)變換方法,換用新的參數(shù)值。數(shù)據(jù)挖掘的具體步驟如圖1所示。
圖1 數(shù)據(jù)挖掘步驟
Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在web環(huán)境下的應(yīng)用。它所處理的對象包括:靜態(tài)網(wǎng)頁、web數(shù)據(jù)庫、web結(jié)構(gòu)和用戶記錄信息等。一般基于web的數(shù)據(jù)挖掘主要分為三類:(1) web內(nèi)容挖掘。對文檔的內(nèi)容進(jìn)行挖掘或提取關(guān)聯(lián)信息,并對文檔的內(nèi)容進(jìn)行總結(jié)和概括。(2)web結(jié)構(gòu)挖掘。從站點(diǎn)組織結(jié)構(gòu)和頁面結(jié)構(gòu)中推導(dǎo)出知識(shí),對web頁面間的結(jié)構(gòu)進(jìn)行挖掘,找出數(shù)據(jù)鏈的結(jié)構(gòu)進(jìn)行分類、聚類,從而發(fā)現(xiàn)頁面間的關(guān)系,找出重要的頁面。(3) web使用記錄挖掘。通過分析web服務(wù)器上的日志文件,從而挖掘出用戶訪問web的興趣模式,分析用戶行為的意義 。
Web數(shù)據(jù)挖掘的系統(tǒng)框圖如圖2所示,系統(tǒng)大致可分為四個(gè)模塊:數(shù)據(jù)收集模塊(服務(wù)器端數(shù)據(jù)、客戶登記信息)、數(shù)據(jù)預(yù)處理模塊、模式規(guī)則選擇模塊和應(yīng)用接口模塊。模式收集模塊負(fù)責(zé)收集服務(wù)器端的數(shù)據(jù)和客戶登記資料,然后以文本的方式將收集的結(jié)果返回;數(shù)據(jù)預(yù)處理模塊對返回的信息進(jìn)行預(yù)處理,去除信息冗余;模式規(guī)則選擇模塊則是從各個(gè)站點(diǎn)或站點(diǎn)間獲取通用模式,同時(shí)還對獲取的模式負(fù)責(zé)解釋 。
圖2Web數(shù)據(jù)挖掘系統(tǒng)框圖
3智能選課系統(tǒng)模型構(gòu)建與分析
構(gòu)建的智能選課系統(tǒng)模型如圖3所示:
圖3智能選課系統(tǒng)模型
其中,學(xué)生信息庫,用于記錄學(xué)生的學(xué)習(xí)行為興趣;學(xué)習(xí)課程推理機(jī),通過人機(jī)交互,從學(xué)生信息庫中獲得信息,啟動(dòng)推理系統(tǒng)工作,為學(xué)生提供合理的選課課程范圍。信息挖掘模塊,用于控制、協(xié)調(diào)整個(gè)智能選課系統(tǒng),用于描述關(guān)聯(lián)、聚類分析等數(shù)據(jù)挖掘的方法并根據(jù)當(dāng)前數(shù)據(jù)庫中學(xué)生信息應(yīng)用知識(shí)庫中知識(shí),按確定的推理規(guī)則進(jìn)行推理,對學(xué)生的信息進(jìn)行分析,從而給出學(xué)生選修學(xué)習(xí)課程的范圍。領(lǐng)域知識(shí)庫,用于存放相關(guān)知識(shí)的課程。
圖4學(xué)生選課流程
Web數(shù)據(jù)挖掘技術(shù)在智能選課系統(tǒng)中的具體應(yīng)用主要有:
(1)利用人工神經(jīng)網(wǎng)絡(luò)挖掘?qū)W生信息庫中學(xué)生對以前課程學(xué)習(xí)的知識(shí)點(diǎn)的理解程度。人工神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上模仿生物神經(jīng)網(wǎng)絡(luò),是一種通過訓(xùn)練來學(xué)習(xí)非線性預(yù)測的模型。這個(gè)算法的學(xué)習(xí)過程,由正向傳播和反向傳播組成,在正向傳播過程中,輸入信息從輸入層經(jīng)隱單元層逐層處理,并傳向輸入層,每一層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元的狀態(tài)。如果在輸出層不能得到期望的輸出,則轉(zhuǎn)入反向傳播,將誤差信號(hào)沿原來的鏈接通路返回,通過修改各層神經(jīng)元的權(quán)值使得誤差信號(hào)減小,然后在轉(zhuǎn)入正向傳播過程,反復(fù)迭代,直到誤差小于給定值 。
(2)利用聚類分析對學(xué)生的學(xué)習(xí)興趣和特點(diǎn)進(jìn)行分類。信息挖掘模塊從學(xué)生信息庫中抽取學(xué)生特征,按照學(xué)生的學(xué)習(xí)興趣進(jìn)行分類,并賦予每個(gè)學(xué)生類標(biāo)記,然后根據(jù)記錄里每類學(xué)生的特點(diǎn),給出相應(yīng)的選修課程范圍。聚類分析是數(shù)據(jù)挖掘中一種非常重要的技術(shù)和方法,聚類就是將一組相關(guān)集合按照某種相似度函數(shù)或相似性準(zhǔn)則劃分成若干類別,使同一類別個(gè)體之間的差異達(dá)到最小化,不同類別之間的差異達(dá)到最大化。聚類分析的問題可描述為:給定m維空間Rm中的n個(gè)各向量,把每個(gè)向量歸屬到S個(gè)聚類中的某一個(gè),使得每個(gè)向量與其聚類中心的距離最小。聚類分析的實(shí)質(zhì)是一個(gè)全局優(yōu)化問題。此外,m可認(rèn)為是樣本參與聚類的屬性個(gè)數(shù),n是樣本個(gè)數(shù),S是由用戶預(yù)先設(shè)定的分類書目或聚類個(gè)數(shù) 。
按照聚類結(jié)果表現(xiàn)方式的不同,聚類分析算法可以分為:基于群的聚類算法――這種算法可看做進(jìn)化計(jì)算的一個(gè)分支,它模擬了生物界中蟻群、魚群和鳥群在覓食和逃避敵人時(shí)的行為;基于粒度的聚類算法――聚類是無導(dǎo)師的學(xué)習(xí),聚類的目的是發(fā)現(xiàn)樣本點(diǎn)之間最本質(zhì)的抱團(tuán)性質(zhì)的一種客觀反映,聚類的操作是在一個(gè)統(tǒng)一的粒度下進(jìn)行計(jì)算的;基于模糊的聚類算法――模糊聚類分析具有描述樣本類屬中間性的優(yōu)點(diǎn),能夠客觀反映現(xiàn)實(shí)世界,人類大多用一些模糊的詞語來交流思想互通信息,然后進(jìn)行推理分析、綜合判斷,最后做出決策。人們對客觀事物的識(shí)別往往通過一些模糊信息的綜合,來獲得足夠精確的定論 。
(3)利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)學(xué)生的學(xué)習(xí)興趣特點(diǎn),進(jìn)行相應(yīng)的課程推薦。關(guān)聯(lián)規(guī)則挖掘是從數(shù)據(jù)庫中挖掘出那些支持度和置信都大于用戶指定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。設(shè)I={i1,i2…,im}是由m個(gè)不同的項(xiàng)目組成的集合,D是針對I的事物集合,每一筆事物包含若干項(xiàng)目ii,ij,…,ikI。關(guān)聯(lián)規(guī)則表示為XY,其中XI,YI,并且XY。X稱作規(guī)則的前提,Y是結(jié)果。一般把一些項(xiàng)目的集合稱作項(xiàng)目集。在項(xiàng)目集中項(xiàng)目的數(shù)量叫做項(xiàng)目集的長度。關(guān)聯(lián)規(guī)則XY成立的條件是:(1)它具有支持度s,即事物數(shù)據(jù)庫D中至少有s%的事物包含X和Y;(2)它具有置信度c,即在事物數(shù)據(jù)庫D中包含X的事物至少有c%同時(shí)也包含Y 。
關(guān)聯(lián)規(guī)則的挖掘是一個(gè)兩步的過程:(1)所有頻繁項(xiàng)集。根據(jù)定義這些項(xiàng)集出現(xiàn)的頻繁性至少與預(yù)定義的支持計(jì)數(shù)一樣;(2)頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。根據(jù)定義,這些規(guī)則必須滿足最小置信度和最小支持度。
對關(guān)聯(lián)規(guī)則的評價(jià)主要從兩個(gè)方面進(jìn)行:(1)系統(tǒng)客觀層面――是指關(guān)聯(lián)規(guī)則的有趣性是規(guī)則的具體結(jié)構(gòu)和在數(shù)據(jù)挖掘過程中所依賴的數(shù)據(jù)決定的。支持度和可信度度量是系統(tǒng)客觀層面評價(jià)關(guān)聯(lián)規(guī)則的兩個(gè)常用客觀性指標(biāo);(2)用戶主觀的層面――只有用戶才能決定規(guī)則的有效性和可行性,所以應(yīng)該將用戶的需求與系統(tǒng)更加緊密集合起來,形成用戶主觀層面的評價(jià)??刹捎没诩s束的數(shù)據(jù)挖掘方法,具體的約束內(nèi)容有數(shù)據(jù)約束、限定數(shù)據(jù)的挖掘維和層次和規(guī)則約束 。
4智能選課系統(tǒng)關(guān)鍵算法實(shí)現(xiàn)
挖掘模型主要分為算法實(shí)現(xiàn)庫、挖掘配置、知識(shí)庫和數(shù)據(jù)呈現(xiàn)四個(gè)功能實(shí)體,且每個(gè)功能實(shí)體都以動(dòng)態(tài)鏈接庫的方式。
聚類K-means算法實(shí)現(xiàn)如下:
Procedure K-means(s,k)
S={X1,X2,…Xn}
m=1;
for j=1 to k//初始化聚類中心Zj
Do {for i=1 to n
for j=1 to k
{D(Xi,Zj)=|Xi-Zj|;
If D(Xi,Zj)=Min{D(Xi,Zj)}then Xi∈Cj}//歸類
If m=1 then Jc(m)=∑kj=1∑|Xi-Zj|2
m=m+1;
for j=1 to k
Zj=()/n; //重置聚類中心
While |Jc(m)-Jc(m-1)|>
其中Xi為n個(gè)輸入數(shù)據(jù)對象的集合;輸出為K個(gè)聚類中心Zj及K個(gè)數(shù)據(jù)對象集合Cj。
關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘Apriori算法實(shí)現(xiàn)如下:
Input: 學(xué)生信息數(shù)據(jù)庫D;
最小支持度 min_sup;
Output: 所有頻繁項(xiàng)目集;
C1={candidate k-itemset};
L1={c∈C1|c.count≥min_sup};
for{k=2, Lk-1≠,k++}do begin
Ck=sc_canditate(Lk-1); /*生成所有長度為k的候選項(xiàng)目集*/
for all transactions t∈D do begin
C1=count_support(Ck,t);/*求數(shù)據(jù)庫記錄t包含的候選項(xiàng)目集*/
For all canditates c∈C1 do
c.count++ /*候選項(xiàng)目集支持度計(jì)數(shù)加1*/
end
Lk={c∈Ck|c.count≥min_sup};
end
Answer=UkLk
該算法利用一個(gè)層次順序搜索的循環(huán)方法來完成頻繁項(xiàng)集的挖掘工作。其中D表示數(shù)據(jù)庫;k-itemset表示長度為k的項(xiàng)目集;Lk表示長度為k的頻繁項(xiàng)目集;Ck表示長度為k的候選項(xiàng)目集;min_sup表示給定的最小支持度;Answer表示所有的頻繁項(xiàng)目集。
5結(jié)語
基于web數(shù)據(jù)挖掘技術(shù)的智能選課系統(tǒng)采用聚類分析、關(guān)聯(lián)規(guī)則、人工神經(jīng)網(wǎng)絡(luò)等方法,能從學(xué)生的訪問、學(xué)習(xí)記錄和測試中挖掘出有用信息,評估出學(xué)生的學(xué)習(xí)興趣和特點(diǎn),給出相關(guān)的頁面和選修課范圍,這樣可以提搞學(xué)校教務(wù)選課系統(tǒng)的服務(wù)水平,為系統(tǒng)的決策提供智能化手段,也為高校合理的培養(yǎng)人才提供了一個(gè)方法。
(基金項(xiàng)目:湖南科技學(xué)院2008年科研項(xiàng)目(08XKYTC041)資助)
注釋:
Borges J., Levene M.. Data mining of user navigation patterns[C]. Proceedings of workshop Web usage Analysis and user profiling. San Diego,2000, pp:31-36.
Jiawei H., Micheline K.. Data Mining: Concepts and Techniques[M]. San Francisco: Diane Cerra, 2006.
韓曉莉,李秉智.個(gè)性化Web推薦服務(wù)研究[J].計(jì)算機(jī)科學(xué)[J],2006,33(4):135-138.
趙東東.電子商務(wù)中的web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)[J].微計(jì)算機(jī)信息,2007,10(3):168-170.
徐欣,徐立鴻.教學(xué)質(zhì)量評價(jià)與預(yù)測的人工神經(jīng)網(wǎng)絡(luò)方法[J].統(tǒng)計(jì)與決策,2009,20:159-160.
劉立軍,周軍,梅紅巖.Web使用挖掘的數(shù)據(jù)預(yù)處理[J].計(jì)算機(jī)科學(xué),2007,34(5):200-204.
李明華,劉全,劉忠等.數(shù)據(jù)挖掘中聚類算法的新進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2008,25(1):13-17.
高校在長期的教學(xué)管理過程中積累了海量的學(xué)生成績信息,但是普遍的對于成績的分析處理工作還停留在簡單的查詢、分析和統(tǒng)計(jì)階段。本文利用關(guān)聯(lián)規(guī)則Apriori算法,以學(xué)生成績數(shù)據(jù)為研究對象,挖掘課程之間的相互關(guān)系,為科學(xué)的制定人才培養(yǎng)方案,提高高校人才培養(yǎng)質(zhì)量進(jìn)行了積極地探索與研究。
【關(guān)鍵詞】成績分析 關(guān)聯(lián)規(guī)則 Apriori算法
1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘其實(shí)就是從大量、有噪聲、隨機(jī)性、不完全、模糊的應(yīng)用數(shù)據(jù)中,提取并隱藏在應(yīng)用數(shù)據(jù)中心、人們不知道但是有價(jià)值的信息和知識(shí)的過程,通過數(shù)據(jù)挖掘系統(tǒng)能夠自動(dòng)分析原有數(shù)據(jù),并作出歸納總結(jié),挖掘出數(shù)據(jù)原有的模式,為決策者提供參考價(jià)。數(shù)據(jù)挖掘包括數(shù)據(jù)倉庫、預(yù)處理、分類聚類、關(guān)聯(lián)分析等。關(guān)聯(lián)分析是數(shù)據(jù)挖掘最貼近我們生活的一部分了,登錄亞馬遜網(wǎng)站,當(dāng)我們挑選一本《Android4高級(jí)編程》時(shí),網(wǎng)站會(huì)不失時(shí)機(jī)的列出你可能還會(huì)感興趣的書籍,如Android游戲開發(fā)、Cocos2d-x引擎等,讓我們的購物車變得更充實(shí),而錢包又空了些。
數(shù)據(jù)挖掘是一門綜合了統(tǒng)計(jì)學(xué)、信息技術(shù)、人工智能等多項(xiàng)技術(shù)。其中數(shù)據(jù)挖掘聚類和決策樹則是機(jī)器學(xué)習(xí)理論知識(shí)。關(guān)聯(lián)性規(guī)則挖掘技術(shù)對數(shù)據(jù)挖掘技術(shù)具有非常重大的意義,它進(jìn)一步擴(kuò)展了數(shù)據(jù)挖掘的研究,到如今已經(jīng)成為了數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)分支。關(guān)聯(lián)性規(guī)則不僅體現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián),更為重要的是關(guān)聯(lián)系規(guī)則的表達(dá)簡潔,便于理解,近年來已經(jīng)成為數(shù)據(jù)挖掘技術(shù)研究領(lǐng)域的熱點(diǎn)話題。
2 關(guān)聯(lián)規(guī)則Apriori算法
Apriori算法是關(guān)聯(lián)規(guī)則算法之一。Apriori算法的第一遍僅僅計(jì)算每個(gè)項(xiàng)目的具體指的數(shù)量,以確定大型1項(xiàng)集。隨后的遍歷,第k次遍歷,包括兩個(gè)階段。首先,使用在第(k-1)次遍歷中找到的大項(xiàng)集Lk-1和Apriori-gen函數(shù)產(chǎn)生候選項(xiàng)集。接著掃描數(shù)據(jù)庫,計(jì)算中候選的支持度,從而得到中的支持度不小于最小支持度的k階大項(xiàng)集。重復(fù)以上步驟,直到某一階的大項(xiàng)集為空時(shí),算法停止。
Apriori算法指導(dǎo)我們,如果要發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則,就必須先找到頻繁集。所謂頻繁集,即支持度大于最小支持度的項(xiàng)集。如何得到數(shù)據(jù)集合D中的所有頻繁集呢?
用一種非常原始的辦法來分析,就是對于數(shù)據(jù)集D,遍歷每一條記錄T,可以得到T的所有子集,然后計(jì)算每一個(gè)子集的支持度,最后再將結(jié)果與最小支持度比較。我們暫且不管數(shù)據(jù)集D中有多少條記錄,就說每一條記錄T的子集個(gè)數(shù),{1,2,3}的子集有{1},{2},{3},{1,2},{2,3},{1,3},{1,2,3},即如果記錄T中含有n項(xiàng),那么它的子集個(gè)數(shù)是-1。計(jì)算量是非常大的,很明顯這種方法是不可取的。
因此,Aprior算法提出了一個(gè)逐層搜索的方法,如何逐層搜索呢?包含兩個(gè)步驟:
(1)自連接獲取候選集。第一輪的候選集就是數(shù)據(jù)集D中的項(xiàng),而其他輪次的候選集則是由前一輪次頻繁集自連接得到(頻繁集由候選集剪枝得到)。
(2)對于候選集進(jìn)行剪枝。如何剪枝呢?候選集的每一條記錄T,如果它的支持度小于最小支持度,那么就會(huì)被剪掉;此外,如果一條記錄T,它的子集有不是頻繁集的,也會(huì)被剪掉。
算法的終止條件是,如果自連接得到的已經(jīng)不再是頻繁集,那么取最后一次得到的頻繁集作為結(jié)果。
3 教務(wù)管理系統(tǒng)中的學(xué)生成績數(shù)據(jù)挖掘
學(xué)生的考試成績不僅體現(xiàn)了學(xué)生階段性的學(xué)習(xí)效果,而且是檢驗(yàn)學(xué)校教學(xué)效果的重要依據(jù)。為了提高學(xué)校教學(xué)質(zhì)量,所以必須對學(xué)生的考試成績進(jìn)行數(shù)據(jù)挖掘,挖掘出學(xué)生考試成績背后的關(guān)鍵性因素,可以從學(xué)生的性別、專業(yè)、課程、入學(xué)成績、老師對學(xué)生的考核評價(jià)等因素為切入點(diǎn),分析這些因素對學(xué)生成績產(chǎn)生的影響,并找出各個(gè)要素之間的潛在規(guī)律,從而分析出影響學(xué)生考試成績的主要因素,并預(yù)測學(xué)生哪一部分成績還需要進(jìn)一步加強(qiáng)。采用關(guān)聯(lián)系規(guī)則對學(xué)生成績進(jìn)行數(shù)據(jù)挖掘,通過數(shù)據(jù)倉庫查看各個(gè)專業(yè)學(xué)生課程成績單,并分析各個(gè)課程與其他課程之間的關(guān)聯(lián)和影響,從而制定專業(yè)的人才培養(yǎng)計(jì)劃。在制定計(jì)劃的時(shí)候,依次從公共課、專業(yè)課到拓展課等方面設(shè)置相關(guān)課程。不同的專業(yè)開設(shè)課程的時(shí)間不同,開課時(shí)間次序?qū)W(xué)生學(xué)習(xí)后續(xù)課程會(huì)產(chǎn)生一定的影響。但是過去很多高校在課程安排上比較隨意,通常都是高校教務(wù)處的人根據(jù)過去的教學(xué)經(jīng)驗(yàn)和主觀認(rèn)知,安排學(xué)生的課程時(shí)間。然而每一門課程都有它的特點(diǎn),比如體育課學(xué)生可能需要大量的運(yùn)動(dòng),消耗的體能比較多,運(yùn)動(dòng)過后學(xué)生無論精神上還是身體上都比較疲憊,這個(gè)時(shí)候上課的效果就不太好,所以在安排課程的時(shí)候,盡量將體育課安排到下午的時(shí)間段,這樣不會(huì)學(xué)校其他課程的教學(xué)效果。通過關(guān)聯(lián)性分析,找出每一門課程的影響因素,合理安排課程的先后順序,為人才方案制定者提供科學(xué)的決策依據(jù)。
我們從教務(wù)管理系統(tǒng)中選取1000名軟件技術(shù)專業(yè)學(xué)生的成績,根據(jù)學(xué)生成績進(jìn)行數(shù)據(jù)挖掘,部分成績數(shù)據(jù)如表1所示。
根據(jù)學(xué)生考試成績表,分析學(xué)生不及格科目之間的關(guān)系,60分以下的設(shè)置最小支持度為0.04。設(shè)置關(guān)聯(lián)規(guī)則的參數(shù),將成績范圍設(shè)定為0至59,最小支持度為0.04。
使用Aprior算法對數(shù)據(jù)倉庫中的相關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,結(jié)果如表2所示。
通過對1000名軟件技術(shù)專業(yè)的學(xué)生60分以下成績進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)學(xué)生的電路分析和高等數(shù)學(xué)兩門科目的置信度是0.51,C++程序設(shè)計(jì)這門課程的置信度是0.40。根據(jù)圖表各個(gè)課程的置信度可以得出結(jié)論。如果學(xué)生在大一階段的基礎(chǔ)課程如高等數(shù)學(xué)學(xué)習(xí)成績比較差,那么學(xué)生的電路分析和C++程序設(shè)計(jì)兩門科目的學(xué)習(xí)成績也會(huì)不太好,不及格的概率比較大。相對來說,如果高等數(shù)學(xué)和電路分析兩門課程的置信度達(dá)到了0.35,那么對學(xué)生的電路分析和C++程序設(shè)計(jì)兩門科目的學(xué)習(xí)成績影響不大。那么可以得出這樣的結(jié)論,電路分析課程開設(shè)在高等數(shù)學(xué)這門課程之后。通過以上分析,我們可以得出,將一些基礎(chǔ)課程作為專業(yè)課程的前導(dǎo)課程,能夠?yàn)閷W(xué)生后期學(xué)習(xí)打下堅(jiān)實(shí)的基礎(chǔ);如果學(xué)生的基礎(chǔ)知識(shí)學(xué)習(xí)不好,那么對專業(yè)課程的影響也很大,專業(yè)課程的學(xué)習(xí)和基礎(chǔ)課程有直接關(guān)系。研究影響學(xué)生成績優(yōu)秀的課程之間的關(guān)系,80分以上設(shè)置最小支持度為0.04。設(shè)置關(guān)聯(lián)規(guī)則的參數(shù),設(shè)定分?jǐn)?shù)范圍80至100,最小支持度為0.04。
利用關(guān)聯(lián)規(guī)則產(chǎn)生如表3所示的數(shù)據(jù)挖掘結(jié)果。
通過對軟件技術(shù)專業(yè)考試成績在80分以上學(xué)生進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)專業(yè)英語和大學(xué)英語兩門課程的置信度是0.62,從中我們可以得出結(jié)論,如果學(xué)生的英語基礎(chǔ)成績比較好,那么學(xué)生的大學(xué)英語成績也相對來說沒有什么問題,學(xué)生的專業(yè)英語成績分?jǐn)?shù)也相對比較高。數(shù)據(jù)結(jié)構(gòu)和C++程序設(shè)計(jì)兩門課程是計(jì)算機(jī)專業(yè)的專業(yè)基礎(chǔ)課堂,兩門課程的置信度是0.64,從課程的置信度可以看出這兩門課程對專業(yè)學(xué)習(xí)數(shù)據(jù)結(jié)果的影響,如果學(xué)生的數(shù)據(jù)結(jié)構(gòu)這門課程學(xué)習(xí)成績比較好,那么學(xué)生C++程序設(shè)計(jì)這門課程的學(xué)習(xí)成績也比較好。從以上分析來網(wǎng)頁設(shè)計(jì)和制作與photoshop圖像處理兩門課程的置信度是0.68,從中可以看出photoshop圖像處理課程對網(wǎng)頁設(shè)計(jì)和制作有很大影響。網(wǎng)頁制作的時(shí)候,需要photoshop圖形圖像處理軟件對圖片進(jìn)行處理和調(diào)整。所以photoshop圖像處理課程可以設(shè)置在網(wǎng)頁制作課程之前,以便學(xué)生在學(xué)習(xí)網(wǎng)頁制作的時(shí)候,能夠用photoshop軟件對圖片進(jìn)行處理。
從上述內(nèi)容我們可以看出,高校專業(yè)課程之間的關(guān)聯(lián)性很強(qiáng),從學(xué)生考試成績就可以看出,因此在學(xué)校開設(shè)課程的時(shí)候,一定要考慮課程關(guān)聯(lián)性影響,按照對學(xué)生影響大小制定開設(shè)課程的次序,并作為學(xué)校培養(yǎng)人才的重要依據(jù)。
此外在對學(xué)生成績進(jìn)行數(shù)據(jù)挖掘的時(shí)候,還要考慮到學(xué)生入學(xué)成績和整體考試成績,經(jīng)學(xué)生的入學(xué)成績錄入系統(tǒng),并對學(xué)生所有課程考試成績綜合分析,算出平均成績,按照平均成績劃分優(yōu)秀、良、差等不同等級(jí),將入學(xué)成績也分為優(yōu)、良、差等不同等級(jí),挖掘出入學(xué)成績和考試成績之間的關(guān)聯(lián)。
成績關(guān)聯(lián)性數(shù)據(jù)挖掘結(jié)果如表4所示。
4 結(jié)論
從上述結(jié)果得出,如果學(xué)生的入學(xué)成績差和考試成績優(yōu)的置信度是0.41,這就表明如果學(xué)生的基礎(chǔ)比較差,那么在大學(xué)的考試成績好的可能性不大。如果學(xué)生的入學(xué)成績差和考試成績優(yōu)的置信度是0.65,那就表明基礎(chǔ)成績差的學(xué)生也可以考出良等的考試成績,這樣就能過去傳統(tǒng)理論上入學(xué)考試成績好的學(xué)生,在大學(xué)的學(xué)習(xí)成績也會(huì)很好,如果入學(xué)成績不好的學(xué)生,在大學(xué)的成績肯定不好的這種理論。通過關(guān)聯(lián)性分析,可以看出學(xué)生入學(xué)成績的好壞與學(xué)生大學(xué)成績的好壞并沒有必然的聯(lián)系。大學(xué)自由的學(xué)習(xí)氣氛給學(xué)生的學(xué)習(xí)創(chuàng)造了良好的環(huán)境,如果學(xué)生抓住這個(gè)機(jī)會(huì),自主學(xué)習(xí),那么就能獲得好的成績,如果還是秉承按照高中階段的學(xué)習(xí)思維,那么可能學(xué)生不利于學(xué)生的學(xué)習(xí)。
參考文獻(xiàn)
[1]王少華等.關(guān)聯(lián)規(guī)則在高校系統(tǒng)中的應(yīng)用[J].福建電腦,2007(12):153-156.
[2]王能斌等.大學(xué)課表調(diào)度系統(tǒng)UTSS[J].計(jì)算機(jī)學(xué)報(bào),1984(05):383-389.
[3]何炎樣.關(guān)聯(lián)規(guī)則的幾種開采算法及其比較[J].小型微型計(jì)算機(jī)系統(tǒng),2001(09).
[4]趙俏.高職院校教務(wù)管理中的數(shù)據(jù)挖掘[J].科技信息,2008(11):80,95.
[5]楊克松.論關(guān)聯(lián)規(guī)則在高校選課系統(tǒng)中的應(yīng)用[J].福建電腦,2007(10):166-168.
[6]周培德.算法設(shè)計(jì)與分析[M].北京:機(jī)械工業(yè)出版社,1996.
作者簡介
周興旺(1979-),男,江蘇省揚(yáng)州市人。工學(xué)碩士學(xué)位?,F(xiàn)為南通科技職業(yè)學(xué)院講師。主要研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)挖掘、教育教學(xué)管理等。