發(fā)布時(shí)間:2023-05-30 14:58:32
序言:寫作是分享個(gè)人見(jiàn)解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了8篇的數(shù)據(jù)分析分析技術(shù)樣本,期待這些樣本能夠?yàn)槟峁┴S富的參考和啟發(fā),請(qǐng)盡情閱讀。
關(guān)鍵詞: 稅務(wù)數(shù)據(jù)分析;OLAP技術(shù)
中圖分類號(hào):TP399文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1009-3044(2008)26-1622-01
The Application of OLAP Technology For Tax Data Analysis
LV Jia
(School of Computer Science & Technology, Soochow University, Suzhou 215006,China)
Abstract: Introduce the application of OLAP technology for tax data analysis,provide assistance decision function for the tax administration department.
Key words: tax data analysis; OLAP
1 引言
隨著稅務(wù)信息化建設(shè)的深入開(kāi)展,特別是在國(guó)稅系統(tǒng)內(nèi)基本上已經(jīng)以省級(jí)集中的模式完成了各個(gè)應(yīng)用系統(tǒng)的數(shù)據(jù)集中工作,稅務(wù)機(jī)關(guān)積累了大量的涉稅信息,作為信息化高級(jí)階段的數(shù)據(jù)分析利用已經(jīng)漸漸成為稅務(wù)信息化工作的重點(diǎn)。如何突破傳統(tǒng)的統(tǒng)計(jì)報(bào)表模式,利用OLAP技術(shù)和豐富的數(shù)據(jù)資源進(jìn)行稅收數(shù)據(jù)深度分析,從而更好的為稅收管理和輔助決策服務(wù),是當(dāng)前稅收分析工作必須思考的問(wèn)題。
2 數(shù)據(jù)分析
聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)是基于數(shù)據(jù)倉(cāng)庫(kù)的一種數(shù)據(jù)分析技術(shù)。它使分析人員、經(jīng)理及管理人員通過(guò)對(duì)信息的多種可能的觀察角度進(jìn)行快速、一致和交互的存取獲得對(duì)信息的深入理解。OLAP的目標(biāo)是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報(bào)表需求,它的技術(shù)核心是"維"這個(gè)概念?!熬S”是人們觀察客觀世界的角度,是一種高層次的類型劃分?!熬S”一般包含著層次關(guān)系,這種層次關(guān)系有時(shí)會(huì)相當(dāng)復(fù)雜。通過(guò)把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維(dimension),使用戶能對(duì)不同維上的數(shù)據(jù)進(jìn)行比較。因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。
OLAP技術(shù)在稅收數(shù)據(jù)分析中可以應(yīng)用于同行業(yè)稅負(fù)分析。受市場(chǎng)均衡作用的影響,同一產(chǎn)品在生產(chǎn)技術(shù)工藝、原材料能源消耗方面有相近之處,適用稅收政策有統(tǒng)一的要求,因此反映生產(chǎn)成本費(fèi)用方面的指標(biāo)有相同的規(guī)律特征。根據(jù)這種規(guī)律特征,以此檢驗(yàn)個(gè)體數(shù)據(jù)指標(biāo)的表現(xiàn),找出差異較大的個(gè)體予以預(yù)警。
在具體實(shí)現(xiàn)時(shí),使用星型架構(gòu)進(jìn)行建模。星型架構(gòu)通過(guò)使用一個(gè)包含主題的事實(shí)表(用來(lái)存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字)和多個(gè)維度表(存放維的層次、成員類別等維的描述信息)來(lái)執(zhí)行決策支持應(yīng)用。在星形架構(gòu)中主體是事實(shí)表,而有關(guān)維的細(xì)節(jié)則構(gòu)作于維表內(nèi)以達(dá)到簡(jiǎn)化事實(shí)表的目的,事實(shí)表與維表間有公共屬性相連以使它們構(gòu)成一個(gè)整體。
OLAP的基本多維分析操作有鉆取、切片和切塊、以及旋轉(zhuǎn)等。鉆取是改變維的層次,變換分析的粒度。切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。
當(dāng)在OLAP服務(wù)器上建立好分析模型后,可以使用MDX多維查詢語(yǔ)句進(jìn)行查詢,獲取聯(lián)機(jī)分析得出的多維數(shù)據(jù)集。MDX查詢語(yǔ)句類似關(guān)系數(shù)據(jù)庫(kù)中的SQL語(yǔ)句,也是通過(guò)SELECT語(yǔ)句獲得查詢結(jié)果。SELECT 語(yǔ)句可指定一個(gè)結(jié)果集,其中包含從多維數(shù)據(jù)集中返回的多維數(shù)據(jù)子集。若要指定結(jié)果集,MDX 查詢必須包含以下信息:
1) 層次結(jié)構(gòu)的軸或集的數(shù)目。最多可在 MDX 查詢中指定 128 個(gè)軸;
2) 要包括在 MDX 查詢的各個(gè)軸上的每個(gè)維度的成員;
3) 用于設(shè)置 MDX 查詢上下文的多維數(shù)據(jù)集的名稱;
4) 來(lái)自切片器軸的成員,將在該軸上對(duì)來(lái)自查詢軸的成員進(jìn)行數(shù)據(jù)切片。
3 結(jié)束語(yǔ)
如何從大量積累的歷史數(shù)據(jù)中分析出有價(jià)值的信息,OLAP技術(shù)為此提供了一個(gè)有效的工具,通過(guò)建模后對(duì)數(shù)據(jù)切片旋轉(zhuǎn)等操作,可以方便地對(duì)各項(xiàng)數(shù)據(jù)進(jìn)行分析,從而為領(lǐng)導(dǎo)提供輔助決策功能。
參考文獻(xiàn):
【關(guān)鍵詞】智能交通;大數(shù)據(jù);分析云平臺(tái);技術(shù)探討;分析研究
隨著時(shí)代的發(fā)展和信息技術(shù)水平的提高,大數(shù)據(jù)的發(fā)展已經(jīng)遍布于各行各業(yè),當(dāng)然在交通運(yùn)輸方面也是如此。而且交通運(yùn)輸部因?yàn)檫\(yùn)用了大數(shù)據(jù)分析云平臺(tái),在感知識(shí)別、網(wǎng)絡(luò)傳輸、智能處理以及數(shù)據(jù)挖掘面都有了非常好的效果。而且在重大工程的實(shí)驗(yàn)中,通過(guò)加強(qiáng)對(duì)物聯(lián)網(wǎng)、云計(jì)算等新技術(shù)的研究,還能提高本行業(yè)的信息化技術(shù)水平。
一、大數(shù)據(jù)時(shí)代智能交通系統(tǒng)的優(yōu)劣分析
1、大數(shù)據(jù)時(shí)代改變傳統(tǒng)公共交通管理路徑。大數(shù)據(jù)的特點(diǎn)是內(nèi)容豐富和全面,而且還有自己的傳輸方式,所以不受任何區(qū)域的限制。在傳統(tǒng)的交通管理中,很容易因?yàn)椴煌瑓^(qū)域的信息不夠暢通,導(dǎo)致交通管理的效果不是很好,同時(shí)經(jīng)常出現(xiàn)各種信息丟失的情況。而把大數(shù)據(jù)分析云平臺(tái)的技術(shù)應(yīng)用到交通管理中,不但能很好的完成不同信息的傳遞,而且還能最大限度的利用這些數(shù)據(jù),發(fā)揮他們的作用,提高交通管理的質(zhì)量和效率。2、大數(shù)據(jù)下智能交通的優(yōu)勢(shì)分析。首先,通過(guò)大數(shù)據(jù)分析云平臺(tái)的應(yīng)用,能在很大程度上降低各種費(fèi)用,而且它還能很好的選擇最為行之有效的車輛配置方案,保證道路交通一直處于比較暢通的狀態(tài)。其次,當(dāng)出現(xiàn)各種交通問(wèn)題的時(shí)候,通過(guò)大數(shù)據(jù)的分析能給問(wèn)題的處理和交通的調(diào)度提供良好的基礎(chǔ),提高交通的暢通性。最后,在交通監(jiān)管的系統(tǒng)中,通過(guò)大數(shù)據(jù)分析,還能很好的完成各種事件的預(yù)測(cè),降低失誤的發(fā)生率。3、大數(shù)據(jù)下智能交通的弊端。由于大數(shù)據(jù)的應(yīng)用能提高傳遞信息的效率,也就間接的會(huì)影響到相關(guān)安全隱患問(wèn)題的發(fā)生。例如,在大數(shù)據(jù)下的智能交通,會(huì)因?yàn)橄嚓P(guān)人員的位置以及路線信息造成丟失,就會(huì)間接的給人們的生命財(cái)產(chǎn)造成威脅。除此之外,每個(gè)地方都有交通數(shù)據(jù),而這些數(shù)據(jù)還能被大數(shù)據(jù)管理和應(yīng)用,而很多車輛計(jì)算交通數(shù)據(jù)都是以靜態(tài)方式存儲(chǔ),所以使系統(tǒng)所具備的特點(diǎn)無(wú)法被除本人以外的事物進(jìn)行檢索。
二、智能大數(shù)據(jù)的融合
1、關(guān)于成熟度的融合。在新時(shí)期下,無(wú)論是大數(shù)據(jù)的應(yīng)用技術(shù)還是現(xiàn)代智能交通的技術(shù)都發(fā)展的非常速度,而且也越來(lái)越成熟。在現(xiàn)代化的社會(huì)中,無(wú)論是智能卡扣電子警察還是智能監(jiān)控系統(tǒng),都已經(jīng)對(duì)處理的技術(shù)進(jìn)行了智能化的應(yīng)用,而且完整度和深度也在慢慢的加深。所以在這種情況下,大數(shù)據(jù)時(shí)代下智能交通很有可能成為新興的應(yīng)用領(lǐng)域中最先推廣和運(yùn)用的領(lǐng)域。2、關(guān)于技術(shù)的融合分析。就目前的大數(shù)據(jù)分析云計(jì)算平臺(tái)來(lái)說(shuō),這項(xiàng)技術(shù)的應(yīng)用結(jié)構(gòu)和智能交通的平臺(tái)系統(tǒng)結(jié)構(gòu)融合度是非常高的,而且的大數(shù)據(jù)分析云平臺(tái)技術(shù)在智能交通領(lǐng)域中的應(yīng)用,給社會(huì)帶來(lái)了很大的好處和效應(yīng)。所以說(shuō),這項(xiàng)技術(shù)可以作為整個(gè)智能建設(shè)中的領(lǐng)導(dǎo)者,帶領(lǐng)其他的子模塊進(jìn)行很好發(fā)展。3、關(guān)于群眾基礎(chǔ)的分析。對(duì)智能交通來(lái)說(shuō),智能交通面向的服務(wù)群里就是人民大眾,廣大人民群眾來(lái)說(shuō),智能交通直接影響著人們的出行,給人們帶來(lái)非常方面的出行信息,在很大程度上方便了人們的出行,而且也降低了整城市的運(yùn)營(yíng)成本。更重要的是,人民群眾的生活也越來(lái)越有秩序,也會(huì)給交通執(zhí)法人員降低出勤的頻率。
三、云平臺(tái)技術(shù)特點(diǎn)的分析
1、可以有效的整合交通大量的數(shù)據(jù)信息資源。云平臺(tái)計(jì)算技術(shù)最大的額特點(diǎn)就是能很好的整合數(shù)據(jù)信息,將不同系統(tǒng)的信息資源,交通對(duì)象信息資源以及和交通工具信息資源等有效的分類和整理,同時(shí)還能利用大數(shù)據(jù)分析處理技術(shù),解決大量信息的時(shí)效性。2、可以提高交通數(shù)據(jù)信息的利用率,將數(shù)據(jù)信息發(fā)輝出最大的價(jià)值。因?yàn)樵朴?jì)算最大的特點(diǎn)就是整合數(shù)據(jù),所以在智能交通的中運(yùn)用這項(xiàng)技術(shù),能在很大程度上幫助交通部門提取非常有用的信息資源,而且通過(guò)描述交通的情況,還能將數(shù)據(jù)信息發(fā)揮出它最大的價(jià)值,充分的將交通數(shù)據(jù)利用了起來(lái)。最后在通過(guò)大數(shù)據(jù)的應(yīng)用技術(shù),還能更好的優(yōu)化信息的數(shù)據(jù),提高云計(jì)算的分析能力。3、可以多維度的實(shí)時(shí)傳輸,提供個(gè)性化服務(wù)。在大數(shù)據(jù)下時(shí)代下,隨著時(shí)代的發(fā)展和信息技術(shù)水平的提高,并通過(guò)云平臺(tái)的利用,可以將路況信息通過(guò)電腦、電話等多種渠道進(jìn)行傳輸,而且保證傳輸?shù)膬?nèi)容是實(shí)時(shí)的、真實(shí)的和準(zhǔn)確的,給人們提高非常好的個(gè)性化交通信息服務(wù)。最終實(shí)現(xiàn)道路交通管理的質(zhì)量和高效。
傳統(tǒng)信息系統(tǒng)對(duì)數(shù)據(jù)的創(chuàng)建和使用的依據(jù)僅建立在業(yè)務(wù)流程和業(yè)務(wù)模型的基礎(chǔ)上,實(shí)現(xiàn)底層業(yè)務(wù)關(guān)系數(shù)據(jù)的增刪查改基礎(chǔ)操作,而對(duì)海量數(shù)據(jù)、對(duì)不同類型和范疇數(shù)據(jù)的價(jià)值提取卻存在不少的缺陷。與之相比,基于數(shù)學(xué)分析理論的數(shù)據(jù)分析技術(shù)側(cè)重于海量數(shù)據(jù)處理,跳出傳統(tǒng)信息系統(tǒng)的形式約束,可對(duì)已收集到的數(shù)據(jù)進(jìn)行進(jìn)_步統(tǒng)計(jì)分析和挖掘,從而獲取這些數(shù)據(jù)更深層的意義或規(guī)律,更深入發(fā)掘數(shù)據(jù)背后的隱藏價(jià)值,能進(jìn)一步提高信息利用率,提高數(shù)據(jù)效益。
如今,傳統(tǒng)信息系統(tǒng)已逐漸無(wú)法滿足對(duì)大數(shù)據(jù)的處理需求,中國(guó)的互聯(lián)網(wǎng)、政府、金融、通訊等行業(yè)和企業(yè)都在逐步深入和逐步拓展對(duì)大數(shù)據(jù)和數(shù)據(jù)分析技術(shù)的應(yīng)用,從結(jié)構(gòu)化數(shù)據(jù)到半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),以充分挖掘各行業(yè)數(shù)據(jù)的表層及潛在或隱藏的價(jià)值。同樣,近年來(lái),隨著電力行業(yè)的信息化不斷推廣和深入,諸如電力營(yíng)銷管理、營(yíng)配信息集成、GIS、資產(chǎn)管理等大型、復(fù)雜業(yè)務(wù)系統(tǒng)的建設(shè)和廣泛投運(yùn),使得各層面的電網(wǎng)單位均面臨著對(duì)諸如電費(fèi)詳單、用戶分布、業(yè)務(wù)峰谷、服務(wù)器性能、存儲(chǔ)數(shù)據(jù)等方面的巨大數(shù)據(jù)量的處理和管理上的難題,加之相對(duì)于金融、通訊等行業(yè),電力行業(yè)的業(yè)務(wù)和用戶數(shù)據(jù)的變化性和多樣性較低,在價(jià)值提取方面更具難度,需要尋求適應(yīng)企業(yè)自身需求的數(shù)據(jù)分析技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行更有效的統(tǒng)計(jì)、挖掘或預(yù)測(cè)。
1電力行業(yè)信息系統(tǒng)現(xiàn)狀和數(shù)據(jù)分析需求一般情況下,基于信息系統(tǒng)的各項(xiàng)業(yè)務(wù)均存在峰谷分布特性,即在某_時(shí)段會(huì)集中發(fā)生大量業(yè)務(wù)操作,此時(shí)用戶訪問(wèn)量大、操作數(shù)多、服務(wù)器資源消耗高、網(wǎng)絡(luò)帶寬占用大、數(shù)據(jù)庫(kù)讀寫頻繁;反之,在另一時(shí)段則是業(yè)務(wù)低谷期,此時(shí)很少外部用戶訪問(wèn)業(yè)務(wù)系統(tǒng),可分配服務(wù)器的一部分計(jì)算資源進(jìn)行數(shù)據(jù)整理或備份操作。
應(yīng)用系統(tǒng)層面上,根據(jù)電力營(yíng)銷系統(tǒng)的歷史業(yè)務(wù)記錄,可以看出,在用戶繳費(fèi)方面,本地供電局每月的用戶繳費(fèi)行為大體上集中出現(xiàn)在當(dāng)月的第一周之后因此供電局需在用戶繳費(fèi)前完成大量的電費(fèi)計(jì)算、核查和發(fā)行操作以確保用戶可以順利完成繳費(fèi)。
服務(wù)器運(yùn)維層面上,服務(wù)器計(jì)算資源的消耗與應(yīng)用系統(tǒng)業(yè)務(wù)使用量成正相關(guān)關(guān)系,業(yè)務(wù)繁忙程度越高,服務(wù)器出現(xiàn)資源異常的可能性就越大,所以保障服務(wù)器正常運(yùn)轉(zhuǎn)的需求也越高。以電力營(yíng)銷系統(tǒng)為例,其系統(tǒng)架構(gòu)總體上采用客戶機(jī)一負(fù)載均衡設(shè)備一應(yīng)用服務(wù)器一數(shù)據(jù)庫(kù)集群一存儲(chǔ)設(shè)備的結(jié)構(gòu)建設(shè),其中數(shù)據(jù)庫(kù)的IO、日志文件同步等指標(biāo)可在一定程度上反映出當(dāng)前業(yè)務(wù)量情況所示為某月各工作日對(duì)數(shù)據(jù)庫(kù)3個(gè)性能指標(biāo)的執(zhí)行等待時(shí)間統(tǒng)計(jì),可以看出,從該月第二周開(kāi)始逐步出現(xiàn)一定程度的數(shù)值升高,此處反映該時(shí)段內(nèi)集中出現(xiàn)的客戶繳費(fèi)行為,引起數(shù)據(jù)庫(kù)讀寫量和事務(wù)量上升,從而增加了事務(wù)的等待時(shí)間。
另外,服務(wù)器硬件發(fā)生故障的概率雖然大體上隨著設(shè)備使用時(shí)長(zhǎng)的增長(zhǎng)而提高,但某些情況也會(huì)存在一定的偶然性和突發(fā)性。當(dāng)在業(yè)務(wù)過(guò)程中出現(xiàn)硬件故障,尤其是在業(yè)務(wù)高峰期,會(huì)出現(xiàn)較為嚴(yán)重的影響,這也要求運(yùn)維人員對(duì)業(yè)務(wù)高峰有一定的估測(cè)能力以及對(duì)設(shè)備故障有足夠快的響應(yīng)速度。
綜上,不論是面向客戶的行業(yè)主營(yíng)業(yè)務(wù),還是內(nèi)部的服務(wù)器性能消耗和信息系統(tǒng)曰常使用,各項(xiàng)數(shù)據(jù)都在各方面存在一定的規(guī)律性特點(diǎn)或互相關(guān)聯(lián)的因素,這不僅對(duì)上述的業(yè)務(wù)量或服務(wù)器性能統(tǒng)計(jì)來(lái)說(shuō)如此,對(duì)行業(yè)內(nèi)的各類具體數(shù)據(jù)同樣適用。然而,目前對(duì)這些數(shù)據(jù)的利用往往只停留在表層的增刪查改操作上,并不能很好地抽象出其中的特征或模式,造成信息利用率的下降。電力行業(yè)的數(shù)據(jù)具有數(shù)據(jù)量大、類型多、價(jià)值高的特點(diǎn),對(duì)控制管理和企業(yè)盈利的影響甚多,有專家分析稱,數(shù)據(jù)利用率每提高10°%,電網(wǎng)的利潤(rùn)則可提高20°%~49°%。為了適應(yīng)大數(shù)據(jù)的逐步普及、適應(yīng)企業(yè)的改革與轉(zhuǎn)型、滿足新階段對(duì)信息技術(shù)的要求,亟需尋求合適的技術(shù)充分利用這些數(shù)據(jù),實(shí)現(xiàn)對(duì)變化趨勢(shì)的預(yù)測(cè)和拓展企業(yè)核心能力、提高企業(yè)經(jīng)濟(jì)效益的目的。2數(shù)據(jù)分析技術(shù)在電力行業(yè)的應(yīng)用常用的數(shù)據(jù)分析方法包括聚類分析、相關(guān)分析、回歸分析等涉及統(tǒng)計(jì)學(xué)和概率論的理論,目前市面常用的數(shù)據(jù)分析軟件有SPSS、Stata、SAS、R、Matlab等系統(tǒng),分別適用于不同專業(yè)程度的應(yīng)用場(chǎng)景。
如今各行業(yè)已開(kāi)始探索和采用這些技術(shù)來(lái)處理與行業(yè)自身相關(guān)的各項(xiàng)數(shù)據(jù),例如對(duì)根據(jù)時(shí)間和話費(fèi)等指標(biāo)分析移動(dòng)通信客戶的消費(fèi)行為[2]、利用收集的資料分析及發(fā)現(xiàn)銀行零售業(yè)務(wù)的潛在客戶[3]、利用關(guān)聯(lián)分析等方法評(píng)價(jià)病人病因、處方及藥物副作用[4]等,同樣,在電力行業(yè),可以從客戶用電量、用電時(shí)間、客戶分類和分布狀況、季節(jié)和氣候變化、政府法規(guī)政策、信息系統(tǒng)使用情況、計(jì)算和存儲(chǔ)資源消耗狀態(tài)等各項(xiàng)指標(biāo)著手進(jìn)行分析,實(shí)現(xiàn)相同或類似的目的。
利用數(shù)據(jù)分析技術(shù)處理電力行業(yè)數(shù)據(jù),優(yōu)化企業(yè)管理模式,提升企業(yè)經(jīng)營(yíng)水平,其適用場(chǎng)景包括以下方面。
2.1客戶信息分析
類似于通訊行業(yè)的客戶行為和消費(fèi)分析,根據(jù)電力營(yíng)銷的大量的歷史數(shù)據(jù),一是可利用聚類分析的方式,在時(shí)間、空間和客戶性質(zhì)上分析客戶的用電行為和用電規(guī)律,采用手動(dòng)標(biāo)簽類別特征或?qū)?shù)據(jù)特征做自動(dòng)聚類的方法,對(duì)客戶群進(jìn)行不同粒度的細(xì)分,從而可在不同層面制定不同的更具針對(duì)性的營(yíng)銷方案和服務(wù)模式,也可避免供電業(yè)務(wù)的一刀切問(wèn)題;二是可利用關(guān)聯(lián)分析的方式,統(tǒng)計(jì)收集到的可能與客戶用電存在影響關(guān)系的電價(jià)、氣候、環(huán)境、政策、交通等因素,提取這些因素與客戶用電數(shù)據(jù)的相關(guān)性,找出對(duì)其存在顯著影響性的成分,并據(jù)此優(yōu)化客戶的用電需求預(yù)測(cè)模型,從而通過(guò)多維的因素對(duì)市場(chǎng)和業(yè)務(wù)進(jìn)行分析和預(yù)判,也可實(shí)現(xiàn)避免客戶流失和發(fā)掘潛在客戶的目的。
2.2業(yè)務(wù)服務(wù)質(zhì)量提升
目前,電力業(yè)務(wù)普遍只為客戶提供基礎(chǔ)性的供電服務(wù),僅確??蛻裟軌蛘S秒?。而隨著企業(yè)的改革和轉(zhuǎn)型,更大的需求是以客戶為中心,從客戶體驗(yàn)出發(fā),提供更為全面和豐富的電力增值服務(wù),可從地區(qū)、行業(yè)、客戶等不同層面的用電明細(xì)歷史數(shù)據(jù)提取出各自的用電規(guī)律和特殊需求,制定合理、優(yōu)化的營(yíng)銷方案或業(yè)務(wù)套餐,或讓客戶根據(jù)自身的用電行為和趨勢(shì)調(diào)整相應(yīng)的用電方案,提高客戶的用電效益。
2.3協(xié)助優(yōu)化丨DC資源
如前文所述,信息系統(tǒng)的資源使用量往往取決于其業(yè)務(wù)的使用情況。對(duì)于營(yíng)銷系統(tǒng),可從大量的客戶繳費(fèi)時(shí)間、繳費(fèi)數(shù)量和對(duì)應(yīng)的服務(wù)器資源使用記錄中擬合出服務(wù)器資源隨時(shí)間變化的占用曲線,并根據(jù)實(shí)際情況進(jìn)行適當(dāng)?shù)臉I(yè)務(wù)窗口或后臺(tái)數(shù)據(jù)處理窗口調(diào)整,在確保業(yè)務(wù)正常進(jìn)行的前提下降低業(yè)務(wù)高峰和提高空閑時(shí)段的資源利用率,此外,對(duì)業(yè)務(wù)量和數(shù)據(jù)存儲(chǔ)量的綜合測(cè)算,可對(duì)系統(tǒng)的存儲(chǔ)資源占用量趨勢(shì)做出更為準(zhǔn)確的短期和中期預(yù)測(cè),避免存儲(chǔ)資源池的短缺或浪費(fèi)問(wèn)題;類似地,對(duì)于企業(yè)門戶、辦公自動(dòng)化、人力資源等內(nèi)部業(yè)務(wù)系統(tǒng),用戶訪問(wèn)量分布和各端點(diǎn)間的數(shù)據(jù)交互數(shù)量則是影響其服務(wù)器計(jì)算和存儲(chǔ)資源使用的主要因素,也是形成對(duì)服務(wù)器的采購(gòu)、運(yùn)維和升級(jí)的具體需求的來(lái)源之一。
2.4營(yíng)銷稽查數(shù)據(jù)的進(jìn)一步分析
本地供電局于2013年建成在線稽查業(yè)務(wù)精益化管理平臺(tái),投運(yùn)至今成效明顯,其中部分重要規(guī)則共篩查差錯(cuò)樣本2000多個(gè),糾錯(cuò)挽回或減少經(jīng)濟(jì)損失約450萬(wàn)元,為營(yíng)銷稽查工作、營(yíng)銷業(yè)務(wù)單位自我診斷、風(fēng)險(xiǎn)管控提供了強(qiáng)有力的支持。在此基礎(chǔ)上,根據(jù)對(duì)差錯(cuò)數(shù)據(jù)的數(shù)量、區(qū)段、等級(jí)、來(lái)源的分析,結(jié)合營(yíng)銷客戶信息分析,可推斷差錯(cuò)的性質(zhì)、原因和客戶用電行為、營(yíng)銷方案、收費(fèi)操作之間的聯(lián)系程度,趨利避害,進(jìn)一步規(guī)避問(wèn)題數(shù)據(jù)乃至偷電行為的出現(xiàn)。
2.5為電力基礎(chǔ)設(shè)施建設(shè)提供支持
電力基礎(chǔ)設(shè)施的選址往往需要以大量的前期調(diào)研為依據(jù),其影響涉及地區(qū)性質(zhì)、行業(yè)分布、人員密集程度、交通流量、氣候條件等社會(huì)環(huán)境因素,此外,隨著社會(huì)發(fā)展和城市建設(shè),若干已有的線路規(guī)劃、高壓桿塔、變壓器,乃至變電站、發(fā)電設(shè)施都可能成為發(fā)展阻礙成分,進(jìn)行改建則需進(jìn)一步花費(fèi)人力財(cái)力。通過(guò)對(duì)相關(guān)數(shù)據(jù)的分析,可以預(yù)測(cè)當(dāng)?shù)氐碾娏κ褂昧亢桶l(fā)展趨勢(shì)為基建選址提供更多的客觀的參考依據(jù)。
數(shù)據(jù)分析技術(shù)對(duì)電力行業(yè)信息數(shù)據(jù)的應(yīng)用并不只局限于上述的若干場(chǎng)景,在未來(lái)的信息技術(shù)發(fā)展過(guò)程中,各個(gè)信息系統(tǒng)、業(yè)務(wù)線條、電力運(yùn)營(yíng)單位之間的數(shù)據(jù)界限將逐漸淡化,形成具有更高關(guān)聯(lián)度的大數(shù)據(jù)整體,而大數(shù)據(jù)技術(shù)也會(huì)得到更廣泛的應(yīng)用。
3結(jié)語(yǔ)
關(guān)鍵詞:環(huán)渤海經(jīng)濟(jì)圈;面板數(shù)據(jù);技術(shù)創(chuàng)新;FDI
1 引言
當(dāng)前,環(huán)渤海經(jīng)濟(jì)圈的產(chǎn)業(yè)結(jié)構(gòu)還是以勞動(dòng)密集型和資金密集型為主,缺乏較短時(shí)間內(nèi)能趕上發(fā)達(dá)國(guó)家所需的財(cái)力和更先進(jìn)的技術(shù)。所以,發(fā)展高新技術(shù)產(chǎn)業(yè),走自主創(chuàng)新與引進(jìn)、消化、吸收并舉的道路勢(shì)在必行。
本文旨在通過(guò)環(huán)渤海經(jīng)濟(jì)圈中各省市技術(shù)創(chuàng)新能力的分析,找出差距,為其今后的創(chuàng)新之路提出一些建議。筆者主要通過(guò)研究FDI這一關(guān)鍵因素對(duì)其技術(shù)創(chuàng)新能力的影響來(lái)進(jìn)行面板數(shù)據(jù)分析。
2 FDI對(duì)技術(shù)創(chuàng)新能力的影響分析
2.1 數(shù)據(jù)來(lái)源和模型設(shè)定
盡管本文考察的是技術(shù)創(chuàng)新能力與之間的相關(guān)關(guān)系,但由于理論模型是在假定其他因素不變的情況下推導(dǎo)得來(lái)的。因此在做實(shí)證分析時(shí),其他經(jīng)濟(jì)變量不滿足模型的隱含前提或重要的解釋變量被遺漏,估計(jì)的結(jié)論就會(huì)大受影響。因此,筆者把R&D內(nèi)部支出和人員全時(shí)當(dāng)量作為控制變量引入模型中進(jìn)行探討。
筆者選取環(huán)渤海經(jīng)濟(jì)圈(北京,遼寧,天津,河北,山西,內(nèi)蒙古,山東)2004-2009年共6年的數(shù)據(jù)來(lái)估計(jì)FDI對(duì)環(huán)渤海經(jīng)濟(jì)圈各省市技術(shù)創(chuàng)新能力的影響。各地區(qū)專利申請(qǐng)受理數(shù),R&D內(nèi)部支出和人員全時(shí)當(dāng)量,取自2004-2009各年的《中國(guó)科技統(tǒng)計(jì)年鑒》。模型的核心變量FDI取自《中國(guó)統(tǒng)計(jì)年鑒》各地年末登記的外商投資企業(yè)投資額。
研究FDI對(duì)專利申請(qǐng)數(shù)量的影響效應(yīng)要構(gòu)造一個(gè)與生產(chǎn)函數(shù)類似的創(chuàng)新產(chǎn)出函數(shù)。再將其取對(duì)數(shù),構(gòu)造得出模型的基本形式表述為:
1ny=c+a1nfdi+β1nrdi+γ1nrdp。
其中,因變量Y分別用環(huán)渤海經(jīng)濟(jì)圈各省市總專利申請(qǐng)受理數(shù),發(fā)明專利申請(qǐng)受理數(shù)、實(shí)用新型專利申請(qǐng)受理數(shù)和外觀設(shè)計(jì)專利申請(qǐng)受理數(shù)來(lái)表示,作為衡量環(huán)渤海經(jīng)濟(jì)圈各省市技術(shù)創(chuàng)新能力的替代指標(biāo)。RDI用于表示R&D內(nèi)部支出,RDP用于表示R&D人員全時(shí)當(dāng)量。
2.2 面板數(shù)據(jù)模型的選擇
經(jīng)過(guò)EVIEWS5.0面板數(shù)據(jù)模型的操作,模型中F2的估計(jì)值32大于顯著水平1%下的臨界值水平3.78模型中F1的估計(jì)值3.52小于臨界值水平3.86可見(jiàn)這個(gè)模型形式設(shè)定檢驗(yàn)是拒絕H2,接受H1。并且,經(jīng)過(guò)Hausman檢驗(yàn),伴隨概率1.00,模型無(wú)法拒絕個(gè)體影響與解釋變量不相關(guān)的影響。綜上,需要建立技術(shù)創(chuàng)新能力的隨機(jī)影響變截距模型。同理,三種類型專利申請(qǐng)受理的模型也按這種分析方法進(jìn)行。
環(huán)渤海經(jīng)濟(jì)圈各省市技術(shù)創(chuàng)新能力與FDI的關(guān)系模型形式為:
效應(yīng)隨機(jī)隨機(jī)隨機(jī)隨機(jī)
2.3 面板數(shù)據(jù)模型分析
從表1中可以看出,四個(gè)模型總體的估計(jì)效果較好。對(duì)專利申請(qǐng)數(shù)影響最大的因素還是FDI,這種影響的回歸結(jié)果都顯著為正。從表中還可看出,這三個(gè)變量中,F(xiàn)DI對(duì)專利申請(qǐng)受理數(shù)的影響最大,彈性系數(shù)高達(dá)0.399。R&D內(nèi)部支出的影響次之,彈性系數(shù)位0.164。R&D人員全時(shí)當(dāng)量的影響不顯著,未通過(guò)t檢驗(yàn),說(shuō)明研發(fā)人員數(shù)量的增加對(duì)環(huán)渤海經(jīng)濟(jì)圈各省市專利申請(qǐng)數(shù)量提高的作用并不明顯。綜上可得,專利申請(qǐng)數(shù)量的提高,更多的是依賴于來(lái)自外資企業(yè)的溢出效應(yīng)。
雖然FDI對(duì)環(huán)渤海經(jīng)濟(jì)圈各省市的技術(shù)創(chuàng)新能力提升有一定的促發(fā)效應(yīng),但是FDI的進(jìn)入并不能帶來(lái)其核心技術(shù)創(chuàng)新能力的實(shí)質(zhì)性提升。從計(jì)量分析結(jié)果可以看出,F(xiàn)DI對(duì)外觀設(shè)計(jì)專利影響有顯著的促進(jìn)作用,F(xiàn)DI每增加1%,外觀設(shè)計(jì)專利數(shù)就增加0.817%。外觀設(shè)計(jì)是三種專利中最為簡(jiǎn)單的創(chuàng)新,體現(xiàn)外商直接投資的技術(shù)示范效應(yīng)和模仿效應(yīng),說(shuō)明環(huán)渤海經(jīng)濟(jì)圈各省市總體上的技術(shù)創(chuàng)新還只處在簡(jiǎn)單模仿產(chǎn)品的外觀設(shè)計(jì)及包裝的程度上。FDI對(duì)發(fā)明專利和實(shí)用新型專利的影響與之差距很大。以上這些說(shuō)明,環(huán)渤海經(jīng)濟(jì)圈的各省市往往處于價(jià)值鏈的低端,只是進(jìn)行加工生產(chǎn),難以獲得核心技術(shù)。
另外,R&D內(nèi)部支出的增加對(duì)發(fā)明專利的影響最大,每增加1%,發(fā)明專利數(shù)增加0.351%。其次為對(duì)實(shí)用新型專利數(shù)的影響,每增加1%,實(shí)用新型專利數(shù)增加0.142%。
而其對(duì)外觀設(shè)計(jì)專利數(shù)的影響并不顯著。R&D人員全時(shí)當(dāng)量對(duì)這三種專利申請(qǐng)數(shù)的影響都不顯著。
模型中,隨機(jī)影響截距表示的是排除掉FDI對(duì)技術(shù)創(chuàng)新能力的影響,各省市技術(shù)創(chuàng)新能力的狀況,可以理解成封閉環(huán)境下的基礎(chǔ)技術(shù)創(chuàng)新能力??梢园l(fā)現(xiàn)基礎(chǔ)技術(shù)創(chuàng)新能力最高的是山東,遠(yuǎn)遠(yuǎn)高于其他省市;最低的是內(nèi)蒙古。由此看出,環(huán)渤海經(jīng)濟(jì)圈各省市創(chuàng)新能力差距很大。
3 關(guān)于環(huán)渤海經(jīng)濟(jì)圈技術(shù)創(chuàng)新能力提升的幾點(diǎn)建議
第一,通過(guò)FDI對(duì)專利申請(qǐng)受理的影響模型,二者之間的彈性系數(shù)較高。這說(shuō)明,F(xiàn)DI的進(jìn)入對(duì)各省市技術(shù)創(chuàng)新能力提升存在著一定的促發(fā)效應(yīng)。它對(duì)本土人才的培養(yǎng),企業(yè)管理水平的提升,知識(shí)技術(shù)的傳播和擴(kuò)散發(fā)揮積極的影響。因此,應(yīng)進(jìn)一步發(fā)揮FDI的積極作用,通過(guò)鼓勵(lì)企業(yè)、科研院所、高校等機(jī)構(gòu)與外資企業(yè)進(jìn)行各種形式的深層次合作,進(jìn)行產(chǎn)學(xué)研合作,進(jìn)一步發(fā)揮其溢出和擴(kuò)散效應(yīng),促進(jìn)技術(shù)創(chuàng)新能力的提升。
第二,從FDI對(duì)三種類型專利的影響程度,發(fā)現(xiàn)其對(duì)外觀設(shè)計(jì)專利數(shù)的影響最大。這說(shuō)明FDI不能帶來(lái)其核心技術(shù)創(chuàng)新能力的實(shí)質(zhì)提升。因此,不要一味地認(rèn)為FDI引入越多越好,應(yīng)把重點(diǎn)轉(zhuǎn)向國(guó)際研發(fā)型產(chǎn)業(yè)或高新技術(shù)產(chǎn)業(yè)。走自主創(chuàng)新,引進(jìn)消化吸收再創(chuàng)新的道路是大勢(shì)所趨。
第三,從四個(gè)模型看,R&D人員全時(shí)當(dāng)量對(duì)技術(shù)創(chuàng)新能力的影響都不顯著。這說(shuō)明河北省科研人員的效率不高,對(duì)技術(shù)創(chuàng)新的作用未達(dá)到預(yù)期的效果。所以就應(yīng)加大財(cái)力物力的投入,在高新技術(shù)開(kāi)發(fā)區(qū)內(nèi)培養(yǎng)一批優(yōu)秀的科技開(kāi)發(fā)隊(duì)伍,并要積極完善人員的激勵(lì)機(jī)制和經(jīng)費(fèi)的投入機(jī)制。
第四,從模型中的隨機(jī)影響截距可以看出,各省市的技術(shù)創(chuàng)新能力差距很大,呈現(xiàn)不平衡發(fā)展。一方面,落后城市要向周圍的先進(jìn)城市學(xué)習(xí),抓住地理優(yōu)勢(shì),善于吸收先進(jìn)城市的技術(shù)和經(jīng)驗(yàn),并善于利用周圍城市人力和物力等資源。另一方面,先進(jìn)城市可以形成擴(kuò)散效應(yīng),加大對(duì)落后城市的土地能源的需求。
參考文獻(xiàn)
[1]韓忠亮,朱敏.中國(guó)區(qū)域經(jīng)濟(jì)發(fā)展戰(zhàn)略研究——環(huán)渤海經(jīng)濟(jì)圈發(fā)展研究報(bào)告[J].新經(jīng)濟(jì)研究,2009,(7):37.
[2]劉星,趙紅.外商直接投資對(duì)我國(guó)自主創(chuàng)新能力影響的實(shí)證研究[J].管理世界,2009,(6):70.
伴隨社會(huì)不斷的進(jìn)步和物質(zhì)需求與精神文明的逐步提高以及日臻成熟和完善的建筑施工技術(shù)水平[1],同時(shí),也因日益增多的人口與土地資源的矛盾,高層建筑物越來(lái)越多[2]。
為了對(duì)建筑的安全性能提供嚴(yán)格保障,產(chǎn)生了針對(duì)高層建筑物的變形觀測(cè)。所謂建筑物的變形觀測(cè)就是對(duì)建筑物本身的水平位移觀測(cè)、沉降觀測(cè)、傾斜觀測(cè)等等。沉降觀測(cè)的意義是:能夠有效的為工程施工質(zhì)量和地基基礎(chǔ)設(shè)計(jì)質(zhì)量的評(píng)估提供依據(jù),并能及時(shí)的反映出建筑體建造過(guò)程中隨著負(fù)荷的增加,和地基附加壓力的增大,其豎向壓縮變形的沉降從零開(kāi)始直至沉降穩(wěn)定的變化情況。因此,工程施工過(guò)程中對(duì)建筑物進(jìn)行沉降觀測(cè)[4],具有非常重要的作用。
1 沉降觀測(cè)原理與方法
1.1 建筑物沉降的原因
1.1.1 施工誤差引起的變形
在建筑物的施工過(guò)程中,出現(xiàn)因施工誤差而造成建筑物的荷載分布與預(yù)計(jì)分布不均勻的情況是不可避免的,這種細(xì)微的差錯(cuò)就會(huì)導(dǎo)致建筑發(fā)生形變[5]。
1.1.2 建筑物的合理變形
在建筑物施工和運(yùn)營(yíng)階段,其自身結(jié)構(gòu)形態(tài)造成荷載分布不均勻會(huì)導(dǎo)致建筑物發(fā)生形變。
1.1.3 外部因素
隨著建筑物的建設(shè),由于建筑物的荷載不斷增加,其地基土在壓力的作用下被不斷壓實(shí),體積縮小,從而引起建筑的沉降變形。
1.2 沉降觀測(cè)原理
沉降觀測(cè)(亦稱沉陷觀測(cè))是變形觀測(cè)中用得最多的,它是指對(duì)所設(shè)置的觀測(cè)點(diǎn)進(jìn)行持續(xù)的垂直位移觀測(cè),根據(jù)工程特點(diǎn)分階段地得出沉降觀測(cè)成果,據(jù)此推斷或驗(yàn)證工程實(shí)施的可靠程度[6]。
變形觀測(cè)中沉降觀測(cè)極為重要。沉降觀測(cè)作業(yè)簡(jiǎn)單但精度要求高,它不僅能提供沉降量,還可以推算建筑物的傾斜以及水平構(gòu)件的撓度等。工程建筑物從施工開(kāi)始到竣工,以及建成運(yùn)營(yíng)后很長(zhǎng)一段時(shí)間,沉降是不可避免的。沉降在一定的限度之內(nèi)屬正?,F(xiàn)象,但一旦超過(guò)某一限度[7],就會(huì)危及建筑物的安全。
1.3 沉降觀測(cè)方法
沉降觀測(cè)的方法有:水準(zhǔn)測(cè)量方法、三角高程測(cè)量方法、數(shù)字?jǐn)z影測(cè)量方法、InSAR方法、GPS方法、地面沉降監(jiān)測(cè)站(基巖標(biāo)和分層標(biāo)組)、地下水動(dòng)態(tài)監(jiān)測(cè)等[8]。
2 高層建筑沉降觀測(cè)實(shí)例
2.1 工程概況
該項(xiàng)目占地面積為67854.09m2,建筑結(jié)構(gòu)形式為框架剪力墻結(jié)構(gòu),地基類型為樁基基礎(chǔ)。建筑設(shè)計(jì)單位為西南設(shè)計(jì)院,建筑施工單位為成都建工5公司;設(shè)計(jì)用途為住宅,層數(shù)為25。
2.2 觀測(cè)點(diǎn)的布設(shè)和觀測(cè)
2.2.1 觀測(cè)點(diǎn)的布設(shè)
在建筑物的四角、大轉(zhuǎn)角及建筑物的外墻每10-20m處或每隔2-3根柱基上布設(shè)沉降觀測(cè)點(diǎn)。市場(chǎng)營(yíng)銷同時(shí)在高低建筑物、縱橫墻交界處、建筑物裂縫或沉降縫兩側(cè)、框架結(jié)構(gòu)建筑物部分基柱上設(shè)置觀測(cè)點(diǎn)。間距大約15m,地質(zhì)復(fù)雜以及膨脹土質(zhì)的建筑物,在承重內(nèi)隔墻中部設(shè)內(nèi)墻點(diǎn)。片伐基礎(chǔ)、箱型基礎(chǔ)底板或接近基礎(chǔ)的結(jié)構(gòu)部分之四角處及中部位置設(shè)置觀測(cè)點(diǎn)。
根據(jù)建筑物結(jié)構(gòu)及基礎(chǔ)吃力層特點(diǎn),擬在建筑物主題布設(shè)12個(gè)沉降觀測(cè)點(diǎn),如圖1所示:
2.2.2 沉降觀測(cè)
采用天寶生產(chǎn)的DINI03電子水準(zhǔn)儀及相應(yīng)的銦瓦水準(zhǔn)尺和尺墊按照二級(jí)水準(zhǔn)觀測(cè)精度,從基準(zhǔn)點(diǎn)開(kāi)始組成閉合、附合或結(jié)合水準(zhǔn)路線進(jìn)行觀測(cè)。
2.2.3 沉降觀測(cè)的周期
施工過(guò)程中3#樓每3層觀測(cè)1次,封頂后每2-3個(gè)月觀測(cè)1次,在主體竣工驗(yàn)收(靜荷載加載完畢)時(shí)如沉降數(shù)據(jù)達(dá)到《建筑變形測(cè)量規(guī)程》規(guī)定的穩(wěn)定標(biāo)準(zhǔn),可停止觀測(cè),否則應(yīng)繼續(xù)進(jìn)行觀測(cè)工作,直至達(dá)到穩(wěn)定標(biāo)準(zhǔn)為止。
3 沉降觀測(cè)數(shù)據(jù)綜合分析
圖2詳細(xì)記錄了從第1期到第12期的各個(gè)觀測(cè)點(diǎn)的高程數(shù)據(jù),從表中可以看出隨著建筑物的逐漸修建過(guò)程中,各個(gè)觀測(cè)點(diǎn)的高程數(shù)據(jù)的值是在成逐漸減小的趨勢(shì),說(shuō)明建筑體在發(fā)生沉降變化,也說(shuō)明整個(gè)建筑的變化狀態(tài)是符合理論實(shí)際研究的。
曲線在首次觀測(cè)后即發(fā)生回升現(xiàn)象。產(chǎn)生這種現(xiàn)象的原因,一方面,可能是初測(cè)精度不高;另一方面,也可能是施工區(qū)內(nèi)降水變化引起的;如果是施工區(qū)內(nèi)降水變化引起的,則屬正?,F(xiàn)象。 如果是因?yàn)槌鯗y(cè)精度不高所引起的,曲線回升超過(guò)5mm,應(yīng)將第一次觀測(cè)成果作廢,而采用第二次觀測(cè)成果作為首測(cè)成果,如曲線回升在5mm之內(nèi),則可調(diào)整初測(cè)標(biāo)高與第二次觀測(cè)標(biāo)高一致。
曲線的波浪起伏現(xiàn)象。曲線在后期呈現(xiàn)波浪起伏現(xiàn)象,此現(xiàn)象在沉降觀測(cè)中最常遇到,常常是測(cè)量誤差所造成的。曲線在前期波浪起伏所以不突出,是因建筑物下沉量大于測(cè)量誤差之故,但到后期,由于建筑物下沉極微或已接近穩(wěn)定,因此在曲線上就出現(xiàn)測(cè)量誤差比較突出的現(xiàn)象。處理這種現(xiàn)象時(shí),應(yīng)根據(jù)整個(gè)情況進(jìn)行分析,決定自某點(diǎn)起,將波浪形曲線改成水平線。
曲線自某點(diǎn)起漸漸回升。產(chǎn)生此種現(xiàn)象一般是由于水準(zhǔn)點(diǎn)下沉所致,水準(zhǔn)點(diǎn)是逐漸下沉的,而且沉降較小,但建筑物初期沉降量較大,即當(dāng)建筑物沉降量大于水準(zhǔn)點(diǎn)沉降量時(shí),曲線不發(fā)生回升,到了后期,建筑物下沉逐漸穩(wěn)定,如水準(zhǔn)點(diǎn)繼續(xù)下沉,則曲線就會(huì)發(fā)生逐漸回升現(xiàn)象。因此在選擇或埋設(shè)水準(zhǔn)點(diǎn)時(shí),特別在建筑物上設(shè)置水準(zhǔn)點(diǎn)時(shí),應(yīng)保證其點(diǎn)位的穩(wěn)定性,如已查明確系水準(zhǔn)點(diǎn)下沉的原因,則應(yīng)測(cè)出水準(zhǔn)點(diǎn)的下沉量,以便修正觀測(cè)點(diǎn)的標(biāo)高。
曲線在中間某點(diǎn)突然回升。發(fā)生這種現(xiàn)象的原因,是水準(zhǔn)點(diǎn)或觀測(cè)點(diǎn)被碰動(dòng)所致,當(dāng)水準(zhǔn)點(diǎn)碰動(dòng)后低于被碰動(dòng)前的標(biāo)高及觀測(cè)點(diǎn)被碰動(dòng)后高于被碰動(dòng)前的標(biāo)高時(shí),才會(huì)出現(xiàn)回升現(xiàn)象的可能。由于水準(zhǔn)點(diǎn)或觀測(cè)點(diǎn)被碰動(dòng),其外形必有損傷,比較容易發(fā)現(xiàn)對(duì)這個(gè)問(wèn)題必須進(jìn)行合理的處理,其辦法是:選擇結(jié)構(gòu)、荷重及地質(zhì)等條件都相同的臨近另一沉降觀測(cè)點(diǎn),取該點(diǎn)在同一期間內(nèi)的沉降量,作為被碰動(dòng)觀測(cè)點(diǎn)的沉降量。此法雖不能真正反映觀測(cè)點(diǎn)的沉降量,但如果選擇適當(dāng),可得到比較接近實(shí)際情況的結(jié)果。
關(guān)鍵詞:函數(shù)性數(shù)據(jù);修勻;函數(shù)性主成份分析;資產(chǎn)收益率
中圖分類號(hào):F276.1
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1002―2848―2007(01)-0108―06
一、前 言
在經(jīng)濟(jì)數(shù)據(jù)的傳統(tǒng)定量分析中,所分析的數(shù)據(jù)對(duì)象具有這樣的特征,即數(shù)據(jù)要么是時(shí)間序列數(shù)據(jù),要么是橫截面數(shù)據(jù)。而實(shí)際中獲得的許多經(jīng)濟(jì)數(shù)據(jù),往往是在時(shí)間序列上取多個(gè)截面,再在這些截面上同時(shí)選取樣本觀測(cè)值所構(gòu)成的樣本數(shù)據(jù)。計(jì)量經(jīng)濟(jì)學(xué)中稱這樣的數(shù)據(jù)為“平行數(shù)據(jù)”(Panel Da―ta),也被翻譯成“面板數(shù)據(jù)”,或“縱向數(shù)據(jù)”(longitudinal data)。20多年來(lái),許多學(xué)者研究分析了面板數(shù)據(jù)。事實(shí)上,關(guān)于面板數(shù)據(jù)的研究是計(jì)量經(jīng)濟(jì)學(xué)理論方法的重要發(fā)展之一,它在解決數(shù)據(jù)樣本容量不足、估計(jì)難以度量的因素對(duì)經(jīng)濟(jì)指標(biāo)的影響,以及區(qū)分經(jīng)濟(jì)變量的作用等方面,具有突出優(yōu)點(diǎn)。但是,研究面板數(shù)據(jù)的計(jì)量模型,以線性結(jié)構(gòu)描述變量之間的因果關(guān)系,且模型太過(guò)于依賴諸多的假設(shè)條件,使得方法的應(yīng)用具有一定的局限性。為了彌補(bǔ)面板數(shù)據(jù)的計(jì)量模型分析方法及其它統(tǒng)計(jì)分析方法的缺陷,本文基于經(jīng)濟(jì)數(shù)據(jù)的函數(shù)性特征,介紹一種從函數(shù)視角對(duì)經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析的全新方法一函數(shù)性數(shù)據(jù)分析(Functional Data Analysis,F(xiàn)DA)。
函數(shù)性數(shù)據(jù)分析的概念,始見(jiàn)于加拿大統(tǒng)計(jì)學(xué)家J.O.Ramsay和C.J.Dalzell于1991年發(fā)表的論文《函數(shù)性數(shù)據(jù)分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)將對(duì)函數(shù)性數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的已有理論和方法,總結(jié)在《函數(shù)性數(shù)據(jù)分析》一書(shū)中。但這本書(shū)偏重方法的理論介紹和數(shù)學(xué)推導(dǎo),不利于統(tǒng)計(jì)基礎(chǔ)薄弱者使用。經(jīng)過(guò)5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函數(shù)性數(shù)據(jù)案例,并將其具體的分析過(guò)程編入他們于2002年出版的專著中。雖然國(guó)外在這方面已經(jīng)做了許多研究,也取得了許多有價(jià)值的結(jié)果,但是有關(guān)函數(shù)性數(shù)據(jù)的研究依然處于起步階段,還有很多問(wèn)題需要研究或進(jìn)一步完善。另外,從方法應(yīng)用的具體領(lǐng)域來(lái)看,很少涉及對(duì)經(jīng)濟(jì)函數(shù)性數(shù)據(jù)的分析。就目前研究文獻(xiàn)來(lái)看,我國(guó)在此方面的研究尚是一片空白。
為填補(bǔ)我國(guó)在這方面研究的空白,本文從思想、方法等方面,對(duì)函數(shù)性數(shù)據(jù)分析進(jìn)行系統(tǒng)介紹,并通過(guò)編寫計(jì)算機(jī)程序,率先利用該方法分析實(shí)際的經(jīng)濟(jì)函數(shù)性數(shù)據(jù)。本文共分六部分,以下內(nèi)容的安排為:數(shù)據(jù)的函數(shù)性特征及經(jīng)濟(jì)函數(shù)性數(shù)據(jù)實(shí)例、從數(shù)據(jù)的函數(shù)性視角研究數(shù)據(jù)的意義、函數(shù)性數(shù)據(jù)分析的目標(biāo)和步驟、函數(shù)性數(shù)據(jù)分析方法的經(jīng)濟(jì)應(yīng)用,最后一部分是本文的結(jié)論。
二、數(shù)據(jù)的函數(shù)性特征及經(jīng)濟(jì)函數(shù)性數(shù)據(jù)實(shí)例
一般地說(shuō),多元數(shù)據(jù)分析(Multivariate Data A-nalysis,MDA)處理的對(duì)象,是刻畫所研究問(wèn)題的多個(gè)統(tǒng)計(jì)指標(biāo)(變量)在多次觀察中呈現(xiàn)出的數(shù)據(jù),樣本數(shù)據(jù)具有離散且有限的特征。但是,現(xiàn)代的數(shù)據(jù)收集技術(shù)所收集的信息,不但包括傳統(tǒng)統(tǒng)計(jì)方法所處理的數(shù)據(jù),還包括具有函數(shù)形式的過(guò)程所產(chǎn)生的數(shù)據(jù),例如,數(shù)據(jù)自動(dòng)收集系統(tǒng)等,稱具有這種特征的數(shù)據(jù)為函數(shù)性數(shù)據(jù)。
函數(shù)性數(shù)據(jù)的表現(xiàn)形式多種多樣,但就其本質(zhì)來(lái)說(shuō),它們由函數(shù)構(gòu)成。這些函數(shù)的幾何圖形可能是光滑的曲線(如人體在成年前的身體高度變化等),也可能是不光滑的曲線(如股票綜合指數(shù)等)。許多研究領(lǐng)域的樣本資料往往表現(xiàn)為函數(shù)形式,如考古學(xué)家挖掘的骨塊的形狀、按時(shí)間記錄的經(jīng)濟(jì)數(shù)據(jù)、手寫時(shí)筆尖的運(yùn)動(dòng)軌跡、溫度的變化等。函數(shù)性數(shù)據(jù)分析(Functional Data Analysis,F(xiàn)DA)的基本原理是把觀測(cè)到的數(shù)據(jù)函數(shù)看作一個(gè)整體,而不僅僅是一串?dāng)?shù)字。函數(shù)指的是數(shù)據(jù)的內(nèi)在結(jié)構(gòu),而不是它們直觀的外在表現(xiàn)形式。
實(shí)際中,之所以要從函數(shù)的視角對(duì)數(shù)據(jù)進(jìn)行分析,是因?yàn)椋?1)實(shí)際中,獲得數(shù)據(jù)的方式和技術(shù)日新月異、多種多樣,例如,越來(lái)越多的研究者可以通過(guò)數(shù)據(jù)的自動(dòng)收集系統(tǒng)獲得大量的數(shù)據(jù)信息。更重要的是,原本用于工程技術(shù)分析的修勻(smoothing)和插值(interpolation)技術(shù),可以由有限組的觀測(cè)數(shù)據(jù)產(chǎn)生出相應(yīng)的函數(shù)表示。(2)盡管只有有限次的觀測(cè)數(shù)據(jù)可供利用,但有一些建模問(wèn)題,將其納入到函數(shù)版本下進(jìn)行考慮,會(huì)使分析更加全面、深刻。(3)在有些情況下,如果想利用有限組的數(shù)據(jù)估計(jì)函數(shù)或其導(dǎo)數(shù),則分析從本質(zhì)上來(lái)看就具有函數(shù)性的特征。(4)將平滑性引入到一個(gè)函數(shù)過(guò)程所產(chǎn)生的多元數(shù)據(jù)的處理中,對(duì)分析具有重要的意義。
在經(jīng)濟(jì)分析中,融合時(shí)間序列和橫截面兩者的數(shù)據(jù)很常見(jiàn),例如,多個(gè)國(guó)家、地區(qū)、行業(yè)或企業(yè)的多年的年度經(jīng)濟(jì)總量、多家商業(yè)銀行歷年的資本結(jié)構(gòu)、能源(如電力、煤炭、石油等)多年按月的消耗量、不同時(shí)間上多個(gè)省市的失業(yè)數(shù)據(jù)等。這些經(jīng)濟(jì)數(shù)據(jù)往往呈現(xiàn)函數(shù)性特征,即每個(gè)個(gè)體對(duì)應(yīng)著一個(gè)函數(shù)或曲線。在對(duì)經(jīng)濟(jì)函數(shù)性數(shù)據(jù)進(jìn)行分析時(shí),將觀測(cè)到的數(shù)據(jù)(函數(shù))看作一個(gè)整體,而不是個(gè)體觀測(cè)值的順序排列,這是函數(shù)性數(shù)據(jù)分析不同于傳統(tǒng)統(tǒng)計(jì)分析之根本所在。例如,表1是工商銀行、農(nóng)業(yè)銀行、中國(guó)銀行、建設(shè)銀行1995年到2004年期間的資產(chǎn)收益率(ROA)數(shù)據(jù)。
利用基于MATLAB編寫的程序,對(duì)數(shù)據(jù)進(jìn)行平滑處理(smoothing),并繪出四家國(guó)有銀行的資產(chǎn)收益率(ROA)的修勻曲線(見(jiàn)圖1)。由曲線圖可以看出,每個(gè)個(gè)體(銀行)對(duì)應(yīng)著一條曲線(其數(shù)學(xué)表達(dá)式為函數(shù)),這是將多家銀行的歷年ROA數(shù)據(jù)記錄看作函數(shù)的根本理由,也是函數(shù)性數(shù)據(jù)分析的出發(fā)點(diǎn)。
三、從數(shù)據(jù)的函數(shù)性視角研究數(shù)據(jù)的意義
從函數(shù)的視角,對(duì)具有函數(shù)特征的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行研究,會(huì)挖掘出更多的信息。例如,對(duì)函數(shù)性數(shù)據(jù)的平滑曲線展示,不但能夠診斷出擬合數(shù)據(jù)的可能數(shù)學(xué)模型,還能夠通過(guò)對(duì)光滑曲線求一階、或更高階的導(dǎo)數(shù),來(lái)進(jìn)一步探索數(shù)據(jù)的個(gè)體(橫截面)差異和動(dòng)態(tài)變化規(guī)律。
圖2是四家銀行資產(chǎn)收益率的速度(一階導(dǎo)數(shù))曲線,觀察發(fā)現(xiàn):在1995年至2004年期間,農(nóng)業(yè)
銀行、中國(guó)銀行及建設(shè)銀行的資產(chǎn)收益率的變化率,呈現(xiàn)出較強(qiáng)的周期性,其中尤以建設(shè)銀行的表現(xiàn)最為突出。加速度曲線圖顯示,四家銀行資產(chǎn)收益率的變化率的波動(dòng)狀況不相同,轉(zhuǎn)折變化的時(shí)間差異也較大。這些情況一定程度表明,各家銀行的內(nèi)部管理與經(jīng)營(yíng)機(jī)制,對(duì)市場(chǎng)信息的反應(yīng)快慢程度各不相同。
四、函數(shù)性數(shù)據(jù)分析的目標(biāo)和步驟
函數(shù)性數(shù)據(jù)分析的目標(biāo)與傳統(tǒng)統(tǒng)計(jì)學(xué)分析的目標(biāo)基本一樣,具體情況如下:
(一)以對(duì)進(jìn)一步分析有利的方法來(lái)描述數(shù)據(jù);
(二)為突出不同特征而對(duì)數(shù)據(jù)進(jìn)行展示;
(三)研究數(shù)據(jù)類型的重要來(lái)源和數(shù)據(jù)之間的變化;
(四)利用輸入(自變量信息)來(lái)解釋輸出(因變量)的變化情況;
(五)對(duì)兩組或更多的某種類型的變量數(shù)據(jù)進(jìn)行比較分析。
典型的FDA主要包括以下步驟:
第一步,原始數(shù)據(jù)的收集、整理和組織。假設(shè)我們考慮的自變量是一維的,記為t,一個(gè)的函數(shù)僅在離散抽樣值 處被觀測(cè),而且這些ti可能等間隔分布,也可能不是。在函數(shù)性數(shù)據(jù)分析中,將這些離散的觀測(cè)值看作一個(gè)整體。
第二步,將離散數(shù)據(jù)轉(zhuǎn)換為函數(shù)形式。這是利用各次觀察的原始數(shù)據(jù)定義出一個(gè)函數(shù)x(t),它在某一區(qū)間上所有t處的值都被估算了出來(lái)。解決這個(gè)問(wèn)題的基本方法是選定一組基函數(shù) (t),k=O,…,K,并用基函數(shù)的線性組合給出函數(shù)x(t)的估計(jì)
第三步,多種形式的初步展示與概括統(tǒng)計(jì)量。概括統(tǒng)計(jì)量包括均值和方差函數(shù)、協(xié)方差與相關(guān)函數(shù)、交叉協(xié)方差(cross―covafiance)與交叉相關(guān)(cross―correlation)函數(shù)等。
第四步,為了使每一條曲線的顯著特征都在大體相同的自變量處(如月份、年份等)顯現(xiàn)出來(lái),可能需要對(duì)函數(shù)進(jìn)行排齊(regigtration),其目的是能夠區(qū)別對(duì)待垂直方向的振幅變化與水平方向的相變化。
第五步,對(duì)排齊后的函數(shù)數(shù)據(jù)進(jìn)行探索性分析,如函數(shù)性主成份分析(FPCA)、函數(shù)性典型相關(guān)份析(FCCA)等。
第六步,建立模型。建立的模型可能是函數(shù)性線性模型,也可能是微分方程。
第七步,模型估計(jì)。
五、函數(shù)性數(shù)據(jù)分析方法的經(jīng)濟(jì)應(yīng)用
為了說(shuō)明函數(shù)性數(shù)據(jù)分析方法的具體應(yīng)用,同時(shí)出于使所繪圖形簡(jiǎn)單明了,本文再次利用四家國(guó)有銀行的數(shù)據(jù),對(duì)資產(chǎn)收益率進(jìn)行更深入的分析。雖然此實(shí)例中個(gè)體數(shù)少,但并不妨礙對(duì)方法應(yīng)用的系統(tǒng)描述與理解。
在對(duì)實(shí)際問(wèn)題的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析時(shí),通常需要依照研究的目標(biāo)編寫計(jì)算機(jī)程序。就目前的研究現(xiàn)狀來(lái)看,基于MATLAB或SPLUS等編寫的程序,如繪圖或綜合計(jì)算函數(shù)等,完全可以滿足分析的需要。本文首先基于MATLAB編寫程序,然后對(duì)四家國(guó)有銀行的資產(chǎn)收益率數(shù)據(jù)進(jìn)行分析。
關(guān)于四家銀行資產(chǎn)收益率數(shù)據(jù)的函數(shù)(曲線)展示與初步分析,本文在前面已進(jìn)行了描述,具體結(jié)果見(jiàn)圖1和圖2。概括資產(chǎn)收益率特征的統(tǒng)計(jì)量(均值函數(shù)和標(biāo)準(zhǔn)差函數(shù))的曲線見(jiàn)圖3。
為了進(jìn)一步探討典型函數(shù)所呈現(xiàn)的特征,本文利用函數(shù)性主成份分析,對(duì)四家銀行的資產(chǎn)收益率數(shù)據(jù)進(jìn)行分析。一般來(lái)說(shuō),在函數(shù)性數(shù)據(jù)分析中,與多元統(tǒng)計(jì)中的某個(gè)主成份的權(quán)向量相對(duì)應(yīng)的是主成份權(quán)函數(shù)(principal component weight function),記為 ,其中t在一個(gè)區(qū)間 中變化。第i個(gè)樣品(個(gè)體) 的主成份得分值為 ,第一主成份就是在 的約束條件下,尋求使主成份得分 的方差達(dá)到最大的權(quán)函數(shù) ,即它是下面數(shù)學(xué)模型的最優(yōu)解: 類似地,可以求得第j個(gè)主成份,其權(quán)函數(shù)毛(t)是下面數(shù)學(xué)模型的解:
為了得到光滑的主成份,一種方法是對(duì)由上述方法求出的主成份進(jìn)行修勻,另一種方法是將修勻處理過(guò)程,融入到主成份的求解過(guò)程中。具體作法是將描述主成份曲線波動(dòng)程度的粗糙因子納入到約柬?xiàng)l件中,形成帶懲罰的約束條件。利用粗糙懲罰法求第j個(gè)主成份的數(shù)學(xué)模型是其中 稱為修勻參數(shù),用它可對(duì)粗糙懲罰項(xiàng)進(jìn)行調(diào)整。
利用上述方法和基于MATLAB編寫的程序,對(duì)四家銀行進(jìn)行函數(shù)性主成份分析(FPCA)。具體結(jié)果見(jiàn)圖4。第一個(gè)主成份(PCI)的解釋能力為85.5%,第二個(gè)主成份(Pc2)的解釋能力為13.1%,前兩個(gè)主成份的綜合解釋能力為98.6%。
為了清晰地顯示主成份,并進(jìn)行有意義的解釋,在同一圖中繪出三條曲線,一條是整體均值曲線,另兩條是對(duì)均值曲線分別加上和減去主成份的一個(gè)適當(dāng)倍數(shù)而形成的曲線,具體結(jié)果見(jiàn)圖5(本文所選的倍數(shù)是0.12)。以上所述的三條曲線分別對(duì)應(yīng)著圖5中的實(shí)心曲線、‘+’曲線和‘*’曲線。第一個(gè)主成份反映了資產(chǎn)收益率(ROA)的一般變化,尤其反映了資產(chǎn)收益率的“兩頭”變化情況(1999年以前和2003年以后)。第二個(gè)主成份反映了資產(chǎn)收益率(ROA)的中段變化。
六、結(jié)論
在經(jīng)濟(jì)實(shí)踐中,越來(lái)越多的領(lǐng)域所得到的樣本觀察資料是曲線或圖像,即函數(shù)性數(shù)據(jù)。因此,對(duì)這種類型的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和描述,具有重要的現(xiàn)實(shí)意義。因篇幅所限,還有一些函數(shù)性數(shù)據(jù)的分析方法未予以介紹,如函數(shù)性方差分析、函數(shù)線性模型、函數(shù)性典型相關(guān)分析以及描述動(dòng)態(tài)性的微分方程等。由于本文的主要目的,是通過(guò)對(duì)函數(shù)性數(shù)據(jù)分析方法和具體應(yīng)用的介紹,傳述對(duì)數(shù)據(jù)進(jìn)行分析的新思想,而不只是方法技術(shù)本身。因此,缺少的方法并不影響對(duì)思想的闡述。
另外,本文對(duì)四家銀行資產(chǎn)收益率的分析,例證了函數(shù)性數(shù)據(jù)的分析方法,具有傳統(tǒng)統(tǒng)計(jì)分析方法不可比擬的優(yōu)越性,具體表現(xiàn)在:(1)通過(guò)對(duì)函數(shù)性數(shù)據(jù)的修勻,將一階或多階導(dǎo)數(shù),如速度和加速度,引入到分析過(guò)程中。這一點(diǎn)在計(jì)量經(jīng)濟(jì)學(xué)和多元統(tǒng)計(jì)的分析方法中未予以考慮。(2)函數(shù)性數(shù)據(jù)分析,用最少的假設(shè)來(lái)研究曲線間和曲線內(nèi)部的結(jié)構(gòu)變化。關(guān)于這一點(diǎn)它優(yōu)于計(jì)量經(jīng)濟(jì)學(xué)中處理“面板數(shù)據(jù)”的方法。事實(shí)上,面板數(shù)據(jù)只是函數(shù)性數(shù)據(jù)的一種類型,本文介紹的數(shù)據(jù)分析方法可用來(lái)處理許多領(lǐng)域的函數(shù)性數(shù)據(jù),應(yīng)用范圍相對(duì)寬廣,而且觀測(cè)時(shí)點(diǎn)也可以不等間隔選取。(3)將數(shù)據(jù)曲線的振幅變化與相位變化分開(kāi)處理,是函數(shù)性數(shù)據(jù)分析的一個(gè)中心理念,但在以前的分析中卻被忽視了。
關(guān)鍵詞:信息技術(shù);數(shù)據(jù)管理;數(shù)據(jù)挖掘;金融業(yè)
中圖分類號(hào):Z42文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2010)01-18-02
Based on Data Mining in Financial Data Analysis
ZHU Jing, LI Shi-jun
(Computer Application academy of Computer Science, Wuhan University, Wuhan 430072,China)
Abstract:Today is the corporate strategy and its market position and is closely related to the era of information technology,it is difficult to imagine a modern enterprise with no proper support for information technology systems will be how it works. However, with the development of information technology, enterprise data generated by large numbers of accumulation and expansion, many of which are very valuable information hidden in them not being found by people. How these massive data management and extract potentially valuable information, as enterprises in the fierce market occupy the dominant position of the key points. Therefore, data mining techniques have emerged, and applied in various industries, has made extensive and significant progress. This paper is on data mining applications in the financial sector were discussed.
Key words: Information technology; Data management; Data Mining; Finance
作為一個(gè)新興的研究領(lǐng)域,數(shù)據(jù)挖掘已經(jīng)廣泛的應(yīng)用到了眾多的領(lǐng)域,出現(xiàn)了大量大的商品化的數(shù)據(jù)挖掘系統(tǒng),金融數(shù)據(jù)挖掘是信息社會(huì)中的一個(gè)極具挑戰(zhàn)性的研究方向,金融數(shù)據(jù)的隨機(jī)特性使得隱藏在數(shù)據(jù)中的內(nèi)在規(guī)則難以被發(fā)現(xiàn)。如何對(duì)這些隱藏的數(shù)據(jù)進(jìn)行管理,并從中提取潛在的有價(jià)值的信息,成為金融業(yè)在市場(chǎng)中占據(jù)優(yōu)勢(shì)地位的關(guān)鍵。
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘DM(Data Mining)是對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行一定的處理,從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含的、事先未知的、但又是潛在有用的信息和知識(shí)的過(guò)程[1]。確切地講,DM是KDD過(guò)程中的一個(gè)步驟,其處理對(duì)象是大量的日常業(yè)務(wù)數(shù)據(jù),它主要基于人工只能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析原有的海量數(shù)據(jù),做出歸納的推理,從中采掘出潛在的模式,預(yù)測(cè)未知的行為,提高信息的利用,改變“人們被數(shù)據(jù)淹沒(méi),同時(shí)卻仍感到知識(shí)饑渴”的資源浪費(fèi)的局面。KDD是數(shù)據(jù)庫(kù)技術(shù)和機(jī)器學(xué)習(xí)兩個(gè)學(xué)科的交叉學(xué)科,由于KDD使用的數(shù)據(jù)來(lái)自于實(shí)際的數(shù)據(jù)庫(kù),所要處理的數(shù)據(jù)量可能很大,因此DM中的學(xué)習(xí)算法的效率和可擴(kuò)充性就尤為重要;此外,KDD所處理的數(shù)據(jù)由于來(lái)自于現(xiàn)實(shí)世界,數(shù)據(jù)的完整性、一致性和正確性都很難保證,因此數(shù)據(jù)預(yù)處理也是很有必要的。
2 數(shù)據(jù)挖掘在金融業(yè)的應(yīng)用
金融事務(wù)需要搜集和處理大量紛繁復(fù)雜的數(shù)據(jù),大部分銀行和金融機(jī)構(gòu)提供豐富多樣的銀行服務(wù)(如個(gè)人存款)、信用服務(wù)(如貸款、個(gè)人信用卡)和投資服務(wù)(如共同基金)。由于交易的頻繁性、信息的不對(duì)稱性加上從海量數(shù)據(jù)中挖掘信息,金融數(shù)據(jù)挖掘技術(shù)可以從這些信息中查找到有效的信息用來(lái)幫助監(jiān)管部門及投資部門進(jìn)行有效監(jiān)督和投資管理,可以幫助銀行部門描述客戶以往的需求趨勢(shì)并預(yù)測(cè)未來(lái);可以分析潛在的信譽(yù)較差的客戶,及時(shí)采取措施減少資產(chǎn)損失等。
金融機(jī)構(gòu)收集到的金融數(shù)據(jù)通常相對(duì)完整、可靠并具有高質(zhì)量,方便了系統(tǒng)化的數(shù)據(jù)分析和數(shù)據(jù)挖掘。對(duì)金融數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘通常包含以下四個(gè)部分的應(yīng)用分析情況。
1)為多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設(shè)計(jì)和構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)。
首先需要為銀行和金融數(shù)據(jù)構(gòu)造數(shù)據(jù)倉(cāng)庫(kù),應(yīng)當(dāng)使用多維數(shù)據(jù)分析方法分析這種數(shù)據(jù)的一般性質(zhì),企業(yè)可以通過(guò)按月、按地區(qū)、按部門以及其他因素,查看債務(wù)和稅收變化,同時(shí)提供最大、最小、總和、平均值趨勢(shì)和其他統(tǒng)計(jì)信息。數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)立方體、多特征和發(fā)現(xiàn)驅(qū)動(dòng)的數(shù)據(jù)立方體、特征化和類比較以及離群點(diǎn)分析都會(huì)在金融數(shù)據(jù)分析和挖掘中發(fā)揮重要的作用。
2)貸款償還預(yù)測(cè)和顧客信用政策分析。
貸款償付預(yù)測(cè)和顧客信用政策分析對(duì)銀行業(yè)務(wù)是至關(guān)重要的。很多因素都會(huì)對(duì)貸款償還履行和顧客信用等級(jí)評(píng)定產(chǎn)生不同程度的影響。數(shù)據(jù)挖掘方法,如屬性選擇和屬性相關(guān)評(píng)定,可能有助于識(shí)別重要因素,剔除不相關(guān)因素。例如與貸款償還風(fēng)險(xiǎn)相關(guān)的因素包括貸款率、貸款期限、負(fù)債率、償還收入比、顧客收入水平、受教育水平、居住地區(qū)和信用史。分析顧客償還史信息可以發(fā)現(xiàn),比如說(shuō),償還收入比是主要因素,而受教育水平和負(fù)債率則不是,于是,銀行可以根據(jù)此調(diào)整貸款發(fā)放政策,將貸款發(fā)放給那些 申請(qǐng)以前曾被拒絕的,其基本信息表明風(fēng)險(xiǎn)相對(duì)較低的顧客。
3)針對(duì)定向銷售的顧客分類與聚類。
分類和聚類的方法可用于顧客群識(shí)別和定向銷售。可以使用分類識(shí)別可能影響顧客關(guān)于銀行業(yè)務(wù)決策的最重要因素。使用多維聚類技術(shù),可以識(shí)別對(duì)貸款償有類似行為的顧客。這些可以幫助識(shí)別顧客群,把新顧客歸到一個(gè)合適的顧客群,推動(dòng)定向消費(fèi)。
4)洗黑錢和其他金融犯罪的偵破。
為了偵破洗黑錢和其他金融犯罪,重要的是把多個(gè)數(shù)據(jù)庫(kù)(如銀行交易數(shù)據(jù)庫(kù),地區(qū)犯罪歷史數(shù)據(jù)庫(kù))中的信息集成起來(lái),只有這些數(shù)據(jù)可能與偵破工作有關(guān)。然后,使用多種數(shù)據(jù)分析工具檢測(cè)異常模式,如在某段時(shí)間內(nèi)分析某些人發(fā)生的大量現(xiàn)金流動(dòng)。使用的工具包括數(shù)據(jù)可視化工具(用圖形的方式按時(shí)間和按顧客群顯示交易活動(dòng))、鏈接分析工具(識(shí)別不同顧客和活動(dòng)之間的聯(lián)系)、分類工具(過(guò)濾不相關(guān)的屬性,對(duì)高度相關(guān)屬性分類)、聚類工具(將不同案例分組)、離群點(diǎn)分析工具(檢測(cè)異常資金轉(zhuǎn)移量或其他行為)、序列模式分析工具(刻畫異常訪問(wèn)序列的特征)。這些工具可以識(shí)別活動(dòng)的重要聯(lián)系和模式,幫助調(diào)查人員為進(jìn)一步詳細(xì)調(diào)查提供可疑線索。
3 結(jié)束語(yǔ)
數(shù)據(jù)挖掘已在我國(guó)金融業(yè)信息化建設(shè)中被廣泛應(yīng)用,幫助企業(yè)在激烈的市場(chǎng)競(jìng)爭(zhēng)中取得優(yōu)勢(shì)地位,并顯現(xiàn)出巨大的應(yīng)用前景。我們不要求十全十美,但要盡量做得好一些,特別是我國(guó)加入WTO后,金融開(kāi)放將使我國(guó)金融業(yè)直接面對(duì)外資金融機(jī)構(gòu)的挑戰(zhàn),但同時(shí)血給我們提供了機(jī)遇和發(fā)展的空間。加強(qiáng)對(duì)外技術(shù)經(jīng)驗(yàn)交流,繼續(xù)深化體制改革,充分挖掘自身獨(dú)特的優(yōu)勢(shì),創(chuàng)新產(chǎn)品服務(wù)。加強(qiáng)客戶關(guān)系管理,這將是我們?cè)诩ち业母?jìng)爭(zhēng)中取得長(zhǎng)足發(fā)展的關(guān)鍵。
參考文獻(xiàn):
[1] 李學(xué)勃.數(shù)據(jù)挖掘在金融業(yè)的應(yīng)用分析[J].萬(wàn)方數(shù)據(jù),2009(10).
[2] 易東云.金融數(shù)據(jù)挖掘中的非線性相關(guān)跟蹤技術(shù)[J].軟件學(xué)報(bào),2000(11).
[關(guān)鍵詞]數(shù)據(jù)分析;大數(shù)據(jù);智慧校園;決策支持
1國(guó)內(nèi)外研究開(kāi)發(fā)現(xiàn)狀和發(fā)展趨勢(shì)
1.1現(xiàn)狀與趨勢(shì)
在當(dāng)今大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)等新思路、新技術(shù)快速發(fā)展的又一歷史時(shí)期,高等教育面臨著前所未有的發(fā)展機(jī)遇,在經(jīng)歷了網(wǎng)絡(luò)化、數(shù)字化、信息化管理階段之后,“智慧校園”將是在“互聯(lián)網(wǎng)+教育”趨勢(shì)下最重要的發(fā)展思路。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,各種系統(tǒng)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)以前所未有的驚人速度迅猛增長(zhǎng),“大數(shù)據(jù)”時(shí)代已經(jīng)到來(lái)。大數(shù)據(jù)是指數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜、數(shù)據(jù)規(guī)模大的數(shù)據(jù)集合。其數(shù)據(jù)量已經(jīng)遠(yuǎn)遠(yuǎn)超出了一般數(shù)據(jù)管理工具可以承受的處理時(shí)間以及數(shù)據(jù)處理及存儲(chǔ)管理能力。在當(dāng)今大數(shù)據(jù)環(huán)境下,高校管理系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)量發(fā)生了巨大的變化。在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、數(shù)據(jù)分析及數(shù)據(jù)挖掘等方面面臨著巨大的機(jī)遇和挑戰(zhàn)。為了有效地利用大數(shù)據(jù)為高校決策分析提供更好的服務(wù),必須基于大數(shù)據(jù)建立相應(yīng)的數(shù)據(jù)分析系統(tǒng)。
1.2國(guó)內(nèi)外研究與開(kāi)發(fā)綜述
隨著大數(shù)據(jù)的發(fā)展和教育信息化的不斷深入,基于大數(shù)據(jù)開(kāi)展的高校校園數(shù)據(jù)分析與應(yīng)用逐步受到重視。對(duì)大數(shù)據(jù)的定義始終沒(méi)有形成統(tǒng)一的意見(jiàn)。維基百科對(duì)大數(shù)據(jù)(Bigdata)的定義是:所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理并整理成為人類所能解讀的信息。麥肯錫全球研究院將大數(shù)據(jù)定義為:無(wú)法在一定時(shí)間內(nèi)使用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行獲取、管理和處理的數(shù)據(jù)集合。加特納(Gartner)于2012年修改了對(duì)大數(shù)據(jù)的定義:大數(shù)據(jù)是大量、高速、多變的信息資產(chǎn),它需要新型的處理方式去促成更強(qiáng)的決策能力、洞察力與優(yōu)化處理。而在高校學(xué)生數(shù)據(jù)的分析應(yīng)用方面,國(guó)內(nèi)外高校均有開(kāi)展相關(guān)的研究。紐約州波基普西市瑪麗斯特學(xué)院(MaristCollege)與商業(yè)數(shù)據(jù)分析公司Pentaho合作發(fā)起開(kāi)源學(xué)術(shù)分析計(jì)劃,旨在一門新課程開(kāi)始的兩周內(nèi)預(yù)測(cè)哪些學(xué)生可能會(huì)無(wú)法順利完成課程,它基于商業(yè)分析平臺(tái)開(kāi)發(fā)了一個(gè)分析模型,通過(guò)收集分析學(xué)生的學(xué)習(xí)習(xí)慣,包括線上閱讀材料、論壇發(fā)言、完成作業(yè)時(shí)長(zhǎng)等數(shù)據(jù)信息,來(lái)預(yù)測(cè)學(xué)生的學(xué)業(yè)情況,及時(shí)干預(yù)幫助問(wèn)題學(xué)生,從而提升畢業(yè)率。上海財(cái)經(jīng)大學(xué)基于校園信息化數(shù)據(jù)基礎(chǔ),開(kāi)發(fā)了校務(wù)決策支持系統(tǒng),面向人才培養(yǎng)、內(nèi)部管理、科學(xué)研究和師生服務(wù)等方面開(kāi)展決策分析;華東師范大學(xué)利用校園信息化基礎(chǔ)數(shù)據(jù),開(kāi)展了校車人數(shù)與載客分布分析,提升了校車使用率;利用一卡通數(shù)據(jù)開(kāi)展了貧困生的特征確定、潛在貧困生分析、后續(xù)跟蹤驗(yàn)證,有效提升了幫困扶貧的工作效率。
2需求分析
結(jié)合西安歐亞學(xué)院信息化建設(shè)基礎(chǔ)與海量的數(shù)據(jù)積累,建立“智慧校園”數(shù)據(jù)分析系統(tǒng),通過(guò)此平臺(tái)的建設(shè)和應(yīng)用,運(yùn)用數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),從而在大數(shù)據(jù)中獲取數(shù)據(jù)之間內(nèi)在的相互聯(lián)系,以及其中可能存在的某種規(guī)律,從而有效提升校園管理的決策效率,提升教學(xué)科研與管理服務(wù)的綜合水平。通過(guò)調(diào)查走訪各部門,了解教師、學(xué)生與行政管理人員的相關(guān)需求。主要包括四個(gè)方面:一是教學(xué)數(shù)據(jù)分析需求。包括各分院、招生辦、教務(wù)處等部門對(duì)于招生、學(xué)生學(xué)習(xí)行為、教學(xué)質(zhì)量、學(xué)科建設(shè)與學(xué)生就業(yè)等方面的分析。二是生活服務(wù)數(shù)據(jù)分析需求。包括圖書(shū)館、后勤等部門對(duì)于學(xué)生的消費(fèi)行為即圖書(shū)借閱、網(wǎng)絡(luò)行為、資源利用等項(xiàng)目的分析。三是財(cái)務(wù)、人事、宣傳等部門對(duì)于全校的資產(chǎn)、師資力量、宣傳效果等項(xiàng)目的分析。四是研究發(fā)展部門對(duì)于全??蒲许?xiàng)目與成果完成情況的分析(見(jiàn)圖1)。
3系統(tǒng)方案設(shè)計(jì)
3.1框架設(shè)計(jì)
結(jié)合需求情況,開(kāi)展系統(tǒng)的總體框架設(shè)計(jì),初步將系統(tǒng)分為三大板塊,包括數(shù)據(jù)監(jiān)測(cè)、決策支持和查詢定制(見(jiàn)圖2)。
3.2系統(tǒng)方案
系統(tǒng)總體架構(gòu)包括四個(gè)層次,分別是數(shù)據(jù)引擎、數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)解決方案和交互平臺(tái)。數(shù)據(jù)引擎部分將集成校園WIFI、固網(wǎng)、一卡通、教務(wù)系統(tǒng)等各類信息系統(tǒng)的數(shù)據(jù),形成數(shù)據(jù)源,數(shù)據(jù)挖掘?qū)⑼ㄟ^(guò)分布式計(jì)算架構(gòu)和數(shù)據(jù)分析平臺(tái)對(duì)潛在數(shù)據(jù)進(jìn)行分析與建模,通過(guò)數(shù)據(jù)庫(kù)建立本系統(tǒng)的分析數(shù)據(jù)庫(kù),最終通過(guò)PC、手機(jī)等客戶端向用戶進(jìn)行呈現(xiàn)(見(jiàn)圖3)。
3.3典型應(yīng)用研究?jī)?nèi)容
3.3.1教學(xué)質(zhì)量評(píng)估教學(xué)質(zhì)量評(píng)估屬于高校定期必須完成的任務(wù),教學(xué)評(píng)估的主要目的是更好地發(fā)掘出教學(xué)過(guò)程中存在的一些問(wèn)題,從而及時(shí)地對(duì)教學(xué)方法進(jìn)行調(diào)整,最終實(shí)現(xiàn)教學(xué)質(zhì)量的提升。將大數(shù)據(jù)運(yùn)用到高校教學(xué)評(píng)估系統(tǒng)之中,不但能夠在很大程度上提高高校教學(xué)管理的科學(xué)性,同時(shí)還可以提高信息化教學(xué)的實(shí)用性。把基于大數(shù)據(jù)挖掘的算法運(yùn)用在教學(xué)評(píng)估工作之中,找出教學(xué)效果、信息技術(shù)在教學(xué)中的應(yīng)用、師生之間的溝通互動(dòng)等因素之間的聯(lián)系,從而給高校的教學(xué)部門帶來(lái)非??茖W(xué)的決策信息,同時(shí)讓教師可以更加有效地開(kāi)展教學(xué)工作,提高教學(xué)質(zhì)量。
3.3.2教師教學(xué)能力分析以往的教學(xué)缺乏大量數(shù)據(jù)支撐,教學(xué)的質(zhì)量高低主要靠教師自我度的把握?,F(xiàn)在,可以通過(guò)在線課堂等技術(shù),搜集大量課堂情況信息,比如學(xué)生對(duì)知識(shí)點(diǎn)的理解程度、教師課堂測(cè)試的成績(jī)、學(xué)生課堂紀(jì)律等。通過(guò)這些數(shù)據(jù)的分析,了解教師熟悉教案的程度、課堂氛圍等,改善教學(xué)水平。也可以通過(guò)深度分析學(xué)生在教學(xué)過(guò)程中教師的課堂表現(xiàn),從而發(fā)現(xiàn)課程的閃光點(diǎn)以及不足,從而讓教師能夠進(jìn)一步地對(duì)課程教學(xué)進(jìn)行改善,提升教學(xué)質(zhì)量。
3.3.3個(gè)性化課程分析個(gè)性化學(xué)習(xí)是高校教學(xué)改革的目標(biāo),過(guò)去的班級(jí)制教學(xué)中無(wú)法很好達(dá)到這一點(diǎn),通過(guò)把大數(shù)據(jù)挖掘技術(shù)和學(xué)習(xí)內(nèi)容結(jié)合起來(lái),指導(dǎo)學(xué)習(xí)者規(guī)劃學(xué)習(xí)發(fā)展方向,制訂學(xué)習(xí)規(guī)劃,實(shí)現(xiàn)個(gè)性化學(xué)習(xí)功能。通過(guò)評(píng)估個(gè)人情況,根據(jù)分析結(jié)果推薦可能取得優(yōu)秀成績(jī)的課程方案。首先獲取學(xué)生以往的學(xué)習(xí)表現(xiàn),然后從已畢業(yè)學(xué)生的成績(jī)庫(kù)中找到與之成績(jī)相似的學(xué)生信息,分析前期成績(jī)和待選課程結(jié)果之間的相關(guān)性,結(jié)合專業(yè)要求和學(xué)生能力進(jìn)行分析,預(yù)測(cè)學(xué)生選擇的課程中可能取得的成績(jī),最后綜合權(quán)衡預(yù)測(cè)學(xué)生成績(jī)和各門課程的重要性,為學(xué)生推薦一份專業(yè)課程清單。
3.3.4學(xué)習(xí)行為分析通過(guò)一卡通門禁信息、網(wǎng)絡(luò)信息、課程信息、在線教育系統(tǒng)等相關(guān)數(shù)據(jù),可以把學(xué)生到課堂時(shí)間、上課表現(xiàn)、作業(yè)完成情況、自習(xí)情況等學(xué)習(xí)信息記錄下來(lái),進(jìn)行變量分析。當(dāng)一些與學(xué)習(xí)行為有關(guān)的因素(如曠課、紀(jì)律問(wèn)題、課堂表現(xiàn))發(fā)生變化時(shí),對(duì)學(xué)生提示并進(jìn)行分析。通過(guò)這種系統(tǒng)分析,可以很好地規(guī)劃學(xué)生的學(xué)習(xí)時(shí)間,提高學(xué)習(xí)效率。
4技術(shù)創(chuàng)新點(diǎn)
4.1大數(shù)據(jù)環(huán)境下提升數(shù)據(jù)挖掘范圍
相比于傳統(tǒng)常規(guī)環(huán)境下的數(shù)據(jù)獲取渠道,大數(shù)據(jù)環(huán)境下,校園數(shù)據(jù)的獲取更為廣泛和準(zhǔn)確。常規(guī)環(huán)境下的數(shù)據(jù)主要以經(jīng)費(fèi)收支、課程建設(shè)、問(wèn)卷、訪談、課堂觀察等來(lái)源,而在大數(shù)據(jù)環(huán)境下,通過(guò)對(duì)事件數(shù)據(jù)、輿情數(shù)據(jù)、一卡通、日志搜索等數(shù)據(jù)的抓取與分析,更能夠準(zhǔn)確地反映實(shí)際校情。
4.2可視化技術(shù)展現(xiàn)數(shù)據(jù)分析結(jié)果
利用大數(shù)據(jù)分析的數(shù)據(jù)挖掘與可視化分析,能夠直觀地呈現(xiàn)大數(shù)據(jù)特點(diǎn),同時(shí)能夠非常容易被使用者所接受,就如同看圖說(shuō)話一樣簡(jiǎn)單明了。智慧校園中,結(jié)合學(xué)生學(xué)習(xí)、生活消費(fèi)的各類數(shù)據(jù),通過(guò)系統(tǒng)分析與圖表展現(xiàn),讓用戶只管了解數(shù)據(jù)分析的結(jié)果。
4.3數(shù)據(jù)質(zhì)量管理提供重要支持
本項(xiàng)目結(jié)合大數(shù)據(jù)發(fā)展趨勢(shì),充分利用數(shù)據(jù)挖掘、建模與可視化展示技術(shù),系統(tǒng)存儲(chǔ)數(shù)據(jù)主要是從校內(nèi)外各種數(shù)據(jù)源中獲得最原始數(shù)據(jù),并對(duì)該部分?jǐn)?shù)據(jù)進(jìn)行整合形成數(shù)據(jù)層,然后將數(shù)據(jù)層中的數(shù)據(jù)經(jīng)過(guò)抽取、清洗、轉(zhuǎn)換、裝載進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)從而形成支撐層,在支撐層的基礎(chǔ)上,可以根據(jù)需求對(duì)數(shù)據(jù)進(jìn)行挖掘分析,從而構(gòu)建決策層。