亚洲激情综合另类男同-中文字幕一区亚洲高清-欧美一区二区三区婷婷月色巨-欧美色欧美亚洲另类少妇

首頁 公文范文 大數(shù)據(jù)處理論文

大數(shù)據(jù)處理論文

發(fā)布時間:2022-05-21 10:30:09

序言:寫作是分享個人見解和探索未知領域的橋梁,我們?yōu)槟x了1篇的大數(shù)據(jù)處理論文樣本,期待這些樣本能夠為您提供豐富的參考和啟發(fā),請盡情閱讀。

大數(shù)據(jù)處理論文

數(shù)據(jù)處理論文:D2D通信中大數(shù)據(jù)處理關鍵技術分析與展望

【摘 要】

分析了D2D通信中大數(shù)據(jù)的特征,重點闡述了數(shù)據(jù)篩選、預處理、建模等大數(shù)據(jù)處理的關鍵技術,并對提高大數(shù)據(jù)無線傳輸?shù)姆€(wěn)定性、可靠性和高效性進行了探討和展望。

【關鍵詞】

5G 大數(shù)據(jù) D2D

1 引言

在當前移動通信系統(tǒng)中,數(shù)據(jù)要經(jīng)過基站、基站控制器、網(wǎng)關和交換機。隨著大數(shù)據(jù)背景下網(wǎng)絡流量迅猛增長,基站將不堪重荷。終端直通(D2D,Device-to-Device)通信作為第五代移動通信系統(tǒng)(5G)中的關鍵技術之一[1-2],可實現(xiàn)數(shù)據(jù)不經(jīng)過基站直接傳輸(如圖1所示),借助提高空間利用率來進一步提高無線頻譜利用率,可使移動通信在眾多場景下變得更加直接和高效[1-3]。

但面對爆炸式的業(yè)務量,僅僅依靠D2D通信技術是遠遠不夠的。提升如何從各種各樣的數(shù)據(jù)(包括結構化、半結構化、非結構化數(shù)據(jù)等)中快速獲取有價值的信息的能力對于大數(shù)據(jù)分析與處理來說十分關鍵。業(yè)界對大數(shù)據(jù)的特征進行歸納,主要包括4個“V”[4],即數(shù)據(jù)體量巨大(Volumn)、數(shù)據(jù)類型繁多(Variety)、數(shù)據(jù)價值密度低(Value)、有很多實時數(shù)據(jù)要求快速處理(Velocity)。因此,傳統(tǒng)的數(shù)據(jù)表示方法不能適用于大數(shù)據(jù)的表示。如何對體量巨大、結構繁多的數(shù)據(jù)進行有效表示?如何通過結合D2D通信的特點,最大程度地壓縮數(shù)據(jù)的冗余度,挖掘出隱藏在數(shù)據(jù)背后的規(guī)律,從而使數(shù)據(jù)發(fā)揮出最大的價值?是D2D通信中大數(shù)據(jù)處理技術的核心目標。

本文首先從分析D2D通信系統(tǒng)中大數(shù)據(jù)的典型特征出發(fā),分析大數(shù)據(jù)處理過程中所面臨的挑戰(zhàn);然后具體分析了D2D通信系統(tǒng)中大數(shù)據(jù)的表示和處理方法;最后對未來研究方向做了展望。

2 D2D通信系統(tǒng)中大數(shù)據(jù)的典型特征

(1)數(shù)據(jù)量大

D2D通信為海量多媒體服務提供了一個強大的通信平臺,如海量文本、圖像、語音、音視頻等應用。但是,隨著采集設備成本的降低和存儲容量的增大,訓練樣本的數(shù)量往往非常巨大,如在很短的時間內所采集到的數(shù)據(jù)可以輕易地達到幾百TB。由于D2D通信中終端計算及存儲能力有限,如何有效地表示采集到的大數(shù)據(jù)集十分關鍵。由于D2D大數(shù)據(jù)集中數(shù)據(jù)的分布復雜多樣,因而需要采用具有較高普適性和較大靈活性的模型和方法來對數(shù)據(jù)的特征屬性進行表示和處理[5]。傳統(tǒng)的基于參數(shù)建立起的模型及其學習算法由于模型的結構固定,因此限定了其可以表示的數(shù)據(jù)特征。與參數(shù)模型相比,采用具有結構可調節(jié)的非參數(shù)模型及其學習算法在這樣的情況下具有更好的效果。

(2)數(shù)據(jù)的維度高

由于D2D通信中終端的異構性以及用戶需求的異構性,高維和超高維的數(shù)據(jù)不斷涌現(xiàn)。很顯然,數(shù)據(jù)維數(shù)越高(屬性越多),就可以更加全面地刻畫所描述的對象以及更好地分辨對象。然而,過高的維數(shù)不可避免地對數(shù)據(jù)的表示與處理提出了嚴峻的挑戰(zhàn)。研究表明,對于大部分觀測或采集到的高維數(shù)據(jù)而言,其主要信息存在于一個低維空間中。換句話說,該低維空間包含了高維數(shù)據(jù)中的全部或絕大部分的有用信息。因此,如何在低維空間中有效地刻畫高維數(shù)據(jù)的有用信息,也是D2D通信中大數(shù)據(jù)處理領域一個不容忽視并且極具挑戰(zhàn)性的問題。目前已經(jīng)有一些隱空間模型和方法,如主成分分析、因子分析、獨立成分分析等可以用于完成此項任務,找到這樣的低維空間并將數(shù)據(jù)進行高效表示[7]。

(3)模型的復雜度和計算時間

傳統(tǒng)的通信系統(tǒng)處理數(shù)據(jù)時,由于數(shù)據(jù)量不大,因此可以采用較為復雜的模型來描述數(shù)據(jù)的特征。而在與D2D通信大數(shù)據(jù)相關的應用中,終端處理能力受限,如果仍然采用復雜的模型來處理大數(shù)據(jù),則計算和時間成本將大大增加;另一方面,如果采用較為簡單的模型,可能不能完全表示和挖掘出大數(shù)據(jù)的關鍵特性。解決方法是:一方面,盡可能設計簡潔的模型及高計算效率的算法,從而降低模型的復雜度和計算時間;另一方面,利用終端的靈活性,可以采用并行計算和分布式計算技術,把原先一個終端上的數(shù)據(jù)表示和任務處理分攤到多個終端。通過設計相應的算法,實現(xiàn)多個節(jié)點的信息共享和協(xié)作,從而降低每個終端上模型的復雜度和計算時間[7]。

(4)算法的實時性和可擴展性

在D2D通信系統(tǒng)的大數(shù)據(jù)處理中,都需要對其中的大數(shù)據(jù)進行實時性表示與處理,即當新數(shù)據(jù)到來以及新類型出現(xiàn)時,算法能夠根據(jù)實際情況進行自適應的調節(jié),以適應數(shù)據(jù)的變化。而傳統(tǒng)的學習算法偏重于離線算法,因此需要設計一些在線學習算法,對描述或表示數(shù)據(jù)的模型進行在線學習。其中,貝葉斯技術可以很方便地用于在線學習[8]。此外,在設計模型及其學習算法時,也需要考慮其多媒體應用的可擴展性。

3 D2D通信系統(tǒng)中大數(shù)據(jù)處理方法

基于D2D通信中大數(shù)據(jù)處理的具體特征,本文擬從用戶的感受出發(fā),設計如下方案來高效地表示和處理D2D通信系統(tǒng)中的大數(shù)據(jù),提取其中的有效信息,具體如下:

首先,從應用的內容出發(fā),根據(jù)具體用戶業(yè)務需求和應用背景對大數(shù)據(jù)進行初步篩選。即只需要保存與所需任務相關的數(shù)據(jù),去除無關數(shù)據(jù),從而提高后續(xù)處理的效率。

其次,設計合理的算法,對大數(shù)據(jù)進行預處理,并且依據(jù)用戶體驗提取特征屬性。如前文所述,D2D通信中所采集到的大數(shù)據(jù)的維度(屬性)較大,因此對于大數(shù)據(jù)有效特征屬性的提取十分重要。此處可采用貝葉斯因子混合分析方法,通過該方法,可以找到一個數(shù)據(jù)有效信息相對集中的低維空間,從而可以將高維數(shù)據(jù)投影到低維空間中,最大程度地降低數(shù)據(jù)的冗余,完成數(shù)據(jù)的降維過程,從而可以在低維空間中完成后續(xù)的操作(如圖2所示)[9]。此外,該方法的另一個優(yōu)點在于,由于得到了高維數(shù)據(jù)的低維有效表示,從而可以在某些條件下實現(xiàn)數(shù)據(jù)的可視化。

圖2 數(shù)據(jù)冗余度降低過程

最后,設計合適的模型來精確地描述提取出的大數(shù)據(jù)屬性,從而進一步用高效、簡約的形式來表示大數(shù)據(jù)。在現(xiàn)有的工作中,在用模型對大數(shù)據(jù)進行表示和處理方面已經(jīng)開展了一些研究,取得了一些研究成果。具體地,選用混合模型來描述建模大數(shù)據(jù)的分布已成為主流,主要原因有兩點:

(1)D2D通信中業(yè)務種類多、網(wǎng)絡數(shù)據(jù)的分布較為復雜,而混合模型在理論上可以建模和描述任意復雜的數(shù)據(jù)分布。

(2)混合模型及其學習算法屬于生成方式的學習范疇,只要獲得準確的模型,則可以用該模型作為大數(shù)據(jù)的緊湊表示形式,因此,其比判別方式的學習具有更小的存儲、更低的傳輸和處理復雜度,并且有利于在線操作[10]。

此外,根據(jù)不同目標場景中的不同類型的數(shù)據(jù),需要提出與之相對應的模型和配套學習算法,用其來表示大數(shù)據(jù)。例如,對于屬性較少(數(shù)據(jù)維度較低)的數(shù)據(jù),采用所提出的無限成分t混合模型及其學習算法,估計出模型的參數(shù),在后續(xù)的處理任務中只要關注參數(shù)就可以準確把握數(shù)據(jù)的特性。對于屬性較多的高維數(shù)據(jù),則采用所提出的無限成分t因子混合分析器及其學習算法,對數(shù)據(jù)進行有效地表示。對于具有時間或空間相關性的數(shù)據(jù)而言,則可以采用所提出的具有stick-breaking先驗分布的t隱馬爾可夫模型及其學習算法對數(shù)據(jù)進行表示[11]。隱馬爾可夫模型的最大特點在于結構較為靈活,其可以根據(jù)數(shù)據(jù)的分布自適應確定模型的結構(如混合成分數(shù)目、因子維數(shù)等),并且對大數(shù)據(jù)中出現(xiàn)的離群點也具有較強的魯棒性。由于通過學習算法得到的模型精確描述了數(shù)據(jù)的分布,較好地完成了后續(xù)任務,網(wǎng)絡業(yè)務流量的識別與預測的正確率有了較大的提升[6]。

進一步考慮到大數(shù)據(jù)表示和處理中對于模型復雜度和計算時間的需求,需要設計與上述模型相關的分布式算法。通過該類算法,網(wǎng)絡中的各個終端只需要采集到部分數(shù)據(jù),就可以通過節(jié)點間的協(xié)作來協(xié)同估計出反映整個數(shù)據(jù)特性的模型參數(shù)。需要注意的是,在通信網(wǎng)絡中,傳輸?shù)拇鷥r比本地終端計算的代價要高得多。因而在協(xié)作過程中,各個終端只需要和在其通信范圍內的鄰居節(jié)點進行通信,并且只傳輸用于估計最終模型參數(shù)的充分統(tǒng)計量,而無需把自己持有的那部分數(shù)據(jù)傳輸給鄰居終端。這樣做的優(yōu)點在于可以將對大數(shù)據(jù)的表示和處理分攤到各個終端上,從而最大程度降低了D2D終端的計算量。另一方面,由于充分統(tǒng)計量比原始數(shù)據(jù)量少很多,因此可以最大程度地降低傳輸代價,并且減少由于傳輸中丟包或其他錯誤、干擾等引起的系統(tǒng)性能的下降。

4 研究展望

對于未來D2D通信中大數(shù)據(jù)處理技術的研究可以從幾個方向開展:

(1)進一步地從高維大數(shù)據(jù)特征中壓縮冗余,剔除無關無用屬性,提取與應用目標相關的有用特征,將核學習、流形學習方法引入,解決大數(shù)據(jù)表示問題。

(2)利用半監(jiān)督學習、遷移學習、集成學習等理論和技術,最大程度地挖掘大數(shù)據(jù)間的內在關聯(lián)信息。

(3)在現(xiàn)有模型和方法的基礎上,開發(fā)設計在線學習算法,實時完成大數(shù)據(jù)的處理任務。

(4)設計分布式學習以及大數(shù)據(jù)處理算法,進一步提高網(wǎng)絡節(jié)點之間協(xié)同處理和通信的能力,進一步降低網(wǎng)絡節(jié)點之前傳輸?shù)臄?shù)據(jù)量。

(5)針對具體應用,設計結構更加靈活,更具有普適性、魯棒性的模型,并且開發(fā)設計快速、高效的模型參數(shù)及結構估計方法,從而獲得更簡潔的大數(shù)據(jù)表示形式。

5 結束語

D2D技術被廣泛認為是5G的關鍵技術和解決無線大數(shù)據(jù)傳輸?shù)挠辛ぞ摺1疚膹腄2D通信中大數(shù)據(jù)特征入手,分析面臨的挑戰(zhàn),提出應對策略,展望研究方向,綜合探討了如何提高D2D大數(shù)據(jù)無線傳輸?shù)姆€(wěn)定性、可靠性和高效性的問題。

大數(shù)據(jù)處理論文:大數(shù)據(jù)時代下的電力自動化系統(tǒng)數(shù)據(jù)處理

[摘 要]計算機技術與網(wǎng)絡通信技術已經(jīng)開始逐漸廣泛應用于電力自動化系統(tǒng),電力自動化系統(tǒng)的數(shù)據(jù)處理呈現(xiàn)多樣化趨勢,更加復雜化。筆者主要是從電力自動化系統(tǒng)數(shù)據(jù)類型角度考慮,對于電力系統(tǒng)的快速準確處理進行了分析,對電力自動化系統(tǒng)中數(shù)據(jù)處理的相關問題進行了闡述和分析。同時探討了作為電力自動化系統(tǒng)發(fā)展方向的智能電網(wǎng),對其拓撲結構和通信系統(tǒng)進行介紹。

[關鍵詞]大數(shù)據(jù)時代;電力自動化;數(shù)據(jù)處理

引言

電力系統(tǒng)是一個動態(tài)的系統(tǒng),主要包含發(fā)電、變電、輸電和配電四個部分。 電力系統(tǒng)的動態(tài)性和實時性是由于電能不能存儲的特性決定的。 正是電力系統(tǒng)的動態(tài)性和實時性使得其在具體的運行過程中,會產(chǎn)生大量的實時數(shù)據(jù),為電力系統(tǒng)中調度部門的操作帶來了巨大的困難, 電力自動化系統(tǒng)也就應運而生。 電力自動化系統(tǒng)為電力系統(tǒng)運行過程中產(chǎn)生大量實時數(shù)據(jù)的準確處理創(chuàng)造了條件?!按髷?shù)據(jù)”時代最先被全球知名的咨詢公司麥肯錫提出來,其是生產(chǎn)決策的重要依據(jù)。 所謂的大數(shù)據(jù)時代,是指在互聯(lián)網(wǎng)技術下,企業(yè)的生產(chǎn)運營過程中相關數(shù)據(jù)的積累,其在商業(yè)、經(jīng)濟和其他領域越來越突出,對相關決策具有十分重要的作用。

一、電力自動化系統(tǒng)的類型分類

1.基礎型數(shù)據(jù):主要是與電力自動化系統(tǒng)中的電力設施設備屬性相關的數(shù)據(jù),如,發(fā)電機、變壓器等電力設施設備的基礎數(shù)據(jù)。 對于這些數(shù)據(jù)一般是電力單位根據(jù)相關的數(shù)據(jù)規(guī)劃各自進行管理, 并通過相關數(shù)據(jù)服務器對其數(shù)據(jù)進行數(shù)據(jù)同步,便于調度中心對這些數(shù)據(jù)進行集中存儲、整理和相關計算。

2.實時數(shù)據(jù):大多數(shù)是在電力系統(tǒng)運行過程中進行實時采集的數(shù)據(jù),其數(shù)據(jù)量很大,對存儲空間的要求比較高。 這些數(shù)據(jù)是在電力系統(tǒng)運行過程中產(chǎn)生的, 通過對其進行糾錯處理后,能夠為調度部門或市場運營提供決策參考依據(jù)。 目前,我國電力自動化系統(tǒng)在實時數(shù)據(jù)處理方面比較成熟,對收集到的實時數(shù)據(jù)不需要進行相關的處理,只需要在數(shù)據(jù)輸入、輸出過程中建立一個穩(wěn)定的接口即可。

3.日常管理的數(shù)據(jù):主要是在電力系統(tǒng)運行過程中對各種相關數(shù)據(jù)進行統(tǒng)計,各部門對在工作中遇到的問題進行相關處理后的數(shù)據(jù)信息。 一般情況下,這些數(shù)據(jù)只需要在特定的范圍內進行同步和共享即可。 在電力系統(tǒng)運行過程中,建立這一類型數(shù)據(jù)同步和共享的數(shù)據(jù)平臺是十分必要的。 主要原因表現(xiàn)在以下幾個方面: ① 這些日常管理的數(shù)據(jù)在某種程度上反映電力系統(tǒng)中電力設施設備的運行情況; ② 方便電力系統(tǒng)中各個部門對日常管理數(shù)據(jù)的獲取,以便更好的開展部門工作。

4.市場經(jīng)濟數(shù)據(jù):隨著市場經(jīng)濟的發(fā)展,電力系統(tǒng)的經(jīng)濟效益越來越突出,電力系統(tǒng)運行中的相關數(shù)據(jù)對電力單位的發(fā)展具有重要影響,將其作為經(jīng)濟性數(shù)據(jù)十分有必要。 市場經(jīng)濟數(shù)據(jù)對城市建設規(guī)劃中的電力規(guī)劃有很重要的決策參考依據(jù)。 市場經(jīng)濟數(shù)據(jù)具有非常大的擴展空間,其數(shù)據(jù)規(guī)劃的重點將是實時數(shù)據(jù)。

二、電力自動化系統(tǒng)中的數(shù)據(jù)統(tǒng)一性

數(shù)據(jù)一致性即數(shù)據(jù)的唯一性。 電力自動化系統(tǒng)在運行過程中,會產(chǎn)生大量的數(shù)據(jù)信息,這些數(shù)據(jù)信息大部分都是其子系統(tǒng)中特有的信息, 還有一部分是部分子系統(tǒng)中共有的數(shù)據(jù)信息,也就是各子系統(tǒng)之間的數(shù)據(jù)信息交叉現(xiàn)象。 每個子系統(tǒng)中的數(shù)據(jù)均存儲在其數(shù)據(jù)庫系統(tǒng)中,會對整個系統(tǒng)的數(shù)據(jù)存儲造成大量的數(shù)據(jù)冗余,使得電力系統(tǒng)中數(shù)據(jù)系統(tǒng)處理數(shù)據(jù)信息的效率不高,數(shù)據(jù)信息更新緩慢,甚至會造成數(shù)據(jù)信息的混亂,很大程度上降低了電力系統(tǒng)中數(shù)據(jù)系統(tǒng)的使用效率和可信度。在實際電力自動化系統(tǒng)運行過程中,通過對整個系統(tǒng)的數(shù)據(jù)庫系統(tǒng)進行統(tǒng)一管理,能夠在很大程度上保證數(shù)據(jù)信息的一致性。 對于部分離線數(shù)據(jù)庫系統(tǒng)來說,其數(shù)據(jù)信息的唯一性主要是通過利用離線數(shù)據(jù)庫在數(shù)據(jù)庫系統(tǒng)的服務器上,對數(shù)據(jù)庫系統(tǒng)的服務器進行統(tǒng)一維護。 對實時數(shù)據(jù)庫而言,主要是通過電力自動化系統(tǒng)在運行過程中,由實時數(shù)據(jù)庫系統(tǒng)中的管理系統(tǒng)進行統(tǒng)一、實時的管理,確保數(shù)據(jù)信息的一致性。

三、電力自動化系統(tǒng)中的數(shù)據(jù)容災

通常情況下,需要對電力自動化系統(tǒng)中的重要數(shù)據(jù)信息進行數(shù)據(jù)備份,再通過網(wǎng)絡通信技術將其傳輸?shù)疆惖剡M行數(shù)據(jù)信息保存。 當發(fā)生災難后,可以由相關的計算機專業(yè)人員根據(jù)備份的數(shù)據(jù)對電力自動化系統(tǒng)中的數(shù)據(jù)進行程序恢復和數(shù)據(jù)恢復。 這有利于降低電力單位在數(shù)據(jù)信息備份方面的成本,操作也相對而言較為簡單方便。當電力自動化系統(tǒng)中需要備份的數(shù)據(jù)量逐漸增加時,就會出現(xiàn)數(shù)據(jù)信息存儲介質不易管理的問題,在發(fā)生災難后,也不

能夠及時的將大量的數(shù)據(jù)信息進行恢復。

四、電力自動化系統(tǒng)數(shù)據(jù)收集過程

電力自動化系統(tǒng)運行過程中的數(shù)據(jù),主要是通過數(shù)據(jù)信息的采集、集中、整理和轉發(fā)來實現(xiàn)的。 根據(jù)數(shù)據(jù)類型的不同,采用不同的傳輸介質進行傳輸。 數(shù)據(jù)信息的通信方式主要有兩種: ① 有線傳輸,如,光纖、電纜等多種介質,具有數(shù)據(jù)信息傳輸?shù)膶崟r性和可靠性等優(yōu)點; ② 無線傳輸,如,微波、無線擴頻等通信模式,具有無需鋪設通信通道、工作量少等優(yōu)點。在實際的電力自動化系統(tǒng)運行過程中, 其涉及面十分廣、系統(tǒng)種類多,根據(jù)不同的部門需求的多個系統(tǒng)組成,能夠滿足每個部門在數(shù)據(jù)系統(tǒng)中獲取數(shù)據(jù)信息。 電力自動化系統(tǒng)中的設施設備的采購,可以適當?shù)膶⒁恍┫冗M的技術和經(jīng)濟性能的指標進行考慮,再在操作技術上進行優(yōu)化處理,以最大程度的實現(xiàn)電力單位的經(jīng)濟效益和社會效益。

五、智能電網(wǎng)

1.智能電網(wǎng)中的網(wǎng)絡拓撲結構

智能電網(wǎng)中的網(wǎng)絡拓撲結構具有堅強、靈活的特點,能夠有效的解決電力系統(tǒng)中能源和生產(chǎn)力分布不均勻的問題,滿足電力企業(yè)大規(guī)模生產(chǎn)運輸過程中產(chǎn)生大規(guī)模數(shù)據(jù)的處理功能,實現(xiàn)資源的優(yōu)化配置,減少電能損耗。 同時,智能電網(wǎng)中的網(wǎng)絡拓撲結構能夠有效的應對一些自然災害,如雨、雪等。

2.開放、 標準、 集成的通信系統(tǒng)

智能電網(wǎng)能夠對電力自動化系統(tǒng)進行及時有效的監(jiān)控,主要在其具有識別故障早期征兆的預測能力和對故障做出相關的相應的能力。 智能電網(wǎng)是電力自動化企業(yè)的發(fā)展方向,能夠為電網(wǎng)規(guī)劃、建設和運行管理提供全面的數(shù)據(jù)信息,有利于大數(shù)據(jù)時代下電力自動化運行系統(tǒng)的穩(wěn)定、安全和高效的運行。

六、結語

自動化系統(tǒng)的正常運行,一定要充分考慮到系統(tǒng)運行中數(shù)據(jù)信息的數(shù)量信息,便于數(shù)據(jù)的維修和存儲空間的無限擴展。文章主要是分析了自動化系統(tǒng)的數(shù)據(jù)類型,并且對其進行了詳盡的分析,對于相關問題進行了闡述,給電力自動化系統(tǒng)提供了更加廣闊的空間,并探究了智能電網(wǎng)在電力自動化運行系統(tǒng)中運行的優(yōu)勢和未來的發(fā)展方向。

大數(shù)據(jù)處理論文:智能電網(wǎng)大數(shù)據(jù)處理技術現(xiàn)狀和面臨的挑戰(zhàn)

[摘 要]在當前新時期環(huán)境下,智能電網(wǎng)大數(shù)據(jù)處理技術在獲得飛速發(fā)展的同時也面臨著新的挑戰(zhàn),本文首先對智能電網(wǎng)大數(shù)據(jù)的特點進行了分析,并且探討了智能電網(wǎng)大數(shù)據(jù)處理技術的發(fā)展現(xiàn)狀,重點分析其在當今新時期環(huán)境中面臨的挑戰(zhàn)。

[關鍵詞]智能電網(wǎng) 大數(shù)據(jù)處理技術 現(xiàn)狀 挑戰(zhàn)

隨著我國智能電網(wǎng)建設進程的不斷推進與深入,電網(wǎng)運行與設備監(jiān)測過程中也產(chǎn)生了大量的數(shù)據(jù)信息,逐漸構成了當今信息學姐與研究人員重點關注的發(fā)數(shù)據(jù),但大數(shù)據(jù)時代下電網(wǎng)的高效、穩(wěn)定運行離不開相應的處理與存儲技術作為支撐。

1.智能電網(wǎng)大數(shù)據(jù)的應用特征

電網(wǎng)業(yè)務數(shù)據(jù)可以大致劃分為三類:第一是數(shù)據(jù)監(jiān)測、設備檢測及電網(wǎng)運行;第二是電力企業(yè)營銷數(shù)據(jù),如用電客戶、銷售量、交易電價等方面的信息數(shù)據(jù);第三是電力企業(yè)的管理數(shù)據(jù)。[1]數(shù)據(jù)信息量十分巨大,并且隨著電網(wǎng)數(shù)據(jù)的不斷更新升級,數(shù)據(jù)類型也變得繁雜多樣。電網(wǎng)數(shù)據(jù)種類眾多、分布較廣,主要包括多媒體數(shù)據(jù)、文本數(shù)據(jù)、實時數(shù)據(jù)、時間序列變化等半結構化、非結構化以及結構化數(shù)據(jù),不同類別的數(shù)據(jù)在查詢、處理方面的性能與頻度要求也存在很大差異。智能電網(wǎng)運行時的數(shù)據(jù)價值密度較低,例如電網(wǎng)監(jiān)控視頻,其在實際監(jiān)控管理的過程中,總數(shù)據(jù)中十分有用的信息量是非常少的,多數(shù)的數(shù)據(jù)都是正常數(shù)據(jù)。

2.智能電網(wǎng)大數(shù)據(jù)處理技術發(fā)展現(xiàn)狀分析

2.1 并行數(shù)據(jù)庫

關系數(shù)據(jù)庫主要負責對結構化數(shù)據(jù)進行存儲,從而提供嚴格依據(jù)規(guī)則快速處理事務的能力、邊界的數(shù)據(jù)查詢與分析能力、數(shù)據(jù)安全性保障以及多用戶并發(fā)訪問能力。應用強大的數(shù)據(jù)分析能力以及SQL查詢語言以及獨特的程序優(yōu)勢獲得了廣泛的應用。[2]經(jīng)管隨著智能電網(wǎng)建設的不斷加快,數(shù)據(jù)超出了關系型數(shù)據(jù)庫的管理范疇,地理信息圖片與音頻、圖片以及視頻等非結構化的數(shù)據(jù)逐漸成為需要處理與存儲的信息的一項重要組成部分。

2.2 云計算技術

隨著云計算平臺的出現(xiàn)及完善,大數(shù)據(jù)技術的需求也相繼出現(xiàn),云計算的關鍵是數(shù)據(jù)并行處理與海量數(shù)據(jù)存儲技術。而在智能電網(wǎng)中,電力設備狀態(tài)監(jiān)測設備的數(shù)據(jù)量應當是最為龐大的,而狀態(tài)監(jiān)測數(shù)據(jù)不但包含了在線數(shù)據(jù),還應當包括缺陷記錄、實驗記錄以及基本信息等,由于數(shù)據(jù)量極大,其對于實時性要求比企業(yè)的數(shù)據(jù)管理更高。當前,云計算技術在電力行業(yè)的發(fā)展依然處于初級的階段,現(xiàn)行的云計算平臺能夠充分滿足職能電網(wǎng)監(jiān)控軟件運行的可擴展性與可靠性要求,但在數(shù)據(jù)隱私、安全性、一致性以及實時性方面存在缺陷,依然需要進一步優(yōu)化與完善。

3. 智能電網(wǎng)大數(shù)據(jù)處理技術面臨的挑戰(zhàn)分析

3.1 大數(shù)據(jù)傳輸與儲存技術

隨著智能化的不斷發(fā)展,電力系統(tǒng)在運行過程中的電力設備監(jiān)測數(shù)據(jù)與其他數(shù)據(jù)都會被記錄下來,數(shù)據(jù)量不斷增加,這對于電網(wǎng)運行監(jiān)控以及數(shù)據(jù)的傳輸、存儲造成巨大的壓力,同時在一定程度上影響了電網(wǎng)智能化的發(fā)展。在智能電網(wǎng)大數(shù)據(jù)存儲方面,通過分布式文件保存的形式可以進行大數(shù)據(jù)存儲,然而可能對電力系統(tǒng)在數(shù)據(jù)實時處理方面產(chǎn)生影響。[3]因此,需要對電網(wǎng)大數(shù)據(jù)進行分門別類后再存儲。而重點是將其中非結構化的數(shù)據(jù)轉化為結構化數(shù)據(jù),對于智能大數(shù)據(jù)處理技術來說依然較為困難。

3.2 數(shù)據(jù)處理時效性技術

對于大數(shù)據(jù)來說,其數(shù)據(jù)處理的速度是非常重要的。通常而言,數(shù)據(jù)的規(guī)模越大,需要分析與處理的時間也會越長。以往的數(shù)據(jù)存儲方案針對一定要求的數(shù)據(jù)量進行設計,其在大數(shù)據(jù)方面并不適用。[4]而在未來智能電網(wǎng)的大環(huán)境下,如何在發(fā)電、輸變電、用電等環(huán)節(jié)進行數(shù)據(jù)實時性處理是一個非常關鍵的問題。

3.3 異構多數(shù)據(jù)源處理技術

在未來智能電網(wǎng)要求貫通電網(wǎng)運行的每一個環(huán)節(jié)之中,時間新信息的高效采集與處理,并且逐漸朝著業(yè)務流、信息流以及電力流高度一體化的方向進行發(fā)展。所以,首先要做的就是如何整合大規(guī)模多源異構信息,為智能電網(wǎng)提供一個資源高度集約化配置的數(shù)據(jù)處理中心。對于海量的異構數(shù)據(jù)來說,如何構建出科學的模型進行規(guī)范表達以及如何在這個模型的基礎上實現(xiàn)數(shù)據(jù)的存儲、融合、查詢等是亟待解決的重要問題。

結語

我國智能電網(wǎng)系統(tǒng)的應用廣度與深度在不斷加強,大數(shù)據(jù)處理技術逐漸成為維護電網(wǎng)智能安全運行的一項重要手段。然而隨著電網(wǎng)智能運行的不斷發(fā)展,其在大數(shù)據(jù)處理一致性、隱私性、實時性等方面也面臨著相應的挑戰(zhàn),未來智能電網(wǎng)的主要依托依然是大數(shù)據(jù)處理分析技術,所以必須尋找出妥善應對挑戰(zhàn)的策略,最終推動我國電力事業(yè)的長久穩(wěn)定發(fā)展。

大數(shù)據(jù)處理論文:移動互聯(lián)網(wǎng)的大數(shù)據(jù)處理關鍵技術

【摘 要】通過大數(shù)據(jù)的研究處理將獲得的有用信息服務于企業(yè)或機構,使其在競爭中取得優(yōu)勢,來為企業(yè)提供更好的處理大數(shù)據(jù)的方法,幫助企業(yè)更深刻的理解客戶對其的需求和體驗,以利于業(yè)務的發(fā)展,用戶也可以更好地體驗移動互聯(lián)網(wǎng)各種資源。本文首先對移動互聯(lián)網(wǎng)大數(shù)據(jù)做了概述,然后分析了移動互聯(lián)網(wǎng)大數(shù)據(jù)處理中存在的問題,最后詳細闡述了移動互聯(lián)網(wǎng)的大數(shù)據(jù)處理關鍵技術。

【關鍵詞】移動互聯(lián)網(wǎng);大數(shù)據(jù);處理;排重;整合

一、移動互聯(lián)網(wǎng)大數(shù)據(jù)概述

移動互聯(lián)網(wǎng)大數(shù)據(jù)是指用戶使用智能終端在移動網(wǎng)絡中產(chǎn)生的數(shù)據(jù),主要包括:與網(wǎng)絡信令、協(xié)議、流量等相關的網(wǎng)絡信息數(shù)據(jù);與用戶信息相關的用戶數(shù)據(jù);與業(yè)務相關的數(shù)據(jù)。

大數(shù)據(jù)提供客戶經(jīng)歷的各種體驗的完整信息,可以詳盡到在任何時間、地點,結合移動客戶體驗方案來分析相關數(shù)據(jù),從而幫助運營商更詳細掌握客戶體驗情況,提前預知網(wǎng)絡上可能發(fā)生的問題,及時做出合理響應,這些信息對運營商的服務提供很大的幫助。大數(shù)據(jù)分析為整個電信產(chǎn)業(yè)帶來了前所未有的機遇與挑戰(zhàn),如何高效地發(fā)揮這些數(shù)據(jù)資源的作用,是擺在為運營商面前的關鍵問題。

二、移動互聯(lián)網(wǎng)大數(shù)據(jù)處理中存在的問題

(一)多源數(shù)據(jù)采集問題

大數(shù)據(jù)時代的數(shù)據(jù)存在如下幾個特點:多源異構、分布廣泛、動態(tài)增長、先有數(shù)據(jù)后有模式。舉例來說,一個用戶的一條位置信息的價值是很小的,但是很多這樣的低價值數(shù)據(jù)可以完整刻畫出用戶的運動軌跡,獲得本質上的價值提升。然而,在已有的數(shù)據(jù)采集系統(tǒng)中,數(shù)據(jù)收集不全面是一個普遍的問題,如何處理來自多源的數(shù)據(jù)是移動互聯(lián)網(wǎng)大數(shù)據(jù)時代面臨的新挑戰(zhàn)。其中,迫切需要解決如下幾個問題:

1.無線移動網(wǎng)絡結構復雜,需要在網(wǎng)絡中高效地采集數(shù)據(jù)。

2.多源數(shù)據(jù)集成和多類型數(shù)據(jù)集成的技術。

3.兼顧用戶的隱私和數(shù)據(jù)的所有權和使用權等。

(二)移動互聯(lián)網(wǎng)海量異構數(shù)據(jù)管理問題

據(jù)統(tǒng)計,2003年前人類共創(chuàng)造了5艾字節(jié)(Exabytes)的數(shù)據(jù),而今天兩天的時間就可以創(chuàng)造如此大量的數(shù)據(jù)。這些數(shù)據(jù)大部分是異構數(shù)據(jù),有些具有用戶標注、有些沒有;有些是結構化的(比如數(shù)值、符號)、有些是非結構化話的(比如圖片、聲音);有些時效性強、有些時效性弱;有些價值度高、有些價值度低。移動互聯(lián)網(wǎng)海量異構數(shù)據(jù)管理平臺包含以下關鍵研究和技術:海量異構大數(shù)據(jù)傳輸控制、大數(shù)據(jù)存儲、大數(shù)據(jù)質量管理。

(三)移動互聯(lián)網(wǎng)大數(shù)據(jù)實時數(shù)據(jù)挖掘問題

傳統(tǒng)意義上的數(shù)據(jù)分析(Analysis)主要針對結構化數(shù)據(jù)展開,且已經(jīng)形成了一整套行之有效的分析體系。首先,利用數(shù)據(jù)庫來存儲結構化數(shù)據(jù),在此基礎上構建數(shù)據(jù)倉庫,根據(jù)需要構建數(shù)據(jù)立方體進行聯(lián)機分析處理(OLAP,Online Analytical Processing),可以進行多個維度的下鉆(Drill-down)或上卷(Roll-up)操作。對于從數(shù)據(jù)中提煉更深層次的知識的需求促使了數(shù)據(jù)挖掘技術的產(chǎn)生,并發(fā)明了聚類、關聯(lián)分析等一系列在實踐中行之有效的方法。這一整套處理流程在處理相對較少的結構化數(shù)據(jù)時極為高效。但是,對于移動互聯(lián)網(wǎng)來說,涉及更多的是多模態(tài)數(shù)據(jù)挖掘,這些數(shù)據(jù)包括手機上的傳感器,包括加速度計、陀螺儀、指南針、GPS、麥克風、攝像頭、以及各種無線信號(如GSM、WiFi)和藍牙等。這些原始數(shù)據(jù)在不同維度上刻畫被感知的對象,需要經(jīng)過不同層次的加工和提煉才能形成從數(shù)據(jù)到信息再到知識的飛躍。移動互聯(lián)網(wǎng)半結構化和非結構化數(shù)據(jù)量的迅猛增長,給傳統(tǒng)的分析技術帶來了巨大的沖擊和挑戰(zhàn)。

三、移動互聯(lián)網(wǎng)的大數(shù)據(jù)處理關鍵技術

(一)數(shù)據(jù)處理的整體框架

數(shù)據(jù)處理的整個過程如圖1所示,主要包括四個模塊:分詞(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和數(shù)據(jù)。

這四個模塊的主要功能如下。

分詞:對抓取到的網(wǎng)頁內容進行切詞處理。

排重:對眾多的網(wǎng)頁內容進行排重。

整合:對不同來源的數(shù)據(jù)內容進行格式上的整合。

數(shù)據(jù):包含兩方面的數(shù)據(jù),Spider Data(爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù))和 Dp Data(在整個數(shù)據(jù)處理過程中產(chǎn)生的的數(shù)據(jù))。

(二)數(shù)據(jù)處理的基本流程

整個數(shù)據(jù)處理過程的基本步驟如下:

1.對抓取來的網(wǎng)頁內容進行分詞。

2.將分詞處理的結果寫入數(shù)據(jù)庫。

3.對抓取來的網(wǎng)頁內容進行排重。

4.將排重處理后的數(shù)據(jù)寫入數(shù)據(jù)庫。

5.根據(jù)之前的處理結果,對數(shù)據(jù)進行整合。

6.將整合后的結果寫入數(shù)據(jù)庫。

(三)數(shù)據(jù)處理的關鍵技術

1.排重。

排重就是排除掉與主題相重復項的過程,網(wǎng)頁排重就是通過兩個網(wǎng)頁之間的相似度來排除重復項。Simhash算法是一種高效的海量文本排重算法,相比于余弦角、歐式距離、Jaccard相似系數(shù)等算法,Simhash避免了對文本兩兩進行相似度比較的復雜方式,從而大大提高了效率。

采用Simhash算法來進行抓取網(wǎng)頁內容的排重,可以容納更大的數(shù)據(jù)量,提供更快的數(shù)據(jù)處理速度,實現(xiàn)大數(shù)據(jù)的快速處理。

Simhash算法的基本思想描述如下:輸入為一個N維向量V,比如文本的特征向量,每個特征具有一定權重。輸出是一個C位的二進制簽名S。

(1)初始化一個C維向量Q為0,C位的二進制簽名S為0。

(2)對向量V中的每一個特征,使用傳統(tǒng)的Hash算法計算出一個C位的散列值H。對1

(3)如果Q的第i個元素大于0,則S的第i位為1;否則為0。

(4)返回簽名S。

對每篇文檔根據(jù)SimHash算出簽名后,再計算兩個簽名的海明距離(兩個二進制異或后1的個數(shù))即可。根據(jù)經(jīng)驗值,對64位的SimHash,海明距離在3以內的可以認為相似度比較高。

2.整合。

整合就是把抓取來的網(wǎng)頁內容與各個公司之間建立對應關系。對于每一個公司來說,可以用一組關鍵詞來對該公司進行描述,同樣的,經(jīng)過dp處理之后的網(wǎng)頁內容,也可以用一組關鍵詞來進行描述。因此,整合就變成了兩組關鍵詞(公司關鍵詞,內容關鍵詞)之間的匹配。

對于網(wǎng)頁內容的分詞結果來說,存在著兩個特點:(1)分詞結果的數(shù)量很大;(2)大多數(shù)的分詞對描述該網(wǎng)頁內容來說是沒有貢獻的。因此,對網(wǎng)頁的分詞結果進行一下簡化,使用詞頻最高的若干個詞匯來描述該網(wǎng)頁內容。

3.流處理系統(tǒng)。

移動互聯(lián)網(wǎng)的多源異構數(shù)據(jù)每時每刻都在大量產(chǎn)生著。數(shù)據(jù)探測模塊根據(jù)這些數(shù)據(jù)處理的不同要求,將數(shù)據(jù)分別送給實時處理系統(tǒng)和批處理系統(tǒng)。很多互聯(lián)網(wǎng)公司將根據(jù)業(yè)務的需求和處理的時間將劃分為在線、近線和離線三種方式來處理業(yè)務消耗的時間。這其中,在線處理的處理時間通常在毫秒級,一般采用流處理方式;離線處理的處理時間通常以天為單位,一般采用批處理方式。這樣會最大程度地利用好輸入/輸出系統(tǒng)。近線處理對其處理模式?jīng)]有特別的要求,處理的時間一般在分鐘級或小時級,在實際情況中多采用此處理方式,可根據(jù)需求靈活選擇。

四、結語

綜上,隨著移動互聯(lián)網(wǎng)的迅猛發(fā)展,客戶處理的業(yè)務越來越復雜,與其相關的大數(shù)據(jù)正逐漸增長,大數(shù)據(jù)分析技術已經(jīng)成為各方關注的焦點。合理使用大數(shù)據(jù)將有效的發(fā)揮移動互聯(lián)網(wǎng)大數(shù)據(jù)的資源作用,使大數(shù)據(jù)為用戶獲得前所未有的體驗,為企業(yè)發(fā)展提供完整清晰的指引。

大數(shù)據(jù)處理論文:大數(shù)據(jù)時代下管理會計數(shù)據(jù)處理的新變革

摘要:隨著大數(shù)據(jù)時代的到來,各行各業(yè)都受到不同程度的沖擊,管理會計也面臨著前所未有的挑戰(zhàn),尤其在數(shù)據(jù)處理方面發(fā)生了巨大的變革。這些變革包括管理會計大數(shù)據(jù)的思維模式,數(shù)據(jù)的收集、存儲、加工、分析等數(shù)據(jù)處理方面的變革。

關鍵詞:管理會計 大數(shù)據(jù)時代 云計算

隨著互聯(lián)網(wǎng)時代的開啟,大數(shù)據(jù)概念開始在全球蔓延,我國也于2014年將“大數(shù)據(jù)戰(zhàn)略”上升為國家戰(zhàn)略,基于互聯(lián)網(wǎng)的大數(shù)據(jù)逐漸正改變著各行各業(yè)的傳統(tǒng)模式,作為會計重要分支的管理會計工作也遇到了前所未有的挑戰(zhàn)。

一、大數(shù)據(jù)時代的到來

(一)大數(shù)據(jù)時代的特點

“大數(shù)據(jù)時代”這一概念最早是由全球知名咨詢公司麥肯錫提出的,“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)要素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來?!睒I(yè)界普遍認為大數(shù)據(jù)的特點可以由四個“V”概括,即Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。大量是指相對于傳統(tǒng)的數(shù)據(jù)產(chǎn)生方式,現(xiàn)在的數(shù)據(jù)呈現(xiàn)出爆炸式增長的特點;多樣是指數(shù)據(jù)來源多樣繁雜,如數(shù)字、文字、圖片、音頻、圖像、網(wǎng)頁、地理位置信息等五花八門的數(shù)據(jù)形式;高速是指隨著云計算等先進技術的發(fā)展使得數(shù)據(jù)的計算能力突飛猛進,數(shù)據(jù)庫實時更新;價值是指價值密度低,比如一個小時的視頻也許只能采集到幾秒鐘有用的數(shù)據(jù)。自古以來商業(yè)的發(fā)展都是基于數(shù)據(jù)分析作出決策,但從未有一個時代像大數(shù)據(jù)時代這樣出現(xiàn)如此大規(guī)模的數(shù)據(jù),如今的企業(yè)就像是漂浮在數(shù)據(jù)海洋上的巨輪,而管理會計需要做的就是及時準確地挖掘出有用的數(shù)據(jù)。

(二)大數(shù)據(jù)拉啟了管理會計新發(fā)展的序幕

1、海量數(shù)據(jù)為管理會計提供了重要的經(jīng)營管理資源

管理會計職能的有效發(fā)揮必須建立在對數(shù)據(jù)的準確分析上,大數(shù)據(jù)時代數(shù)據(jù)呈現(xiàn)出樣本數(shù)據(jù)向全數(shù)據(jù)轉變的趨勢,使得管理會計的處理對象更加完整。對于任何企業(yè)來說,數(shù)據(jù)都是商業(yè)皇冠上最為耀眼奪目的寶石,在未來的商業(yè)競爭中,誰能夠占有更及時、更豐富的數(shù)據(jù),誰才有可能在瞬息多變的市場中站穩(wěn)腳跟。管理會計工作者要應勢而動,建立數(shù)據(jù)倉庫,做好數(shù)據(jù)資源的收集、存儲、挖掘及整理分析和共享的工作。

2、傳統(tǒng)的結構化數(shù)據(jù)已無法滿足管理會計的決策需求

一直以來,結構化數(shù)字數(shù)據(jù)作為管理會計的主要處理對象在企業(yè)決策中發(fā)揮了重要的作用,但隨著數(shù)據(jù)的爆炸式發(fā)展,企業(yè)自身信息系統(tǒng)中產(chǎn)生的標準化、結構化數(shù)據(jù)在企業(yè)所能獲得的數(shù)據(jù)中所占的比重越來越小,甚至不足15%,顯而易見,結構化數(shù)據(jù)在企業(yè)決策中所發(fā)揮的作用已非常有限。據(jù)統(tǒng)計資料顯示,企業(yè)的數(shù)據(jù)資源中85%屬于廣泛存在于社交網(wǎng)絡、物聯(lián)網(wǎng)等之中的非結構化或半結構化數(shù)據(jù),這些數(shù)據(jù)被用來優(yōu)化生產(chǎn)流程,增強客戶體驗。因此,企業(yè)管理者必須重視數(shù)據(jù)資源的全面性,特別是半結構化數(shù)據(jù)和非結構化數(shù)據(jù)的收集,為管理決策提供完整、準確的依據(jù)。

3、實時更新的動態(tài)數(shù)據(jù)促進企業(yè)數(shù)據(jù)處理能力的提高

大數(shù)據(jù)時代下,企業(yè)每天需要處理的數(shù)據(jù)以驚人的速度不斷增長,傳統(tǒng)的關系型數(shù)據(jù)庫已成為管理會計發(fā)展過程中的主要瓶頸,以沃爾瑪為例,通過建立數(shù)據(jù)倉庫,其每小時可以處理的交易記錄高達一百萬次,存儲數(shù)據(jù)規(guī)模多達2500TB,這是傳統(tǒng)的關系型數(shù)據(jù)庫絕對做不到的。鑒于人腦對數(shù)據(jù)處理能力的有限性,處理完的數(shù)據(jù)也需要以可視化的界面呈現(xiàn)出來,這也對管理會計提出了新的要求。

4、數(shù)據(jù)的價值取決于其及時性和預測性

大數(shù)據(jù)分析最重要的一點是保證數(shù)據(jù)的及時性,其次是預測性。以很多企業(yè)投入使用的臉譜識別系統(tǒng)為例,從進門的那一刻,人臉就被快速抓拍,通過技術分析可以明確地知道這個人是誰,他將要去哪里,這些曾經(jīng)看似天方夜譚的事情已經(jīng)實實在在的發(fā)生了,這個世界正在發(fā)生改變。數(shù)據(jù)的及時性和預測性對管理會計提出了更高的要求,構建數(shù)據(jù)倉庫、應用數(shù)據(jù)挖掘技術已是勢在必行。

二、大數(shù)據(jù)時代引發(fā)管理會計數(shù)據(jù)處理模式的重大變革

(一)管理會計數(shù)據(jù)搜集方式與內容的變革

傳統(tǒng)的會計核算系統(tǒng)中,數(shù)據(jù)源頭是各種紙質原始憑證,隨著互聯(lián)網(wǎng)技術和各種電子設備的廣泛應用,原始憑證由紙質慢慢過渡成為電子數(shù)據(jù),并且不再由財務人員負責收集,而是廣泛分散在采購部門、生產(chǎn)車間、銷售部門、后勤部門等各業(yè)務部門,甚至是供應商、客戶、政府機構、中介機構等外部相關組織中。通過管理信息系統(tǒng)和互聯(lián)網(wǎng)直接采集信息,節(jié)省時間和成本的同時,也提高了數(shù)據(jù)的準確性。

大數(shù)據(jù)時代下,相對于傳統(tǒng)的結構化數(shù)據(jù),半結構化和非結構化數(shù)據(jù)的運用是越來越廣泛。大量的數(shù)據(jù)出現(xiàn)在社交平臺、新聞網(wǎng)頁、各種客戶端等,并以音頻、視頻、圖片、符號等多種多樣的形式呈現(xiàn)出來,這些數(shù)據(jù)都有別于傳統(tǒng)的結構化數(shù)據(jù),呈現(xiàn)出非線性的特征,但對于管理決策卻發(fā)揮著日益重要的作用,管理會計如何處理這些數(shù)據(jù)已是當務之急。如客戶在微信、微博、論壇等社交平臺中發(fā)表的對產(chǎn)品或服務的評價,如果加以處理和分析,完全可以用于管理決策支持。

(二)管理會計數(shù)據(jù)存儲方式與內容的變革

大數(shù)據(jù)時代,如何將復雜多樣的海量數(shù)據(jù)加工提煉成有用的信息以供管理者決策之用是所有企業(yè)需要解決的首要難題。目前的數(shù)據(jù)庫市場中,傳統(tǒng)的關系型數(shù)據(jù)庫仍處于主導地位,這類數(shù)據(jù)庫只能夠處理結構化數(shù)據(jù),隨著數(shù)據(jù)來源與種類形式的日益多樣化,關系型數(shù)據(jù)庫在高并發(fā)讀寫、高吞吐率和海量數(shù)據(jù)存取、高可用性和高擴展性需求等方面越來越無法適應新的形勢,操作復雜、成本高昂,最關鍵的是數(shù)據(jù)處理的有限性已成為制約企業(yè)發(fā)展的瓶頸,如不及時轉變思路和更新技術,企業(yè)難逃被市場淘汰的命運。大數(shù)據(jù)倉庫是世界各國普遍采用的一種管理系統(tǒng),包括數(shù)據(jù)的收集、預處理、存儲、整合、分析、數(shù)據(jù)挖掘和價值再造等多種功能模塊,保證數(shù)據(jù)被充分提煉和處理。企業(yè)也可以根據(jù)自己的實際需要,將大數(shù)據(jù)倉庫分為不同功能模塊,如存貨管理模塊、生產(chǎn)計劃模塊、銷售管理模塊等,明晰的模塊分類有利于數(shù)據(jù)的管理和使用,在這個基礎上,企業(yè)可以利用數(shù)據(jù)挖掘技術尋找能為企業(yè)創(chuàng)造價值的潛在信息。

(三)管理會計數(shù)據(jù)加工分析方式的變革

大數(shù)據(jù)時代下,數(shù)據(jù)挖掘已經(jīng)成為一項應對海量數(shù)據(jù)必不可少的技術?!捌【坪湍虿粷瘛币呀?jīng)成為了數(shù)據(jù)挖掘中最經(jīng)典的案例,零售連鎖舉頭沃爾瑪公司擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng)之一,在這里集合了其所有門店的詳細原始交易數(shù)據(jù),在這些原始交易數(shù)據(jù)的基礎上,沃爾瑪利用數(shù)據(jù)挖掘工具對這些數(shù)據(jù)進行分析和挖掘,最后得出結論:跟尿不濕一起購買最多的商品竟是啤酒。在數(shù)據(jù)挖掘過程中需要用到回歸分析、趨勢分析、決策樹分析、時間序列分析等算法,而這些對于管理會計工作者來說顯得相當陌生。

以企業(yè)常見的投資決策為例,傳統(tǒng)的投資決策分析方法有內含報酬率法、凈現(xiàn)值法等,這些方法通常是依據(jù)單一渠道取得的相對準確的歷史數(shù)據(jù)進行分析,通過這種方法分析得出的結論相對滯后、單一,對于管理者決策只能發(fā)揮有限的參考作用。大數(shù)據(jù)時代下,企業(yè)投資決策通過搜集線上和線下數(shù)據(jù)、歷史資料和現(xiàn)時的業(yè)務數(shù)據(jù)、技術數(shù)據(jù)、企業(yè)上下游供應鏈數(shù)據(jù)、用戶數(shù)據(jù)、競爭對手數(shù)據(jù)、相關政策法規(guī)等一系列相關的完整數(shù)據(jù)后,再運用先進的數(shù)據(jù)挖掘技術做出最為可行的選擇。

(四)管理會計信息共享模式的變革

數(shù)據(jù)挖掘技術得以有效使用的前提是“信息孤島”現(xiàn)象的消失。傳統(tǒng)的數(shù)據(jù)庫模式下,不同業(yè)務部門之間都有自己獨享的數(shù)據(jù)中心,局部意識嚴重阻礙了信息共享觀念的普及,這種封閉的“信息孤島”管理模式在大數(shù)據(jù)時代下逐漸瓦解,在企業(yè)價值鏈甚至企業(yè)間價值鏈上正在逐步實現(xiàn)信息共享。如生產(chǎn)部門可以直接查詢庫存管理部門原材料的存儲情況,并根據(jù)生產(chǎn)需要及時通知采購部門,甚至在企業(yè)與供應商及客戶之間都可以實現(xiàn)信息共享,增強彼此間合作的親密度,形成穩(wěn)固的伙伴關系以共同應對瞬息萬變的市場競爭,實現(xiàn)共贏的戰(zhàn)略合作局面。

三、積極應對大數(shù)據(jù)時代管理會計面臨的挑戰(zhàn)

(一)正確認識大數(shù)據(jù)時代對管理會計造成的沖擊

統(tǒng)計資料顯示,目前我國企業(yè)中約有50%的管理者并未對大數(shù)據(jù)戰(zhàn)略及互聯(lián)網(wǎng)時代對企業(yè)的影響引起重視,而且有38%的被調查者并不清楚大數(shù)據(jù)的概念,25%的被調查者對于大數(shù)據(jù)的理解存在偏差,甚至有些管理者認為大數(shù)據(jù)時代對其所在的企業(yè)不會產(chǎn)生任何影響。而對于中小企業(yè)來說,大數(shù)據(jù)戰(zhàn)略更是遙不可及,單是人才的培養(yǎng)就需要一筆不菲的投資,完全不符合成本效益原則。因此,大數(shù)據(jù)時代雖然已大踏步來到,并對很多傳統(tǒng)行業(yè)造成了巨大的沖擊,卻并未引起管理者的足夠重視,或者因為各種條件的限制而選擇了視而不見,這勢必會影響到大數(shù)據(jù)在管理會計中的應用。

(二)構建基于云計算的管理信息系統(tǒng)

大數(shù)據(jù)時代信息的存儲量相當可觀,據(jù)統(tǒng)計,百度每天新增的數(shù)據(jù)就有10TB,系統(tǒng)每天需要處理的數(shù)據(jù)則超過1PB,而完全顛覆傳統(tǒng)銷售模式的淘寶商城每天需要處理的數(shù)據(jù)高達50TB。隨著物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的廣泛使用,不同形式的數(shù)據(jù)鋪天蓋地,同樣需要巨大的存儲空間,而現(xiàn)有的數(shù)據(jù)庫幾乎無法存儲TB級別的數(shù)據(jù),分析整理更無從談起。因此,能否對現(xiàn)有數(shù)據(jù)存儲系統(tǒng)更新?lián)Q代,建立巨大的TB級的數(shù)據(jù)倉庫,將直接決定企業(yè)能否實現(xiàn)對數(shù)據(jù)的及時、完整的收集、存儲、分析、整理,最終決定企業(yè)的成敗與否。云計算模式應運而生,借助互聯(lián)網(wǎng)這一平臺提供快速、動態(tài)、虛擬、規(guī)?;男畔①Y源,滿足用戶結構化、半結構化乃至非結構化信息的多種分析需求。

(三)完善信息安全技術制度

如何保障信息安全是大數(shù)據(jù)時代及互聯(lián)網(wǎng)廣泛應用過程中必須要重視的一個問題。企業(yè)收集的數(shù)據(jù)中常常包含著其他企業(yè)、組織或者個人的隱私,這些信息一旦泄露,會給當事人、客戶、供應商等造成難以挽回的損失。在拉斯維加斯每年夏天舉辦的全球性的“黑客大會”上,讓人眼花繚亂的黑客技術輪番上演,這也為各大企業(yè)、組織、政府部門等敲響了警鐘,信息安全技術的發(fā)展和維護任重而道遠,如何保證信息安全成為了擺在每一個人面前的重大課題。

(四)注重適應大數(shù)據(jù)時代要求的管理人才的培養(yǎng)

目前,世界各國的大數(shù)據(jù)專業(yè)人才都面臨巨大的缺口。一項預測顯示,在未來六年內,僅美國一國就可能面臨14 萬至 19 萬擁有扎實分析技能的人才缺口,面臨的懂得使用相應工具分析大數(shù)據(jù)、作出合理決策的管理和分析人員的人才缺口更是高達 150 萬。人才的短缺勢必會阻礙企業(yè)開發(fā)、利用管理會計信息工作的進程。因此,能否及時培養(yǎng)掌握此類分析所需知識與技術的管理會計人才,對企業(yè)的發(fā)展至關重要。

大數(shù)據(jù)處理論文:智能電網(wǎng)大數(shù)據(jù)處理技術現(xiàn)狀與挑戰(zhàn)

大數(shù)據(jù)是人們認知世界的一種新的渠道和新的方法。大數(shù)據(jù)的應用可以看做是知識在計算機網(wǎng)絡上的新呈現(xiàn),本文詳盡闡述了智能電網(wǎng)中大數(shù)據(jù)的特點,智能電網(wǎng)中大數(shù)據(jù)處理技術現(xiàn)狀和智能電網(wǎng)大數(shù)據(jù)處理技術面臨的挑戰(zhàn)等方面進行了深入的探討。

【關鍵詞】智能電網(wǎng) 大數(shù)據(jù) 云計算 并行數(shù)據(jù)庫 應用現(xiàn)狀

隨著智能電網(wǎng)建設的不斷深入和推進,電網(wǎng)運行和設備檢、監(jiān)測產(chǎn)生的數(shù)據(jù)量呈指數(shù)級增長,使電力企業(yè)進入了大數(shù)據(jù)時代,對目前的數(shù)據(jù)存儲和處理技術提出了更高的要求。同時也對智能電網(wǎng)大數(shù)據(jù)的處理效率提出了更加嚴苛的要求,本文以現(xiàn)階段智能電網(wǎng)大數(shù)據(jù)處理的技術應用為出發(fā)點,基于大數(shù)據(jù)處理目前的技術水平,分別從傳輸性、存儲性、時效性、集成性和可視性等方面探討新技術背景下智能電網(wǎng)大數(shù)據(jù)處理面臨的機遇與挑戰(zhàn)。

1 智能電網(wǎng)中大數(shù)據(jù)的特點

智能電網(wǎng)業(yè)務中的基本數(shù)據(jù)按內容可以劃分成三大類。

(1)運行數(shù)據(jù)、設備檢測數(shù)據(jù)、設備實時狀態(tài)參數(shù)數(shù)據(jù)。

(2)電力企業(yè)營銷數(shù)據(jù)(用電客戶、電量報價等)。

(3)電力企業(yè)管理數(shù)據(jù)。

在上述類目可以再次細化為結構化數(shù)據(jù)和非結構化數(shù)據(jù)兩大類。但無論基于何種分類方式,大數(shù)據(jù)在智能電網(wǎng)中體現(xiàn)出來的特點是不變的,簡單概括為體量大、類型多,具體如下:

(1)數(shù)據(jù)體量大:即數(shù)據(jù)的數(shù)量和體積較為龐大。在智能時代的推動下,電網(wǎng)在數(shù)據(jù)吞吐量的級別已經(jīng)從以往的TB級飆升為PB級。

(2)數(shù)據(jù)類型繁雜:由于電力企業(yè)自身存在的特殊性,加之其地理分布情況在區(qū)域上的差異性,電網(wǎng)企業(yè)涉及到的數(shù)據(jù)有著極為復雜的類別劃分,細分后的子類和子項同樣在數(shù)量上非常龐大,也正是由于這一特點,不同的數(shù)據(jù)類別對服務器端硬件設備及用戶端的系統(tǒng)平臺均有不同程度的配置、性能及處理需求,從而更是增加了電網(wǎng)企業(yè)內網(wǎng)及外設雙重建設項目的難度。

(3)數(shù)據(jù)價值密度低:異常數(shù)據(jù)出現(xiàn)的頻率低,同時也是對電網(wǎng)軟、硬件設備維修和檢測最有價值的。

2 智能電網(wǎng)中大數(shù)據(jù)處理技術現(xiàn)狀

2.1 并行數(shù)據(jù)庫

關系數(shù)據(jù)庫常用于結構化數(shù)據(jù)的存儲、整合及維護,可以實現(xiàn)的具體功能如下:

(1)可實現(xiàn)數(shù)據(jù)查詢及邏輯分析的快捷化、靈活性操作。

(2)可提供高標準規(guī)則強制下業(yè)務事項的高效處理。

(3)可承載一定數(shù)量的用戶同時發(fā)起數(shù)據(jù)訪問的系統(tǒng)壓力。

(4)可執(zhí)行高級別安全機制。

得益于SQL嚴謹?shù)臄?shù)據(jù)查詢語言、高效率的數(shù)據(jù)分析層級以及脫離對程序依賴的高效率獨立化協(xié)同運行等絕對優(yōu)勢,關系數(shù)據(jù)庫得到了業(yè)界的一致認可和推廣。但是智能電網(wǎng)的開發(fā)和組建已經(jīng)今非昔比,其進展的速度早已將關系型數(shù)據(jù)庫的能力范圍甩在了身后,僅在非結構化數(shù)據(jù)存儲這一點能力上的局限,就使得目前多種主流數(shù)據(jù)類型如地理信息、高像素圖片以及各種音、視頻等格式文件無法滿足電力企業(yè)在數(shù)據(jù)存儲方面提出的全新的、更高標準的需求。

2.2 云計算技術

云計算平臺的誕生使得大數(shù)據(jù)技術尤為必要,能夠存儲海量數(shù)據(jù)并具備數(shù)據(jù)并行處理功能等核心技術,因此為電力設備實時狀態(tài)數(shù)據(jù)提供了強大的技術支持。實時狀態(tài)數(shù)據(jù)不僅類目眾多,數(shù)據(jù)量龐大,可靠性和實時性的標準高,使基于云計算技術的海量數(shù)據(jù)研究仍處在起步階段,即便能夠確保監(jiān)控程序的延展性和可靠性,但更高標準的性能如安全和數(shù)據(jù)隱私等并未實現(xiàn),仍需不斷探索。

3 智能電網(wǎng)大數(shù)據(jù)處理技術面臨的挑戰(zhàn)

3.1 大數(shù)據(jù)傳輸及存儲技術

智能時代數(shù)據(jù)量的日漸增多極大程度影響了電網(wǎng)智能化的發(fā)展,并在存儲系統(tǒng)、電網(wǎng)運行監(jiān)控設備以及數(shù)據(jù)傳輸方面形成了諸多負擔。因此要進行分類存儲和分析系統(tǒng)中現(xiàn)有的大數(shù)據(jù)性能。非結構化數(shù)據(jù)在智能電網(wǎng)中存有的百分比較大,將此類非結構化數(shù)據(jù)演變成結構化數(shù)據(jù),是當前智能大數(shù)據(jù)在存儲方面處理技術上存在的難題。

3.2 數(shù)據(jù)處理的時效性技術

大數(shù)據(jù)重點在于處理速度。一般情況下,處理時間與數(shù)據(jù)規(guī)模成正比,規(guī)模大的數(shù)據(jù)集處理的時間就越長。傳統(tǒng)的存儲方案僅能夠處理能力范圍內的一定量的數(shù)據(jù),對大數(shù)據(jù)卻難以駕馭。隨著智能電網(wǎng)的不斷應用,實時數(shù)據(jù)處理將需貫穿于用電、輸變電和發(fā)電等各項關鍵環(huán)節(jié)中。

3.3 異構多數(shù)據(jù)源處理技術

未來智能電網(wǎng)能夠將貫通發(fā)電、調度以及變電、輸電、配電等幾項環(huán)節(jié)得以滿足,能夠將信息的全面采集、高效處理、流暢傳輸以及業(yè)務流、信息流和支撐電力流實現(xiàn)高度的一體化。因此,其主要功能是能夠整合出規(guī)模較大的多源異構信息,可以由資源集約化配置的數(shù)據(jù)中心提供給智能電網(wǎng)。目前海量異構數(shù)據(jù)需首要處理的問題在于,怎樣構建出一個能夠規(guī)范表達的模型,同時何以才能以該模型為基礎將數(shù)據(jù)融合以及查詢存儲同時高效進行。

3.4 大數(shù)據(jù)可視化化分析技術

針對難以量化的智能電網(wǎng)數(shù)據(jù),在屏幕空間自身局限的顯示情況下,面向用戶提供一種更為簡便直觀的方式,是跨越性較大、難度較高的一項工作。在實踐中,可視化方法能夠分析規(guī)模較大的數(shù)據(jù),將數(shù)據(jù)繪制為分辨率和精度較高的圖片,同時輔以交互工具,結合人的視覺系統(tǒng),對算法參數(shù)和實時處理做出決定,并通過數(shù)據(jù)展開定量、定性的分析和觀察。

4 結語

智能電網(wǎng)系統(tǒng)在我國的應用日漸廣泛,大數(shù)據(jù)處理技術已然是智能電網(wǎng)安全運行的有利武器。但在電網(wǎng)智能化的發(fā)展進程中,實時、隱私等方面的性能需求對大數(shù)據(jù)技術本身提出了更嚴峻的挑戰(zhàn),為了向全景實時電網(wǎng)時期邁進,我們必須制定有針對性的解決方案,為電力事業(yè)得以持續(xù)穩(wěn)定發(fā)展貢獻出力量;推動我國社會主義現(xiàn)代化建設的步伐更快的向前邁進。

大數(shù)據(jù)處理論文:基于云計算的大數(shù)據(jù)處理技術探討

信息爆炸時代,大數(shù)據(jù)超大體量、離散性和非(半)結構化的特點已經(jīng)遠遠超出了傳統(tǒng)數(shù)據(jù)管理方式所能夠承載的范疇。大數(shù)據(jù)要求全面革新原有的數(shù)據(jù)處理架構和有關技術,實現(xiàn)超大體量和復雜數(shù)據(jù)的存儲、高效傳輸和有用信息提取。圍繞大數(shù)據(jù),云計算技術營運而生。云計算的出現(xiàn)為大數(shù)據(jù)的存儲和處理提供了可能,也為數(shù)據(jù)處理系統(tǒng)的功能擴展提供了重要保障。本文主要分析了大數(shù)據(jù)和云計算之間的關系,以及云計算環(huán)境下大數(shù)據(jù)處理技術。

【關鍵詞】云計算技術 大數(shù)據(jù) 數(shù)據(jù)處理

隨著物聯(lián)網(wǎng)、網(wǎng)絡、移動通信等的快速發(fā)展,特別是互聯(lián)網(wǎng)的普及使得信息傳播的規(guī)模和速度呈現(xiàn)幾何增長,人們獲取信息的途徑和方式開始變得異常豐富,人們事實上已經(jīng)進入了“信息大爆炸”時代。與此同時信息傳播的大容量、高效性和準確性也對現(xiàn)有的數(shù)據(jù)處理體系提出了更高要求。根據(jù)大數(shù)據(jù)摩爾定律,人類世界的數(shù)據(jù)產(chǎn)生量將按照每兩年一倍的速率增長,預計2020年世界數(shù)據(jù)量將超過35億GB,“大數(shù)據(jù)”時代迫在眉睫?!按髷?shù)據(jù)”具有離散型、隨機性、發(fā)散性、爆發(fā)性等特點。近年來,隨著云技術的興起全面革新了傳統(tǒng)的數(shù)據(jù)技術,大容量、多樣化、快速處理、信息價值性和準確性為了云技術背景下大數(shù)據(jù)處理的五大主要特征。如何利用云計算技術對大數(shù)據(jù)進行高效處理已經(jīng)成為了信息技術發(fā)展亟待解決的關鍵問題。

1 大數(shù)據(jù)和云計算的關系

云計算技術是指利用集中式遠程計算資源池,通過按需分配的方式,為終端用戶提供強大而廉價的計算服務技術。云計算技術作為一種數(shù)據(jù)處理方式,其技術特點包括:一是資源池在物理上是對終端用戶完全透明的;二是能夠為任何行業(yè)提供規(guī)?;嬎惴?,其服務能力可看做是“無限”的;三是其應用部署快速便捷,服務能力和方式是可以完全按照終端客戶要求定制的,具有極強的彈性伸縮能力;四是云端數(shù)據(jù)獲取方便,能夠資源共享,用戶使用成本低廉。

云計算技術是目前最強大的數(shù)據(jù)存儲、傳輸和處理平臺,它是大數(shù)據(jù)處理的最優(yōu)選擇。云計算能夠為大數(shù)據(jù)提供幾乎“無限”的存儲空間和處理能力,滿足其超大容量存儲和超級復雜的處理需求,也是傳統(tǒng)存儲方式無法實現(xiàn)的。云計算側重數(shù)據(jù)的計算處理,而大數(shù)據(jù)需要強大數(shù)據(jù)處理能力,因而它是云計算的處理對象。此外大數(shù)據(jù)所產(chǎn)生的業(yè)務需求也為云計算的實現(xiàn)提供了更多的形式。

2 基于云計算的大數(shù)據(jù)處理技術

2.1 大數(shù)據(jù)的采集技術

目前數(shù)據(jù)采集方式主要分為集中式和分布式兩大類。其中分布式的靈活性較強,而集中式的全局性較好。實際上大數(shù)據(jù)采集的對象通常包括組織內部和相互獨立組織間的各類數(shù)據(jù),而云計算恰好具有并行處理的優(yōu)勢,因而可采取混合式采集方式能夠更加有效地完成數(shù)據(jù)采集任務。即在各個組織內部采用集中式數(shù)據(jù)采集方式,通過在組織內配置中心服務器,作為集中式數(shù)據(jù)注冊機構,用于存儲和共享內部的數(shù)據(jù)。在相互獨立組織間,采用云計算的集群技術、虛擬化技術等在各獨立組織中心服務器間采用分布式采集方式實現(xiàn)數(shù)據(jù)采集、組織間對接和共享。大數(shù)據(jù)結構類型包括結構化、半結構和非結構化數(shù)據(jù),因而在應用云計算技術進行分布式采集時,可依托其超強的擴展性和容錯力,將數(shù)據(jù)池內數(shù)據(jù)進行同構化,從而實現(xiàn)數(shù)據(jù)進行分類存儲。

2.2 大數(shù)據(jù)的存儲技術

由于超大體量、離散、復雜的數(shù)據(jù)特點,傳統(tǒng)數(shù)據(jù)存儲模式已經(jīng)難以滿足大數(shù)據(jù)存儲要求。一方面單結點的數(shù)據(jù)倉庫在容量上難以滿足呈幾何增長的數(shù)據(jù)量,在運行效率上也難以滿足大數(shù)據(jù)的分析處理需求。另一方面?zhèn)鹘y(tǒng)數(shù)據(jù)倉庫按行存儲模式,雖然可以實現(xiàn)大容量索引和視圖,但實際操作中其時間和空間過高。而云計算主要采取列式存儲模式,即區(qū)分數(shù)據(jù)不同屬性,不同屬性列都單獨存放。云計算中列式存儲的優(yōu)勢在于在投影數(shù)據(jù)時只需查詢其屬性列,系統(tǒng)處理量和處理效率顯著提升。此外按數(shù)據(jù)屬性進行列式存儲,數(shù)據(jù)倉庫中相鄰列數(shù)據(jù)的相似性更高,因而能夠得到更高的數(shù)據(jù)壓縮率,進一步減少存儲所需空間。

2.3 大數(shù)據(jù)的挖掘技術

聯(lián)機分析能夠完成數(shù)據(jù)的復雜處理,得到直觀結果,實現(xiàn)決策性分析。云計算并行模式下聯(lián)機分析能夠基于數(shù)據(jù)全局,建立多維分析模型對數(shù)據(jù)進行多維度分析,從而盡可能獲得全面的分析結構。由此可見多維度分析是聯(lián)機分析的重要特征,而云計算技術下數(shù)據(jù)倉庫正好是通過多維數(shù)據(jù)組織的。

聯(lián)機分析對數(shù)據(jù)的處理僅僅只是表面的,其獲取的信息價值并不高,難以得到數(shù)據(jù)深層次的含義與內在關聯(lián)。而數(shù)據(jù)挖掘正是在聯(lián)機分析的基礎上,從超大體量的數(shù)據(jù)倉庫中提取數(shù)據(jù)所蘊含的隱性信息,并將這些信息用規(guī)律、概念或是模型等表現(xiàn)出來?;谠朴嬎愕臄?shù)據(jù)挖掘主要采用分布式并行挖掘技術。與其他串行方式相比,云計算技術下并行數(shù)據(jù)挖掘能夠利用機器集群拆分分布式系統(tǒng)中的并行任務,并將拆分后的各個任務分別交由不同的機器去處理,從而實現(xiàn)大規(guī)模數(shù)據(jù)處理,其時間成本也大大降低。

2.4 大數(shù)據(jù)的可視化技術

上文所述數(shù)據(jù)挖掘可實現(xiàn)大數(shù)據(jù)的深層次、多維度分析,獲取更多有用信息。而云計算平臺下可視化技術則能夠將上述信息具體化,從而使數(shù)據(jù)及其有關結構的相關信息能夠更直觀地表現(xiàn)出來,更容易被發(fā)覺和理解??梢暬夹g是指在存儲空間中,將數(shù)據(jù)庫及其中數(shù)據(jù)以圖像(圖形)的形式表示出來,并在其中再采用其他的分析手段獲取圖像中所蘊含的未知信息。而原有的數(shù)據(jù)處理僅僅只能夠從數(shù)據(jù)本身入手,分析和觀察數(shù)據(jù)中的內在信息。云計算下的可視化技術不但能夠實現(xiàn)非空間數(shù)據(jù)的多維度圖像顯示,而且能夠實現(xiàn)檢索過程的直觀圖形顯示,從而幫助人們更好地挖掘和理解信息,信息檢索效率也大大提升。

3 結語

在數(shù)據(jù)爆炸時代,云計算的出現(xiàn)為大數(shù)據(jù)的存儲和處理提供了可能,也為數(shù)據(jù)處理系統(tǒng)的功能擴展提供了重要保障。以往的數(shù)據(jù)管理將收集和存儲作為重點,而在云計算模式下,大數(shù)據(jù)管理將更多地側重數(shù)據(jù)分析、挖掘及管理模式的創(chuàng)新。目前數(shù)據(jù)采集和統(tǒng)計技術已經(jīng)較為成熟,利用云計算進一步豐富大數(shù)據(jù)的存儲和處理方式,實現(xiàn)更高層次的數(shù)據(jù)挖掘和可視化將是今后需要解決的問題之一。

大數(shù)據(jù)處理論文:投資統(tǒng)計大數(shù)據(jù)處理關鍵技術

摘 要

大數(shù)據(jù)主要包括結構化數(shù)據(jù)、非結構化數(shù)據(jù)兩部分,目前已具備應用價值大、數(shù)據(jù)量大、速度快等特點,這些特點對今后投資統(tǒng)計數(shù)據(jù)處理技術將帶來顛覆性變化,為此,本人結合從事多年統(tǒng)計數(shù)據(jù)處理經(jīng)驗,重點闡述投資統(tǒng)計大數(shù)據(jù)在數(shù)據(jù)采集、存儲和分析涉及的主要關鍵技術。

【關鍵詞】投資統(tǒng)計 大數(shù)據(jù)處理 關鍵技術

本人從事多年統(tǒng)計工作,對投資統(tǒng)計大數(shù)據(jù)有著天然的親近感,投資統(tǒng)計就是搜集、整理、分析、應用數(shù)據(jù)。目前投資統(tǒng)計改革正在有序開展,我們要抓住改革契機,充分利用投資統(tǒng)計大數(shù)據(jù)具有海量、實時、多元處理特點,深刻解讀數(shù)據(jù),創(chuàng)新研究思路,提高投資統(tǒng)計數(shù)據(jù)處理能力,提供投資統(tǒng)計分析具有數(shù)據(jù)全、分析深、研究透、成果新、有理有據(jù)的可行建議,成為黨政府、部門決策的重要參謀。

1 概述

1.1 大數(shù)據(jù)

投資系統(tǒng)中數(shù)據(jù)有三種類型分別是項目投資管理數(shù)據(jù)、聯(lián)網(wǎng)直報房地產(chǎn)投資數(shù)據(jù)、規(guī)下投資抽樣數(shù)據(jù)。根據(jù)投資數(shù)據(jù)內在結構,可以分為兩類,一類是結構化數(shù)據(jù),統(tǒng)計系統(tǒng)的企業(yè)原始數(shù)據(jù)可以通過二維表形式反映的數(shù)據(jù);另一類是非結構化數(shù)據(jù),不能以二維表的形式來反映的數(shù)據(jù),如文本、圖片、音頻、視頻等產(chǎn)生的數(shù)據(jù)。

與傳統(tǒng)投資統(tǒng)計不同,投資統(tǒng)計大數(shù)據(jù)可利用遙感技術和GIS技術進行動態(tài)監(jiān)測,能夠獲取定期數(shù)據(jù),對現(xiàn)有投資統(tǒng)計業(yè)務系統(tǒng)進行分析,主要表現(xiàn)在:一是為了能夠對投資統(tǒng)計系統(tǒng)運行獲取定期數(shù)據(jù),要對投資項目進行定位,每個月節(jié)點都會產(chǎn)生大量的數(shù)據(jù)。二是PDA設備對投資統(tǒng)計項目樣本點的經(jīng)常性變化。三是為了能夠把握重大項目投資進度,要求對投資統(tǒng)計系統(tǒng)運行中相關信息定期變樣采集。四是投資統(tǒng)計數(shù)據(jù)能夠定期與發(fā)改、住建、稅務等部門數(shù)據(jù)共享和數(shù)據(jù)比對。

1.2 特點

投資統(tǒng)計大數(shù)據(jù)具有以下特點:一是數(shù)據(jù)量大。隨著大數(shù)據(jù)的發(fā)展,投資統(tǒng)計數(shù)據(jù)TB級逐步上升到PB級。二是類型種類多?,F(xiàn)在黨政領導對投資統(tǒng)計數(shù)據(jù)需求越來越準,要進行處理結構化和非結構化投資統(tǒng)計也越來越多,才能夠滿足需求。三是利用率低。如在定期監(jiān)測重大投資項目過程中, 大部分監(jiān)測過程中的數(shù)據(jù)在正常范圍之內,而非常少的監(jiān)測異常數(shù)據(jù)是非常有用的,特別是投資項目數(shù)據(jù)異常值(如極大、極小值),要通過這些數(shù)據(jù)對比驗證,數(shù)據(jù)是否正確,因此有利用價值的數(shù)據(jù)占總數(shù)據(jù)的比例少。四是處理要快。處理投資統(tǒng)計大數(shù)據(jù)速度要求快,可以利用小型計算機和云技術在非常短時間內能夠分析數(shù)據(jù),為黨政領導決策提供高質量的數(shù)據(jù)作為依據(jù)。

2 關鍵技術

2.1 采集技術

大數(shù)據(jù)的采集指利用很多個數(shù)據(jù)庫同時接收,從客戶端的傳輸來的數(shù)據(jù),一般用戶可以通過這些數(shù)據(jù)庫,在客戶端能夠達到一般查詢和處理過程。 但是在大數(shù)據(jù)的采集過程中,最大的難點數(shù)據(jù)并發(fā)高,很有可能會同時成千上萬的用戶來進行訪問和操作,采用在采集端部署大量數(shù)據(jù)庫作為支持,能夠有效、科學地在投資數(shù)據(jù)庫之間進行負載均衡和分片,是數(shù)據(jù)采集技術的關鍵環(huán)節(jié)。

各類大數(shù)據(jù)分部不同的部門或項目,給數(shù)據(jù)的收集帶來一定難度,采用關系數(shù)據(jù)管理模型,運用Google 文件系統(tǒng)GFS 技術,具有縱向擴展功能,應對數(shù)據(jù)采集并發(fā)數(shù)高,也是確保實現(xiàn)高效獲取大數(shù)據(jù)的核心。

2.2 傳輸、存儲技術

投資統(tǒng)計系統(tǒng)采用聯(lián)網(wǎng)直報平臺,運行時會實時產(chǎn)生各式各樣的原始數(shù)據(jù),特別定期用投資遙感監(jiān)測中數(shù)據(jù)也會產(chǎn)生更多的數(shù)據(jù),經(jīng)過日月積累海量的數(shù)據(jù),會給投資監(jiān)控設備及數(shù)據(jù)傳輸、存儲系統(tǒng)造成沉重的負擔,并對投資統(tǒng)計系統(tǒng)發(fā)展造成很大的影響。

目前投資統(tǒng)計系統(tǒng)數(shù)據(jù)的傳輸,為了減輕數(shù)據(jù)傳輸量,大部分采用數(shù)據(jù)壓縮的方式,可以應用到投資統(tǒng)計數(shù)據(jù)傳輸,大大提速整個系統(tǒng)數(shù)據(jù)的傳輸,從而有效降低數(shù)據(jù)儲存的空間。若沒有建立有效批處理模型,在壓縮、解壓過程中仍然占用系統(tǒng)資源較大,浪費也很大,因此更急需建立有效的批處理模型是重要的。現(xiàn)在普遍采用MapReduce批處理模型,能夠在平常配置的計算機上實現(xiàn)并行化處理,且能夠分割輸入數(shù)據(jù),在計算機組成的集群上統(tǒng)一調度,確保計算機的集群之間順暢的通信。

投資統(tǒng)計大數(shù)據(jù)存儲一般采用分布式保存方式,具有性能可靠性,可以解決海量數(shù)據(jù)的存儲問題,可有局限性,如投資統(tǒng)計系統(tǒng)運行時,隨時產(chǎn)生實時性數(shù)據(jù),處理過程中還是不能夠全面應對,最好要根據(jù)不同類型的大數(shù)據(jù)性能先分析,然后再進行實時分類存儲。特別是投資遙感監(jiān)測系統(tǒng)中非結構化數(shù)據(jù)占大數(shù)據(jù)比重非常大,需要解決大量非結構化數(shù)據(jù)轉變?yōu)榻Y構化數(shù)據(jù)處理能力,是投資統(tǒng)計系統(tǒng)在大數(shù)據(jù)處理技術解決的關鍵問題。采用GFS的分布式文件系統(tǒng)主要對海量大文件而設計,而海量小文件可以用Haystack系統(tǒng),可以用多個邏輯文件共同使用一個文件,解決小文件存儲的問題。

2.3 實時處理技術

解決投資統(tǒng)計大數(shù)據(jù)處理速度是至關重要,數(shù)據(jù)處理范圍越來越大,數(shù)據(jù)處理時間就越長,假如數(shù)據(jù)量處理的范圍超過了數(shù)據(jù)本來的處理能力,缺乏整個系統(tǒng)穩(wěn)定運行,就會對投資統(tǒng)計系統(tǒng)運行產(chǎn)生不可估量的影響。雖然可以利用云計算系統(tǒng),能夠提供投資統(tǒng)計系統(tǒng)服務,但是對特別聯(lián)網(wǎng)直報時間高峰期,現(xiàn)在也經(jīng)常出現(xiàn)堵塞事件,造成企業(yè)統(tǒng)計人員無法準時上報數(shù)據(jù),也對投資統(tǒng)計系統(tǒng)運行提出更高要求。

大數(shù)據(jù)產(chǎn)生的過程比較復雜,對有投資統(tǒng)計數(shù)據(jù)(結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù))進行基于各種統(tǒng)計算法的計算,必然存在數(shù)據(jù)的內涵不一致、記錄重復、或者感興趣擬處理的屬性指標不完整、或者含有噪聲(數(shù)據(jù)中存在錯誤和異常值)等各種問題,必須實時進行清洗和預處理,去掉噪聲和無關數(shù)據(jù),便于后續(xù)的分析、分析處理。使用Sector廣域網(wǎng)的分布式系統(tǒng),利用Sphere基本數(shù)據(jù)處理模型,針對不同的數(shù)據(jù),能夠統(tǒng)一輸入數(shù)據(jù)流方式,進行實時大規(guī)模并行計算,在對數(shù)據(jù)進行分割,分割后數(shù)據(jù)轉交給SPE(具有處理引擎功能),能夠起到負載平衡。

2.4 分析技術

投資大數(shù)據(jù)分析主要通過分布式數(shù)據(jù)庫或者分布式計算集群,對現(xiàn)有已存儲的大量數(shù)據(jù)庫,分步驟能夠簡單的分類匯總、統(tǒng)計分析等,能夠實現(xiàn)普遍常見的分析需求,但是對于一些需要批處理基于半結構化或非結構化數(shù)據(jù),利用可視化分析技術、高度集成技術,對圖像和投資原始數(shù)據(jù)及專業(yè)的大數(shù)據(jù)分析工具,進行與部門數(shù)據(jù)之間統(tǒng)計分析或比對。統(tǒng)計與分析這環(huán)節(jié)的主要特點涉及的面廣、量大,運行系統(tǒng)資源占用也非常高,特別是輸入輸出資源占用率高。隨著大數(shù)據(jù)的發(fā)展,用Bigtable分布式、按列存儲、多維表結構的實時分布式數(shù)據(jù)庫,可以對大數(shù)據(jù)結構化、半結構化和非結構化數(shù)據(jù)讀寫操作,使用SQL 語言進行大量數(shù)據(jù)的統(tǒng)計、查詢和分析操作,解決了可視化分析技術的擴展性,能夠有效提取重要數(shù)據(jù)、顯示合成圖像。用LOD技術采用策略處理大數(shù)據(jù)量的實時傳輸與可視化,實現(xiàn)按等級組織分塊,平常稱為“金字塔”結構。

大數(shù)據(jù)的分析技術與傳統(tǒng)的統(tǒng)計數(shù)據(jù)匯總分析方法有較大的差別,不能將原來的統(tǒng)計系統(tǒng)數(shù)據(jù)處理經(jīng)驗簡單的移植到大數(shù)據(jù)的數(shù)據(jù)處理中去,需要針對不同的大數(shù)據(jù)對象,部署相應的數(shù)據(jù)采集環(huán)境,建立平值法、平滑法、預測法和頻率統(tǒng)計法等統(tǒng)計數(shù)據(jù)相關模型或算法,對投資統(tǒng)計大數(shù)據(jù)進行深度和廣度的對比分析或核查。

3 結束語

伴隨現(xiàn)代信息技術的迅猛發(fā)展,傳統(tǒng)的投資統(tǒng)計知識、理論、技術、方法等正處于大變革、大跨越、大發(fā)展之中,投資統(tǒng)計也面臨良好機遇。特別大數(shù)據(jù)時代的到來,投資統(tǒng)計大數(shù)據(jù)處理在遙感地理信息系統(tǒng)、全球定位系統(tǒng)等空間信息技術中應用,極大豐富了投資統(tǒng)計的數(shù)據(jù)來源,使投資統(tǒng)計工作如虎添翼,同時也對投資統(tǒng)計理念、數(shù)據(jù)來源和數(shù)據(jù)生產(chǎn)方式提出全新挑戰(zhàn),繼續(xù)尋求有效的解決辦法,更要廣泛深入與國際、國內科研機構合作交流,不斷創(chuàng)新探索,有助于繁榮投資統(tǒng)計科學,傳播先進投資統(tǒng)計理念和方法,提升投資統(tǒng)計能力和水平。

大數(shù)據(jù)處理論文:對大數(shù)據(jù)處理技術的分析研究

摘要:隨著信息化技術的不斷發(fā)展,大數(shù)據(jù)處理技術給人們的生活和工作帶來了很多改變,要充分發(fā)揮大數(shù)據(jù)處理技術的作用,就要求深入、全面研究大數(shù)據(jù)處理技術,摸索出大數(shù)據(jù)處理技術的改進與完善對策?;诖?,本文首先分析大數(shù)據(jù)的特征,然后探討大數(shù)據(jù)處理技術的Hadoop架構和Storm架構,并對比分析兩種架構的優(yōu)缺點。

關鍵詞:大數(shù)據(jù)處理技術 Hadoop架構 Storm架構

大數(shù)據(jù)時代的超大數(shù)據(jù)體量以及占據(jù)一定比重的半結構化和非結構化數(shù)據(jù)的存在,就決定了傳統(tǒng)數(shù)據(jù)庫管理難以滿足需求。大數(shù)據(jù)技術將會成為IT領域的新一代技術和架構,會幫助人們存儲并管理好大數(shù)據(jù),從復雜、龐大的數(shù)據(jù)里篩選出有價值的數(shù)據(jù),加之各種技術以及產(chǎn)品的出現(xiàn),很可能促使IT行業(yè)步入新的黃金時代。因此,分析研究大數(shù)據(jù)處理技術極具現(xiàn)實意義。

1 大數(shù)據(jù)特征

大數(shù)據(jù)具有以下四個特征:一是數(shù)據(jù)量龐大。大數(shù)據(jù)計算要存儲以及處理的數(shù)據(jù)量是十分龐大的,而且這些數(shù)據(jù)都處于不斷變化、增長以及更新的狀態(tài),所以數(shù)據(jù)量就會越來越龐大。這就要求承擔處理數(shù)據(jù)任務的硬件設備必須具備很大的存儲能力和良好的處理技能。二是數(shù)據(jù)多樣化。在大數(shù)據(jù)時代需要處理的不單單是各種結構化數(shù)據(jù),還有圖片、文字、聲音等非結構化數(shù)據(jù),要識別并處理這些非結構化數(shù)據(jù)要耗費很大力量,而且識別度也需要進一步提升。三是數(shù)據(jù)快速型。大數(shù)據(jù)處理技術的目就是要能處理變化迅速的數(shù)據(jù),摸索出其變化規(guī)律為決策提供輔助作用,確保數(shù)據(jù)的時效性以及各項決策的有效性。四是數(shù)據(jù)準確性。在處理數(shù)據(jù)的過程中必須要控制數(shù)據(jù)來源,確保數(shù)據(jù)準確性,而且要結合現(xiàn)實所需不斷更新數(shù)據(jù)處理技術,確保數(shù)據(jù)處理結果具備準確性和有效性。

2 大數(shù)據(jù)處理技術

2.1 Hadoop 架構

Hadoop架構的核心構成部分是HDFS,即Hadoop分布式文件系統(tǒng),全稱Hadoop Distributed File Sytstem,以及Map Reduce分布式計算架構。其中HDFS以Master/Slave體系結構為基礎,在集群里任命一個主節(jié)點擔任Name Node,主要負責管理文件系統(tǒng)元數(shù)據(jù),其余子節(jié)點擔任Datanode,主要負責保存具體的數(shù)據(jù)塊[1]。

Hadoop架構的關鍵點就是借助大量PC構成一個PC群以實現(xiàn)對數(shù)據(jù)的處理。在處理數(shù)據(jù)的時候,先分解數(shù)據(jù),然后結合分配的相應電腦處理數(shù)據(jù),最后整合數(shù)據(jù)處理結果。通過Hadoop平臺實際操作發(fā)現(xiàn),在Hadoop平臺運行的時候,系統(tǒng)初始化需要較長的時間,如果是處理更新速度快的數(shù)據(jù)這是不容忽視的一個問題。并且,在處理某些小數(shù)據(jù)的時候,系統(tǒng)初始化時間就更久,對數(shù)據(jù)處理準確性的影響也就更大。所以,系統(tǒng)不適合處理較小數(shù)據(jù)。基于Hadoop架構對reduce任務進行處理的時候,各種技術問題就更加突出,在利用相應技術把數(shù)據(jù)轉為存儲實施處理的時候,不僅數(shù)據(jù)處理速度慢,還會占用很多的帶寬。所以,Hadoop架構在處理變化速度較快的非離線數(shù)據(jù)時還存在很多問題。

2.2 Storm架構

和Hadoop主從架構相同,Storm架構也是以Master/Slave體系結構為基礎,通過Nimbus與Supervisor兩種服務進程實現(xiàn)分布式計算機,其中Nimbus進程在集群主節(jié)點運行,主要負責分派與分發(fā)任務,Supervisor進程在集群從節(jié)點運行,主要負責任務的具體執(zhí)行。Storm架構利用Spout/Bolt編程模型通過流式方式處理消息。消息流是Storm架構里對數(shù)據(jù)的基本抽象,一個消息流對應一條輸入數(shù)據(jù)封裝,不斷輸進的消息流通過分布式方式得到處理。Spout組件是消息的生產(chǎn)者,在Storm架構里屬于數(shù)據(jù)輸入源頭,能從多種異構數(shù)據(jù)源里獲得數(shù)據(jù),同時發(fā)射消息流。Bolt組件主要負責對Spout組件發(fā)射的信息流進行接收,同時完成相應的處理邏輯。如果業(yè)務邏輯比較復雜,就可串聯(lián)多個Bolt組件,并且在每個組件里都編寫相應的功能,進而呈現(xiàn)出整體的處理邏輯。

2.3 架構對比

就總體結構而言,Hadoop和Storm是相似的,具體構成部分對比如表1所示。

通過對比,Storm架構具有以下優(yōu)點:在Storm架構實際運行時,系統(tǒng)不用每次都初始化,數(shù)據(jù)處理效率較高,在處理較小數(shù)據(jù)時這一優(yōu)勢更加顯著;Storm架構的信息處理模式能確保數(shù)據(jù)的高效處理,更好地滿足人們對UI數(shù)據(jù)的需求;spout組件能讀取不同形式數(shù)據(jù)里的消息流,并把讀取的消息流傳遞給bolt組件進行處理;結合處理業(yè)務量的大小以及業(yè)務難度的高低,Storm架構能串聯(lián)多個bolt組件實現(xiàn)消息流的有效處理,進而實現(xiàn)數(shù)據(jù)處理的高效性與快速性。

3 結語

在互聯(lián)網(wǎng)發(fā)展迅速的今天,新業(yè)務對數(shù)據(jù)處理的要求不斷提升,當傳統(tǒng)離線處理架構不能滿足需求時,就可以使用大數(shù)據(jù)處理技術架構。但信息社會的最大特點就是瞬息萬變,因此,對大數(shù)據(jù)處理技術我們也要不斷變革與創(chuàng)新,使大數(shù)據(jù)處理技術得到更好地完善,這樣才能更好地服務于社會、服務于人們。

大數(shù)據(jù)處理論文:智能交通中的大數(shù)據(jù)處理技術

摘 要:本文主要針對大數(shù)據(jù)的概念與特點、交通行業(yè)大數(shù)據(jù)發(fā)展現(xiàn)狀以及大數(shù)據(jù)在交通行業(yè)發(fā)展的淺見進行簡要分析。

關鍵詞:智能電網(wǎng);交通運輸;大數(shù)據(jù)處理技術

一、大數(shù)據(jù)的概念與特點

顧名思義,大數(shù)據(jù)即一個體量特別大的數(shù)據(jù)集,大到無法使用傳統(tǒng)的數(shù)據(jù)處理工具、技術對其進行分析、加工、操作。而大數(shù)據(jù)技術,就是對大數(shù)據(jù)的處理技術的集合。可以說,大數(shù)據(jù)興起并非科技的突變,而是隨著人類社會結構化、半結構化、非結構化數(shù)據(jù)的急速增長應對而生的技術進步。大數(shù)據(jù)的特色之一是體量成級數(shù)增長。由于互聯(lián)網(wǎng)技術逐漸滲透人類生活的方方面面、以“物聯(lián)網(wǎng)”為方向的信息采集技術的逐漸普及以及包括“4G”在內的網(wǎng)絡傳輸技術的迅猛發(fā)展,在全社會,包括交通運輸行業(yè),人類所擁有的數(shù)據(jù)量及其增速已經(jīng)遠遠超過傳統(tǒng)信息技術預設的處理極限。限于科技發(fā)展的規(guī)律與速度,或者是人類智能體量的局限,信息技術專家們提出以“云計算”概念為核心的的一系列數(shù)據(jù)分布式處理技術作為階段性替代方案,以適應現(xiàn)階段的信息爆炸。

大數(shù)據(jù)技術與傳統(tǒng)信息處理技術有如下不同:使用分布式技術實現(xiàn)海量數(shù)據(jù)的處理?,F(xiàn)代社會,“人類存儲信息量的增長速度比世界經(jīng)濟的增長速度快4倍”,“大約每三年就能增長一倍”。為了解決這一問題,分布式技術成為信息處理的必然選擇。早期的信息處理技術通過固定的數(shù)據(jù)存儲設備、運算服務器實現(xiàn)信息化;隨著數(shù)據(jù)量以及運算需求的增加,發(fā)展出部署集中的集群的信息存儲與處理方式,一定程度上擴展了使用范圍;當數(shù)據(jù)量進一步增長,受益于網(wǎng)絡通信技術的升級換代和互聯(lián)網(wǎng)的飛速發(fā)展,“云計算”技術相應而生,通過將分散于各地的存儲、處理設備,實現(xiàn)可與巨型計算機媲美的海量數(shù)據(jù)處理能力。

大數(shù)據(jù)技術善于由結果推斷模型。不同于傳統(tǒng)的智能化技術,需要完善地建立數(shù)據(jù)模型,通過條件,推導結果。大數(shù)據(jù)技術著眼結果于海量數(shù)據(jù),通過大量的事實總結規(guī)律,形成知識。傳統(tǒng)的建模實現(xiàn)智能化技術,一旦結果出現(xiàn)異常,就需要反溯,修訂模型,重新進行實踐。而大數(shù)據(jù)技術,則只通過對相關性的結果進行比較,便能總結歸納相關原理。大數(shù)據(jù)技術著眼于動態(tài),而不是靜態(tài)。傳統(tǒng)信息處理技術著眼于當前數(shù)據(jù)的使用,業(yè)務辦理、行業(yè)監(jiān)控,數(shù)據(jù)一旦使用,則降低或失去其實用價值,歷史數(shù)據(jù)需要人工的比對、判斷。大數(shù)據(jù)技術著眼于一段時間或全部時間上的動態(tài)發(fā)展數(shù)據(jù),著眼于動態(tài)數(shù)據(jù)之間的聯(lián)系與發(fā)展規(guī)律,大數(shù)據(jù)技術長于整體的運算效率,而非個體的精確追蹤。由于數(shù)據(jù)處理能力的有限性,傳統(tǒng)的信息化技術對于有限的樣本進行分析與統(tǒng)計,更關注于奇異數(shù)值并加以分析,著力于對個體樣本的精確追蹤。而當大數(shù)據(jù)處理成為可能,數(shù)據(jù)的總體成為一個獨立樣本,一些奇異值由于發(fā)生概率太小,完全可以忽略,數(shù)據(jù)整體的運算效率成為重要指標。

如同哲學上的量變引起質變,大數(shù)據(jù)技術正是隨著信息化數(shù)據(jù)的不斷增長而產(chǎn)生并從根本上改變人對于數(shù)據(jù)存儲、應用的理解與認識。同時隨著數(shù)年的演進,大數(shù)據(jù)技術也正在逐步走向成熟。

2012年7月,美國知名IT咨詢顧問公司Gartner《2012年大數(shù)據(jù)技術成熟度曲線》,對大數(shù)據(jù)涉及的46種技術進行逐一分析。根據(jù)當時報告內容,對比當前發(fā)展現(xiàn)狀,我們可以看到大數(shù)據(jù)技術的成熟度已經(jīng)達到一定的高度。2012年報告中提到的,將在2年內實現(xiàn)主流應用的列式存儲數(shù)據(jù)庫、預測分析、社交媒體監(jiān)測等技術,已經(jīng)成為近些年IT行業(yè)普遍實用的技術;報告中預測的2~5年內成為主流的云計算、內存數(shù)據(jù)庫、社交分析、文本分析等技術,當前在google、百度、facebook、阿里巴巴、新浪微博等處于IT技術前沿的互聯(lián)網(wǎng)公司,已經(jīng)分別得到廣泛應用;而報高中認為5~10年才會得到普及的內容分析、混合云計算、社交網(wǎng)絡分析、地理信息系統(tǒng)等技術,以及認為10年以上才會普遍應用的物聯(lián)網(wǎng)技術也已經(jīng)在不同程度上得到應用和推廣。

二、交通行業(yè)大數(shù)據(jù)發(fā)展現(xiàn)狀

交通行業(yè)是天然的大數(shù)據(jù)應用行業(yè)。傳統(tǒng)的靜態(tài)數(shù)據(jù)并非大數(shù)據(jù),如路網(wǎng)的基礎信息,戶、車、人基本信息,這些數(shù)據(jù)隨著產(chǎn)業(yè)增長而逐步增長,一直在傳統(tǒng)信息處理技術預設的限度之內。但隨著互聯(lián)網(wǎng)與產(chǎn)業(yè)結合的不斷升級、物聯(lián)網(wǎng)―――車聯(lián)網(wǎng)的快速興起,3G、4G無線網(wǎng)絡的普及,行業(yè)數(shù)據(jù)量已經(jīng)開始成級數(shù)增長。目前交通運輸行業(yè)大數(shù)據(jù)來源主要在3個方面:

基于互聯(lián)網(wǎng)的公眾出行服務數(shù)據(jù),如大運輸聯(lián)網(wǎng)、網(wǎng)上售票、城市公交刷卡、公眾在線交通路線查詢、網(wǎng)購物流數(shù)據(jù)等。

如某公交一卡通截至2013年已經(jīng)發(fā)卡超過3200萬張,日刷卡量超過1000萬人次;百度地圖手機應用日訪問量1億次,PC上的搜索量50億次中20%訪問和出行相關,每天約有1000萬人使用百度,其中70%和公交相關。

基于行業(yè)運營企業(yè)生產(chǎn)監(jiān)管數(shù)據(jù),如貨運源頭稱重數(shù)據(jù),貨運、危險品運輸電子運單數(shù)據(jù),客運進出站報班及例檢數(shù)據(jù),營運車輛維修檢測數(shù)據(jù),郵政包裹數(shù)據(jù)等。

如國家郵政局的數(shù)據(jù)顯示,2013年中國快遞業(yè)務量完成92億件,居世界第二,僅次于美國。業(yè)務量同比增長60%,最高日處理量已突破6500萬件。

基于物聯(lián)網(wǎng)、車聯(lián)網(wǎng)的終端設備傳感器采集數(shù)據(jù),包括車輛相關動態(tài)數(shù)據(jù):GPS位置信息、車輛能耗、車輛技術狀況信息,路網(wǎng)監(jiān)控信息:卡口視頻監(jiān)測、基于傳感器的路況監(jiān)測、路上動態(tài)稱重設備、橋梁監(jiān)測GPS等。

車輛位置信息采集僅舉一市為例,2013年10月,杭州市符合交通運輸部“兩客一危”定義且經(jīng)營范圍、營運狀態(tài)、營運證有效期等狀態(tài)正常的車輛上線數(shù)為6329輛。車輛位置信息假設每5s傳輸一次,則每日位置信息接近1.1億條。北京市6.67萬輛的出租車GPS數(shù)據(jù)實時接入,日均數(shù)據(jù)量可以達到6G。

車流量監(jiān)控數(shù)據(jù),筆者曾參與河南省新鄉(xiāng)市動態(tài)稱重系統(tǒng)建設項目,僅一個信息采集點,2013年11月平均每天采集14000輛車左右,包括結構化數(shù)據(jù)與照片信息,每天產(chǎn)生的數(shù)據(jù)量是1791MB。

三、大數(shù)據(jù)實時處理技術

隨著大數(shù)據(jù)時代的來臨,各種應對大數(shù)據(jù)處理的解決方案應時代而生,7 年前,雅虎創(chuàng)建了一個用于管理、存儲和分析大量數(shù)據(jù)的分布式計算平臺 Hadoop,它作為一個批處理系統(tǒng)具有吞吐量大、自動容錯等優(yōu)點,目前在海量數(shù)據(jù)處理方面已得到了廣泛應用。但是,Hadoop 本身存在的缺點是不能有效適應實時數(shù)據(jù)處理需求,為了克服該局限,一些實時處理平臺如 S4, Storm 等隨之產(chǎn)生了,他們在處理不間斷的流式數(shù)據(jù)方面有較大的優(yōu)勢,下面將介紹和分析目前比較流行的大數(shù)據(jù)處理平臺。

1、Hadoop

Hadoop 是一個由 Apache 基金會開發(fā)的分布式系統(tǒng)基礎架構 [10] ,允許用戶在不了解分布式底層細節(jié)的情況下,開發(fā)分布式應用程序。Hadoop 主要由分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)和 MapReduce 計算框架兩部分組成。

HDFS 結構如圖 1 所示,三類節(jié)點 Namenode,Datanode,Client 之間的通信都是建立在 TCP/IP 的基礎之上的。Client 執(zhí)行讀或寫操作時首先在本機臨時文件夾中緩存數(shù)據(jù),當緩沖數(shù)據(jù)塊達到設定的Block 值(默認 64M) ,Client 通知 Namenode,Namenode 響應 Client 的 RPC 請求,將新文件名插入到分布式文件系統(tǒng)結構層次中,并在 Datanode 中找到存放該數(shù)據(jù)的 Block,同時將該 Datanode 及對應的數(shù)據(jù)塊信息告訴 Client,Client 便將數(shù)據(jù)塊寫入指定的數(shù)據(jù)節(jié)點。HDFS 有著高容錯性的特點,可以部署在低廉的(low-cost)硬件上,并且能提供高傳輸率(high throughput)來訪問應用程序的數(shù)據(jù)。

圖 1 HDFS 結構圖

MapReduce 是一種并行處理模型,主要有兩個處理步驟:map 和 reduce 。

Map 端處理流程如下:計算框架先將要處理的數(shù)據(jù)進行分片,方便 map 任務處理。分片完畢后,多臺機器就可以同時進行 map 工作。map 對每條記錄的處理結果以的形式輸出中間結果,map 輸出的結果會暫且放在一個環(huán)形內存緩沖區(qū)中,當該緩沖區(qū)快要溢出時,會在本地文件系統(tǒng)中創(chuàng)建一個溢出文件,將該緩沖區(qū)中的數(shù)據(jù)寫入這個文件。寫入磁盤之前,線程根據(jù) reduce 任務個數(shù)生成相同數(shù)量的分區(qū)。當 map 任務輸出記錄時,會產(chǎn)生溢出文件,這時需將這些文件合并。文件不斷排序歸并后,最后生成一個已分區(qū)且有序的數(shù)據(jù)文件。最后將相應分區(qū)中的數(shù)據(jù)拷貝給相應的 reduce 任務。

Reduce 端處理流程如下:Reduce 會接收到不同 map 任務傳來的數(shù)據(jù),如果 reduce 端接受的數(shù)據(jù)量相當小,則直接存儲在內存中,如果數(shù)據(jù)量超過了該緩沖區(qū)大小的一定比例,則對數(shù)據(jù)合并后溢寫到磁盤中。隨著溢寫文件的增多,后臺線程會將它們合并成一個更大的有序的文件,然后交給 reduce 函數(shù)處理,reduce 函數(shù)安裝用戶定義的業(yè)務邏輯對數(shù)據(jù)進行處理并輸出結果。

Hadoop 在本質上是一個批處理系統(tǒng)。數(shù)據(jù)被引入 Hadoop 文件系統(tǒng) (HDFS) 并分發(fā)到各個節(jié)點進行處理。最后將處理結果匯總,生成的結果文件存放在 HDFS 上。

2、Storm

Storm 是 Twitter 開源的分布式實時計算系統(tǒng) [8] ,Storm 具有高容錯性,水平擴展性好,快速,可靠處理消息的優(yōu)點。Storm 的核心概念是“流(stream)”,流是一個無限的元組序列。Strom 為流轉換提供兩個基本組件:“Spouts”和“Bolts”。Spout 是一個輸入流組件,Spout 將數(shù)據(jù)傳遞給另一個組件(Bolt) 。Bolt 執(zhí)行任務并創(chuàng)建新的流作為下一個 Bolt 的輸入流。 整個過程就是一個 “topology”。

Strom 集群有主要有兩類節(jié)點:主節(jié)點和工作節(jié)點。主節(jié)點上運行一個叫做“Nimbus”的守護進程,它負責在集群分發(fā)代碼、 分配任務和故障監(jiān)測。 而每個工作節(jié)點運行一個叫做“Supervisor”的守護進程。Supervisor 監(jiān)聽分配給它任務的機器,根據(jù) Nimbus 的委派在必要時啟動和關閉工作進程,每個工作進程執(zhí)行 topology 的一個子集,一個 topology 由很多運行在機器上的工作進程組成。

Nimbus 和 Supervisors 之間所有的協(xié)調工作是通過一個 Zookeeper 集群,Nimbus 的守護進程和Supervisors 守護進程的狀態(tài)維持在 Zookeeper 中或保存在本地磁盤上。這意味著 Nimbus 或 Supervisors進程殺掉,而不需要做備份,這種設計結構使得 Storm 集群具有很高的穩(wěn)定性。

3、S4

S4(Simple Scalable Streaming System)是 Yahoo 的一個開源流計算平臺,它是一個通用的、分布式的、可擴展性良好、具有分區(qū)容錯能力、支持插件的分布式流計算平臺。S4 將流的處理分為多個流事件 Process Element(PE) ,每個 PE 唯一處理一種流事件。S4 將用戶定制的 PE 放在名為 Processing Element Container(PEC)的容器中。PEC 加上通信處理模塊就形成了邏輯主機 Processing Node(PN) 。PN 負責監(jiān)聽事件,PEC 接收源 event,event 經(jīng)一系列 PE 處理后,在通信層 Communication Layer的協(xié)助下分發(fā)事件或輸出事件處理結果。在分發(fā)事件的過程中,S4 會通過 hash 函數(shù),將事件路由到目標 PN 上,這個 hash 函數(shù)作用于事件的所有已知屬性值上。通信層有“集群管理”,“故障恢復到備用節(jié)點”,“邏輯節(jié)點到物理節(jié)點映射”的作用。同時通信層還使用一個插件式的架構來選擇網(wǎng)絡協(xié)議,使用 zookeeper 在 S4 集群節(jié)點之間做一致性協(xié)作。

四、大數(shù)據(jù)在交通行業(yè)拓展的困境

1、行業(yè)信息化整體水平較低、數(shù)據(jù)的采集與整合困難

目前交通運輸行業(yè)信息化、智能化發(fā)展非常不均衡,廣大西部地區(qū)缺少信息化基礎,信息系統(tǒng)應用效果差,數(shù)據(jù)采集困難。信息化建設較早的省份,由于信息化建設缺乏統(tǒng)一規(guī)劃與頂層設計,系統(tǒng)建設、使用單位均不相同,交通運輸主管機構與各二級單位、信息化主管部門與業(yè)務部門分頭建設業(yè)務系統(tǒng),系統(tǒng)技術架構差距大,基層單位上級機構多頭管理,造成數(shù)據(jù)來源不統(tǒng)一,信息孤島現(xiàn)象嚴重。各省信息化建設與應用水平的差距同樣造成部級數(shù)據(jù)整合困難,無法發(fā)揮實際的應用價值。

2、缺乏工作規(guī)范與要求,數(shù)據(jù)應用機制困難

交通運輸管理機構人員信息化水平差距較大,系統(tǒng)用戶缺乏應有的信息化思想,傳統(tǒng)的辦公方式與習慣難以改變。政府管理機構沒有針對信息化應用與數(shù)據(jù)的采集應用形成上下聯(lián)動,獎懲結合的管理機制。信息化應用游離于業(yè)務辦理之外,信息管理部門與業(yè)務部門各管一攤,無法真正將實際業(yè)務實現(xiàn)在線辦理,真正提高辦公效率創(chuàng)造信息價值。行業(yè)主管部門缺乏對行業(yè)企業(yè)生產(chǎn)監(jiān)管數(shù)據(jù)進行采集的法律法規(guī),也沒有面向企業(yè)提供數(shù)據(jù)服務,既沒有通過信息化手段對行業(yè)生產(chǎn)狀況進行全面掌握,也無法通過信息服務促進產(chǎn)業(yè)升級和變革。

3、行業(yè)從業(yè)人員信息化意識不強,大數(shù)據(jù)應用思路缺乏

交通運輸行業(yè)主管部門領導對數(shù)據(jù)指標價值與數(shù)據(jù)應用方式缺乏認識,一些信息化規(guī)劃、項目規(guī)劃不接地氣,系統(tǒng)重建設輕實用,實際應用價值不高,數(shù)據(jù)采集需求無法得到貫徹。如交通運輸部部省聯(lián)網(wǎng)項目,采集了全國絕大多數(shù)省份的戶車人基礎數(shù)據(jù),但是既沒有制定政策法規(guī),保證數(shù)據(jù)的更新與同步,也沒有進行數(shù)據(jù)指標的價值分析,實現(xiàn)真正有價值的應用,造成后期維護困難,數(shù)據(jù)逐漸陳舊,實用價值迅速流失。此外,全國各省、各地交通運輸行業(yè)信息化發(fā)展不均衡,部分地區(qū)信息化基礎設施較為落后,整體信息化水平有待加強。

五、大數(shù)據(jù)在交通行業(yè)發(fā)展的淺見

1、積極立法,確立數(shù)據(jù)采集與應用的重要性

通過研究并制定政策法規(guī),面向部、省、市、縣各級交通主管部門及相關企業(yè),將數(shù)據(jù)采集、整合的責任與義務進行明確規(guī)定,明確哪些信息化工作該哪級機構做,該哪些部門做,同時明確科技信息化主管部門在信息化建設中的地位并給予相應的監(jiān)察、評定的權利,對行業(yè)企業(yè)明確信息化建設與數(shù)據(jù)采集方面的社會責任。另外,對交通運輸行業(yè)數(shù)據(jù)進行全面的梳理,數(shù)據(jù)保密性與應用價值進行分級,對數(shù)據(jù)的采集與應用進行立法,明確不同級別的管理機構可以對哪些數(shù)據(jù)自行進行分析和利用,那些數(shù)據(jù)可以開放給社會或企業(yè)使用,真正實現(xiàn)大數(shù)據(jù)的應用價值。

2、加快體制改革,設立數(shù)據(jù)采集與信息化和單位考評相結合的制度

結合國家行政體制改革,進一步改變交通運輸行業(yè)信息化項目建設傳統(tǒng)的上級規(guī)劃、立項、投資、監(jiān)管、評審一體化管理模式,實現(xiàn)規(guī)劃與立項、資金使用與審計、項目監(jiān)管與后評審的權責分離,讓信息化項目建設實際落地,上級單位更注重資金使用的控制與系統(tǒng)應用效果的后評審。盡快制定政策,將指定數(shù)據(jù)指標的采集和上報納入行業(yè)管理規(guī)定;通過體制改革,設立數(shù)據(jù)上報與信息化應用水平考核制度并實現(xiàn)常態(tài)化,同時實現(xiàn)數(shù)據(jù)上報制度與行業(yè)統(tǒng)計工作的全面結合,改變傳統(tǒng)的統(tǒng)計人工上報模式,用信息化數(shù)據(jù)支撐行業(yè)統(tǒng)計??己酥贫劝?個層面:管理機構對企業(yè)考核;單位領導、信息化主管部門對業(yè)務部門的考核;上級主管部門對下級單位的考核。

3、加快信息化發(fā)展步伐,通過示范指導,引導大數(shù)據(jù)技術的引入與發(fā)展

在交通運輸行業(yè)信息化規(guī)劃與設計中,廣泛引入云計算等大數(shù)據(jù)處理技術,選擇試點單位,建設應用示范項目,總結大數(shù)據(jù)在交通運輸行業(yè)的應用方式方法與使用價值,對具有適用性的項目進行全國推廣,引導大數(shù)據(jù)技術的不斷發(fā)展。

結束語

大數(shù)據(jù)時代隨著全國交通運輸行業(yè)各機構、各部門、各企業(yè)數(shù)據(jù)量的迅速增長,以及IT企業(yè)交通運輸相關數(shù)據(jù)的迅速增長,逐漸在我們面前顯現(xiàn),發(fā)展大數(shù)據(jù)技術,積極應對、抓住下一次信息化變革、產(chǎn)業(yè)浪潮的機遇,是實現(xiàn)交通運輸行業(yè)產(chǎn)業(yè)變革、結構優(yōu)化、服務社會與公眾能力進一步提升的關鍵。

大數(shù)據(jù)處理論文:用大數(shù)據(jù)武裝”云”:基于云計算的大數(shù)據(jù)處理技術

【摘要】 隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,我們已經(jīng)迎來了數(shù)據(jù)大爆炸的時代,數(shù)據(jù)的快速增長帶來了數(shù)據(jù)存儲、處理、分析的巨大壓力,而大數(shù)據(jù)技術(Big data)的引入,不但滿足了系統(tǒng)功能和性能的要求,帶來良好的可擴展性,降低了IT部署的成本,還拓展了數(shù)據(jù)智能分析的應用領域。同時,大數(shù)據(jù)分析與云計算的發(fā)展密切相關,云計算是大數(shù)據(jù)處理的基礎,而大數(shù)據(jù)技術是云計算的延伸,云計算的分布式存儲和計算架構為大數(shù)據(jù)的快速處理和智能分析提供了一種合適的解決方案。本文將探討建立在云計算基礎上的大數(shù)據(jù)處理技術,包括分布式計算框架、分布式文件系統(tǒng)、大數(shù)據(jù)管理技術、實時流數(shù)據(jù)處理、機器學習以及可視化技術等。

【關鍵詞】 云計算 大數(shù)據(jù) MapReduce Hadoop

一、大數(shù)據(jù)

1.1什么是大數(shù)據(jù)

大數(shù)據(jù)概念可以從四個維度去解,即三個V和一個C。三個V分別指的是數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多(Variety)和數(shù)據(jù)增長速度快(Velocity),最后一個C指的是處理、升級或利用大數(shù)據(jù)的分析手段比處理結構化數(shù)據(jù)要復雜的多(Complexity)。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像Map-Reduce一樣的并行計算框架將復雜的計算任務分配到“云”中成百上千的節(jié)點。

1.2大數(shù)據(jù)與云計算

大數(shù)據(jù)本身就是一個問題集,云計算技術是目前解決大數(shù)據(jù)問題集最重要最有效的手段。云計算提供了基礎的架構平臺,大數(shù)據(jù)應用在這個平臺上運行。目前公認為分析大數(shù)據(jù)集最有效手段的分布式處理技術,也是云計算思想的一種具體體現(xiàn)。

云計算是分布式處理、并行處理和網(wǎng)格計算的發(fā)展,或者說是這些計算機科學概念的商業(yè)實現(xiàn)。云計算將網(wǎng)絡上分布的計算、存儲、服務構件、網(wǎng)絡軟件等資源集中起來,基于資源虛擬化的方式,為用戶提供方便快捷的服務, 實現(xiàn)了資源和計算的分布式共享和并行處理,能夠很好地應對當前互聯(lián)網(wǎng)數(shù)據(jù)量高速增長的勢頭。

1.3大數(shù)據(jù)與Hadoop

Hadoop是一個Apache的開源項目,主要面向存儲和處理成百上千TB直至PB級別的結構化、半結構化或非結構化的大數(shù)據(jù)。Hadoop提供的Map-Reduce能將大數(shù)據(jù)問題分解成多個子問題,并將它們分配到成百上千個處理節(jié)點之上,再將結果匯集到一個小數(shù)據(jù)集當中,從而更容易分析得出最后的結果。

Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、Map Reduce編程模型,以及Hadoop Common。Hadoop具備低廉的硬件成本、開源的軟件體系、較強的靈活性、允許用戶自己修改代碼等特點,同時能支持海量數(shù)據(jù)的存儲和計算任務。這些特點讓Hadoop被公認為是新一代的大數(shù)據(jù)處理平臺。 Hadoop同樣具備出色的大數(shù)據(jù)集處理能力,在獲取、存儲、管理和分析數(shù)據(jù)方面遠遠超越傳統(tǒng)的數(shù)據(jù)庫軟件工具。Hadoop經(jīng)常在構建大數(shù)據(jù)解決方案時被用作基礎構架軟件。

二、大數(shù)據(jù)技術綜述

大數(shù)據(jù)處理不僅僅是Hadoop,許多特定的數(shù)據(jù)應用場景是需要實時分析和互動反饋的,這時候就需要利用包括內存檢索、流處理和實時計算等其他技術。而云計算的分布式存儲和計算架構開啟了大數(shù)據(jù)技術研究的大門,打造健全的大數(shù)據(jù)生態(tài)環(huán)境,所有這些技術結合在一起,才是一個完整的大數(shù)據(jù)處理系統(tǒng)。

2.1分布式計算框架

MapReduce是Google開發(fā)的一種簡化的分布式編程模型和高效的任務調度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算,使云計算環(huán)境下的編程變得十分簡單。

MapReduce將數(shù)據(jù)處理任務抽象為一系列的Map(映射)和Reduce(化簡)操作對。Map主要完成數(shù)據(jù)的分解操作,Reduce主要完成數(shù)據(jù)的聚集操作.輸入輸出數(shù)據(jù)均以〈key,value〉格式存儲.用戶在使用該編程模型時,只需按照自己熟悉的語言實現(xiàn)Map函數(shù)和Reduce函數(shù)即可,MapReduce算法框架會自動對任務進行劃分以做到并行執(zhí)行。

Pregel是Google 提出的迭代處理計算框架,它具有高效、可擴展和容錯的特性,并隱藏了分布式相關的細節(jié),展現(xiàn)給人們的僅僅是一個表現(xiàn)力很強、很容易編程的大型圖算法處理的計算框架。Pregel的主要應用場景是大型的圖計算,例如交通線路、疾病爆發(fā)路徑、WEB 搜索等相關領域。

2.2分布式文件系統(tǒng)

為保證高可用、高可靠和經(jīng)濟性,基于云計算的大數(shù)據(jù)處理系統(tǒng)采用分布式存儲的方式來保存數(shù)據(jù),用冗余存儲的方式保證數(shù)據(jù)的可靠性。目前廣泛使用的分布式文件系統(tǒng)是Google的GFS和Hadoop團隊開發(fā)的GFS的開源實現(xiàn)HDFS。

GFS即Google文件系統(tǒng),是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應用。GFS的設計思想不同于傳統(tǒng)的文件系統(tǒng),是針對大規(guī)模數(shù)據(jù)處理和Google應用特性而設計的,運行成本低廉,并提供容錯功能。

HDFS即Hadoop分布式文件系統(tǒng),受到GFS很大啟發(fā),具有高容錯性,并且可以被部署在低價的硬件設備之上。HDFS很適合那些有大數(shù)據(jù)集的應用,并且提供了數(shù)據(jù)讀寫的高吞吐率。HDFS是一個master/slave的結構,在master上只運行一個Namenode,而在每一個slave上運行一個Datanode。HDFS支持傳統(tǒng)的層次文件組織結構,對文件系統(tǒng)的操作(如建立、刪除文件和文件夾)都是通過Namenode來控制,Datanode用來存放數(shù)據(jù)塊。

2.3大數(shù)據(jù)管理技術

互聯(lián)網(wǎng)數(shù)據(jù)已超出關系型數(shù)據(jù)庫的管理范疇,電子郵件、超文本、博客、標簽(Tag)以及圖片、音視頻等各種非結構化數(shù)據(jù)逐漸成為大數(shù)據(jù)的重要組成部分,而面向結構化數(shù)據(jù)存儲的關系型數(shù)據(jù)庫已經(jīng)不能滿足數(shù)據(jù)快速訪問、大規(guī)模數(shù)據(jù)分析的需求,隨之而來,一系列新型的大數(shù)據(jù)管理技術和工具應運而生。

2.3.1 非關系型數(shù)據(jù)庫

NoSQL,也有人理解為Not Only SQL,它是一類非關系型數(shù)據(jù)庫的統(tǒng)稱。其特點是:沒有固定的數(shù)據(jù)表模式、可以分布式和水平擴展。NoSQL并不是單純的反對關系型數(shù)據(jù)庫,而是針對其缺點的一種補充和擴展。典型的NoSQL數(shù)據(jù)存儲模型有文檔存儲、鍵-值存儲、圖存儲、對象數(shù)據(jù)、列存儲等。而比較流行的,不得不提到Google的Bigtable,它把所有數(shù)據(jù)都作為對象來處理,形成一個巨大的表格,用來分布存儲大規(guī)模結構化數(shù)據(jù),數(shù)據(jù)量可達PB級。而HBase是Hadoop團隊基于Bigtable的開源實現(xiàn),使用HDFS作為其文件存儲系統(tǒng)。同時,Cassandra(K/V型數(shù)據(jù)庫)、MongoDB(文檔數(shù)據(jù)庫)和Redis等一系列優(yōu)秀的非關系型數(shù)據(jù)庫產(chǎn)品如雨后春筍般問世。

2.3.2 數(shù)據(jù)查詢工具

Hive是Facebook提出的基于Hadoop的大型數(shù)據(jù)倉庫,其目標是簡化Hadoop上的數(shù)據(jù)聚集、即席查詢及大數(shù)據(jù)集的分析等操作,以減輕程序員的負擔.它借鑒關系數(shù)據(jù)庫的模式管理、SQL接口等技術,把結構化的數(shù)據(jù)文件映射為數(shù)據(jù)庫表,提供類似于SQL的描述性語言HiveQL供程序員使用,可自動將HiveQL語句解析成一優(yōu)化的MapReduce任務執(zhí)行序列.此外,它也支持用戶自定義的MapReduce函數(shù)。

PigLatin是Yahoo!提出的類似于Hive的大數(shù)據(jù)集分析平臺.兩者的區(qū)別主要在于語言接口.Hive提供了類似SQL的接口,PigLatin提供的是一種基于操作符的數(shù)據(jù)流式的接口.可以說Pig利用操作符來對Hadoop進行封裝,Hive利用SQL進行封裝。

Google Dremel是個可擴展的、交互式的即時查詢系統(tǒng),用于完成大規(guī)模查詢結構化數(shù)據(jù)集(如日志和事件文件)。它支持類SQL語法,區(qū)別在于它只能查詢,不支持修改或者創(chuàng)建功能,也沒有表索引。數(shù)據(jù)被列式存儲,這樣有助于提升查詢的速度。Google將Dremel作為MapReduce的一種補充,被用于分析MapReduce的結果或者是作為大規(guī)模計算的測試。

2.4實時流處理技術

伴隨著互聯(lián)網(wǎng)業(yè)務發(fā)展的步調,以及業(yè)務流程的復雜化,企業(yè)的注意力越來越集中在“數(shù)據(jù)流”而非“數(shù)據(jù)集”上面,他們需要的是能夠處理隨時發(fā)生的數(shù)據(jù)流的架構,現(xiàn)有的分布式計算架構并不適合數(shù)據(jù)流處理。流計算強調的是數(shù)據(jù)流的形式和實時性。MapReduce系統(tǒng)主要解決的是對靜態(tài)數(shù)據(jù)的批量處理,當MapReduce任務啟動時,一般數(shù)據(jù)已經(jīng)到位了(比如保存到了分布式文件系統(tǒng)上),而流式計算系統(tǒng)在啟動時,一般數(shù)據(jù)并沒有完全到位,而是經(jīng)由外部數(shù)據(jù)源源不斷地流入,重視的是對數(shù)據(jù)處理的低延遲,希望進入的數(shù)據(jù)越快處理越好。數(shù)據(jù)越快被處理,結果就越有價值,這也是實時處理的價值所在。

流計算的數(shù)據(jù)本身就是數(shù)據(jù)流,不需要數(shù)據(jù)準備的時間,有數(shù)據(jù)流入就開始計算,解決了數(shù)據(jù)準備和延遲的兩個問題?,F(xiàn)有的解決方案中,Twitter的Storm和雅虎的S4框架更適合數(shù)據(jù)流計算的場景。Storm是開源的分布式實時計算系統(tǒng),可以可靠的處理流式數(shù)據(jù)并進行實時計算,單機性能可達到百萬記錄每秒,開發(fā)語言為Clojure和Java,并具備容錯特性。S4是面向流式數(shù)據(jù)和實時處理的,所以針對實時性較高的業(yè)務,可以很好地對數(shù)據(jù)做出高效的分析處理,而且系統(tǒng)一旦上線,很少需要人工干預,源源不斷的數(shù)據(jù)流會被自動路由并分析。對于海量數(shù)據(jù),它和MapReduce都可以應對,但它能比后者更快地處理數(shù)據(jù)。

三、思考與展望

以云計算為基礎的信息存儲、分享和挖掘手段為知識生產(chǎn)提供了工具,通過對大數(shù)據(jù)分析、預測會使得決策更為精準,這對媒體融合具有重要意義。

新聞媒體的數(shù)據(jù)庫中擁有海量信息存儲,這些多媒體數(shù)據(jù)包括文字,圖片,視頻和音頻等多種格式,符合大數(shù)據(jù)處理的基本特征,利用大數(shù)據(jù)技術對這些資源進行存儲,計算和分析,了解用戶行為,挖掘數(shù)據(jù)本質和關聯(lián),為領導提供決策支持,為終端用戶提供更好的服務和新聞定制,增強新聞信息產(chǎn)品的質量和影響力。

如今,在開源社區(qū),圍繞Google MapReduce框架,已經(jīng)成長出了一批優(yōu)秀的開源項目。這些項目在技術和實現(xiàn)上相互支持和依托,逐漸形成了一個特有的“大數(shù)據(jù)”生態(tài)系統(tǒng)。系統(tǒng)為我們實現(xiàn)優(yōu)質廉價的大數(shù)據(jù)分析和管理提供了堅實的技術基礎。

新聞媒體可以順應大數(shù)據(jù)的技術趨勢,加強技術調研,早日選型,搭建大數(shù)據(jù)處理平臺,利用云計算項目資源,將海量數(shù)據(jù)統(tǒng)籌管理,通過分析和挖掘,實現(xiàn)新聞產(chǎn)品的創(chuàng)新和跨越式發(fā)展,以現(xiàn)代化的傳播手段向世界展示中國。

大數(shù)據(jù)處理論文:智能電網(wǎng)大數(shù)據(jù)處理技術應用現(xiàn)狀及困境探討

摘 要 隨著我國社會經(jīng)濟的快速發(fā)展,電力事業(yè)得到了長足的發(fā)展,特別是科技的進步,使得智能電網(wǎng)取得了一定程度的發(fā)展。智能電網(wǎng)的建立,有利于將電力系統(tǒng)發(fā)電、輸電、配電、用電實現(xiàn)全系統(tǒng)管理,隨著越來越多的新型技術應用到電力網(wǎng)絡中,特別是云計算平臺的應用,大量的異構數(shù)據(jù)積累,大數(shù)據(jù)處理技術的研究也應運而生。在新的時期,智能電網(wǎng)大數(shù)據(jù)處理面臨著新的機遇與挑戰(zhàn),文章就分析智能電網(wǎng)大數(shù)據(jù)處理技術應用現(xiàn)狀,并探討在新時期大數(shù)據(jù)處理技術面臨的機遇與挑戰(zhàn)。

關鍵詞 智能電網(wǎng);大數(shù)據(jù)處理技術;應用現(xiàn)狀;困境

在智能電網(wǎng)系統(tǒng)中,系統(tǒng)運行的各個環(huán)節(jié)都會產(chǎn)生大量的數(shù)據(jù),如智能電表安裝、電力運行等環(huán)節(jié)。電力企業(yè)在一定時間間隔內對用電客戶的用電數(shù)據(jù)信息進行收集,從而構成電網(wǎng)客戶端大數(shù)據(jù),根據(jù)對這些數(shù)據(jù)的分析更好的了解用電用戶的實際情況,以便科學合理的設置大數(shù)據(jù)處理系統(tǒng)。

1 智能電網(wǎng)大數(shù)據(jù)概述

1.1 智能電網(wǎng)系統(tǒng)中的大數(shù)據(jù)

電網(wǎng)系統(tǒng)中的數(shù)據(jù)可以分為三種類型,包括電網(wǎng)運行中設備監(jiān)測數(shù)據(jù)、電網(wǎng)運營數(shù)據(jù)以及電網(wǎng)管理數(shù)據(jù)。

根據(jù)電網(wǎng)數(shù)據(jù)內在結構,可以將其分為結構數(shù)據(jù)以及非結構數(shù)據(jù)。其中結構數(shù)據(jù)包括關系庫中儲存的數(shù)據(jù),隨著我國科技的進步,結構數(shù)據(jù)不斷的增長。跟結構數(shù)據(jù)不同的是,非結構數(shù)據(jù)不方便用二維邏輯表現(xiàn),主要包括圖形處理數(shù)據(jù)以及視頻監(jiān)控產(chǎn)生的數(shù)據(jù)。由于智能化的發(fā)展,非結構數(shù)據(jù)每年以60%的指數(shù)上漲,逐漸成為智能電網(wǎng)中重要的組成部分。

與傳統(tǒng)電網(wǎng)不同的是,智能電網(wǎng)具有很強的智能化,這就需要能夠對電網(wǎng)運行實時數(shù)據(jù)及時的獲取,目前智能電網(wǎng)大數(shù)據(jù)表現(xiàn)在以下幾個方面。

1)為了能夠實現(xiàn)對電網(wǎng)運行中實時數(shù)據(jù)的獲取,就必須設置越來越多的采集點,監(jiān)測設備應用也越來越多,每一秒都會產(chǎn)生大量的數(shù)據(jù)。

2)設備對電網(wǎng)運行信息采樣的頻率越來越快。

3)為了掌握電網(wǎng)運行的細節(jié),就需要對電網(wǎng)運行中相關信息的實時變樣采集。

1.2 智能電網(wǎng)大數(shù)據(jù)特點

智能電網(wǎng)中大數(shù)據(jù)具有以下幾個方面的特點。

1)智能電網(wǎng)數(shù)據(jù)量大。隨著智能化的發(fā)展,電網(wǎng)數(shù)據(jù)從TB級逐漸上升至PB級。

2)智能電網(wǎng)數(shù)據(jù)類型種類繁多。社會對電力需求量越來越多,為了能夠滿足電量數(shù)據(jù)要求,電網(wǎng)數(shù)據(jù)的種類也越來越繁雜,包括文本數(shù)據(jù)、媒體數(shù)據(jù)等結構數(shù)據(jù),還包括非結構數(shù)據(jù),在數(shù)據(jù)的應用以及處理上也不盡相同。

3)智能電網(wǎng)大數(shù)據(jù)利用價值密度較低。就以電網(wǎng)監(jiān)控視頻為例,在實時監(jiān)控的過程中,有用的數(shù)據(jù)占總數(shù)據(jù)的比例很少,絕大多數(shù)的數(shù)據(jù)都屬于正常數(shù)據(jù),而少數(shù)的異常數(shù)據(jù)正是有用的數(shù)據(jù),也才是對電網(wǎng)運行檢修提供有力依據(jù)的數(shù)據(jù)。

4)數(shù)據(jù)處理速度快,智能電網(wǎng)大數(shù)據(jù)處理速度可以用微秒計算,能夠在極短時間內分析數(shù)據(jù),為電網(wǎng)運行決策的制定提供依據(jù)。

2 智能電網(wǎng)大數(shù)據(jù)處理技術應用面臨的挑戰(zhàn)

2.1 智能電網(wǎng)大數(shù)據(jù)傳輸、存儲技術

智能化的發(fā)展,電力系統(tǒng)運行過程中各項數(shù)據(jù)、以及電力設備監(jiān)測數(shù)據(jù)被全部記錄下來,數(shù)據(jù)量越來越多,這給電網(wǎng)運行監(jiān)控設備以及數(shù)據(jù)的傳輸、存儲系統(tǒng)造成巨大的負擔,并對電網(wǎng)智能化發(fā)展造成很大的影響。

對于智能電網(wǎng)大數(shù)據(jù)的傳輸,采用數(shù)據(jù)壓縮的方式能夠提高數(shù)據(jù)傳輸?shù)男?,降低?shù)據(jù)傳輸量。所以越來越多的網(wǎng)絡數(shù)據(jù)壓縮技術被應用到智能電網(wǎng)數(shù)據(jù)傳輸中,通過數(shù)據(jù)壓縮能降低數(shù)據(jù)儲存的空間,但在壓縮以及解壓過程中也會對系統(tǒng)中心帶來一定的資源浪費,需要更為合理的平臺支持。

對于智能電網(wǎng)大數(shù)據(jù)存儲方面,采用分布式文件保存的方式能夠實現(xiàn)對大量數(shù)據(jù)的存儲,但對電力系統(tǒng)實時性數(shù)據(jù)處理方面還有一定的局限性。所以需要對系統(tǒng)中大數(shù)據(jù)性能進行分析并實行分類存儲。

智能電網(wǎng)中非結構化數(shù)據(jù)占據(jù)很大的比重,在存儲方面需要將這些海量的非結構化數(shù)據(jù)轉換為結構化數(shù)據(jù),這正是目前智能大數(shù)據(jù)處理技術面臨的困境。

2.2 大數(shù)據(jù)實時處理技術

對于智能電網(wǎng)來說,大數(shù)據(jù)的處理速度至關重要,數(shù)據(jù)的規(guī)模越大,數(shù)據(jù)處理的時間就越久,如果數(shù)據(jù)量的規(guī)模超過了處理技術承受的能力,難免對電網(wǎng)正常運行造成影響,這就需要確保數(shù)據(jù)傳輸、分析、處理的速度。云計算系統(tǒng)能夠為智能電網(wǎng)提供快速的服務,但也會造成網(wǎng)絡堵塞現(xiàn)象的發(fā)生,雖然堵塞的時間較短,也會對電網(wǎng)服務器造成障礙。

2.3 智能化大數(shù)據(jù)可視化分析技術

智能電網(wǎng)運行中會產(chǎn)生海量的數(shù)據(jù),將這些數(shù)據(jù)及時分析處理,并在有限的屏幕中將其展示給電力用戶,這也是目前智能電網(wǎng)運行大數(shù)據(jù)處理面臨重要的挑戰(zhàn)??梢暬治黾夹g能夠有效的處理大數(shù)據(jù),并逐漸應用到實際電網(wǎng)運行中??梢暬治黾夹g,利用高度集成技術、高分辨率圖像,以及交互工具,為電力用戶提供明朗的數(shù)據(jù)處理結果。

隨著科技水平的提升,可視化分析技術也面臨著挑戰(zhàn),包括該技術的擴展性,以及重要數(shù)據(jù)的提取、顯示以及圖像合成方面的挑戰(zhàn)。

另外,還需要保證智能電網(wǎng)數(shù)據(jù)網(wǎng)絡的質量,對其進行定期檢修與維護,如果在數(shù)據(jù)網(wǎng)絡運行中出現(xiàn)故障,需要根據(jù)故障的現(xiàn)象,結合網(wǎng)絡診斷技術,找出故障發(fā)生的原因,從根源上排除故障,使數(shù)據(jù)網(wǎng)絡恢復正常。進行網(wǎng)絡故障診斷,不僅需要及時的恢復發(fā)生故障的網(wǎng)絡,不斷的改善調度數(shù)據(jù)網(wǎng)絡的性能,還需要掌握數(shù)據(jù)網(wǎng)絡的運行狀態(tài),確保數(shù)據(jù)網(wǎng)絡的通信質量。

3 總結

我國智能化技術在電網(wǎng)系統(tǒng)中應用越來越廣泛,大數(shù)據(jù)處理技術成為了維護智能電網(wǎng)安全運行的主要手段。云計算為智能化數(shù)據(jù)處理、存儲提供有效的平臺,也能夠保證智能電網(wǎng)大數(shù)據(jù)能夠得到及時的分析與處理,為電網(wǎng)安全運行提供保障。但是隨著電網(wǎng)智能化程度逐漸深入,大數(shù)據(jù)處理技術在實時性、隱私性、一致性等方面也遇到了很大的挑戰(zhàn),必須找出有效的解決方法,這就需要有關人員加大科研力度,不斷的探索,相信我國智能電網(wǎng)系統(tǒng)運行會越來越穩(wěn)定,必將推動我國電力事業(yè)的健康發(fā)展。

大數(shù)據(jù)處理論文:試論云計算技術下的大數(shù)據(jù)處理系統(tǒng)

摘 要

隨著云計算技術的不斷完善,為了促進大數(shù)據(jù)處理系統(tǒng)的功能多樣化,云計算技術在大數(shù)據(jù)處理系統(tǒng)上得到了廣泛的應用。本文重點研究了在多元因素的影響下的數(shù)據(jù)模型對大數(shù)據(jù)處理的影響,并據(jù)此提出了一種基于融合思想,采用了混合架構以及分散處理的云計算環(huán)境下的大數(shù)據(jù)處理系統(tǒng)的整體部署策略。

【關鍵詞】云計算 大數(shù)據(jù)處理 融合處理

1 引言

隨著網(wǎng)絡技術的發(fā)展,以及智能設備的普及,當前的數(shù)據(jù)增長速度已經(jīng)呈現(xiàn)爆炸式增長,大數(shù)據(jù)時代已經(jīng)來臨。目前專家對大數(shù)據(jù)處理系統(tǒng)方面的研究主要是基于云環(huán)境下的分布式部署以及網(wǎng)絡架構的融合和動態(tài)實時數(shù)據(jù)處理這三個方面。同時也取得了一定的研究成果,對于當前的云計算環(huán)境下的大數(shù)據(jù)處理系統(tǒng)的發(fā)展提供了很多理論和實踐基礎。

2 基于融合思想的大數(shù)據(jù)處理方案分析

云計算技術模式下,人機交互和數(shù)據(jù)處理以及網(wǎng)絡邏輯處理技術等都相對交融,處于深度融合狀態(tài)。因此基于融合思想的大數(shù)據(jù)處理方案就是以融合思想為核心,將云計算技術模式下的各種分散的網(wǎng)絡資源進行協(xié)同組織,然后再進行融合,從而充分發(fā)揮分散狀態(tài)下的資源優(yōu)勢,形成一種整體性的比較優(yōu)勢,因此這種融合式的大數(shù)據(jù)處理方案的應用前景十分廣闊。

在云計算技術模式下,大數(shù)據(jù)處理研究更多的著力點放在了大數(shù)據(jù)處理系統(tǒng)的構建、分散資源的協(xié)同以及相關的輔助技術等。從宏觀角度來看,可以氛圍內混合處理和混合管理兩個方面。其中混合管理的核心就是研究各種無線以及有線的處理機制和數(shù)據(jù)共享、資源共享機制的管理,同時還包括了分散數(shù)據(jù)管理機制和協(xié)同機制管理等。而混合處理的研究核心則是著力于系統(tǒng)運行模型和相關輔助技術上。

3 大數(shù)據(jù)處理系統(tǒng)的應用和處理系統(tǒng)分析

3.1 大數(shù)據(jù)處理系統(tǒng)的應用

大數(shù)據(jù)處理系統(tǒng)的應用主要包括三個方面:

(1)基于融合式架構的應用。這實際上就是一種客戶機/服務器架構模式,其中服務器主要負責應用系統(tǒng)的管理和控制以及相關應用的邏輯處理和數(shù)據(jù)調度等。而客戶端則是專門進行人機交互,當用戶想要執(zhí)行數(shù)據(jù)處理分析人物時,通過客戶機向服務器發(fā)送請求,然后有服務器完成并返回給客戶端。這個融合式架構相對簡單,且容易維護,但是服務器功能有著極高的依賴,這也往往成為數(shù)據(jù)處理系統(tǒng)應用的瓶頸。

(2)分散式架構。這種架構的特點就是協(xié)同控制的節(jié)點都是平等地位,并且和處理系統(tǒng)有關的控制和管理模塊都是分散在各個客戶端上??蛻舳藫碛幸欢ǖ淖灾螌傩?,因此具有通用性和靈活性和可擴展性等諸多優(yōu)勢。但是由于數(shù)據(jù)采用分布存儲和分布操作,這樣在維護方面就變得較為困難,而且節(jié)點之間的實時同步和用戶動態(tài)注冊的應用也難以實現(xiàn)。

(3)混合式結構。這種結構擁有前兩兩種結構有點,通過服務器實現(xiàn)數(shù)據(jù)信息的統(tǒng)一維護,而客戶端一方面實現(xiàn)信息傳輸功能,同時也能夠和用戶在某些應用方面進行充分的交互,因此能夠有效減輕服務器端的壓力,這樣也能夠消除服務器端的瓶頸。提升系統(tǒng)的魯棒性和靈活性。

3.2 云計算技術下的大數(shù)據(jù)處理系統(tǒng)具體分析

3.2.1 系統(tǒng)架構

云計算技術環(huán)境下的大數(shù)據(jù)處理平臺的節(jié)點主要體現(xiàn)下面幾個特點:其一是節(jié)點分散性;其二是數(shù)據(jù)處理動態(tài)性;其三是數(shù)據(jù)來源混構性。

這個處理平臺架構采用了融合式的調度執(zhí)行層和任務融合調度管理,并根據(jù)處理規(guī)則和不同的參數(shù)來調整處理引擎的數(shù)據(jù)和算法組合以及計算資源。對大數(shù)據(jù)資源的數(shù)據(jù)交互和任務分工工作進行了有效融合。同時在管理層,也對業(yè)務數(shù)據(jù)進行分布式存儲,提升了容錯處理能力。

3.2.2 系統(tǒng)處理流程

系統(tǒng)處理流程主要是對分散狀態(tài)數(shù)據(jù)進行處理,其關鍵就是對分散的數(shù)據(jù)進行提取,因此首先給其他應用提供數(shù)據(jù)接口。然后數(shù)據(jù)管理部分要融合數(shù)據(jù)資源,并在一定容忍度的基礎下,對不同的數(shù)據(jù)處理機制進行比較,進而優(yōu)勢融合。最后數(shù)據(jù)處理中心則是對數(shù)據(jù)進行集中處理,然后統(tǒng)一分配數(shù)據(jù)資源,從而在數(shù)據(jù)中心實現(xiàn)數(shù)據(jù)處理的融合。

3.2.3 處理系統(tǒng)的部署

某信息產(chǎn)業(yè)園的大數(shù)據(jù)處理系統(tǒng)的部署是根據(jù)信息企業(yè)集群的需求,然后對現(xiàn)有分散數(shù)據(jù)資源進行挖掘,比如企業(yè)內部的ERP和SCM系統(tǒng)中的數(shù)據(jù),通過對這些數(shù)據(jù)進行深度挖掘從而為該企業(yè)提供戰(zhàn)略發(fā)展資源。圖1就顯示了這個部署圖。

從部署圖可以看出,在這家企業(yè)中,ERP和SCM和CRM是其數(shù)據(jù)源,然后經(jīng)過服務器處理之后,分布到n個數(shù)據(jù)庫,然后進行合并進入到大數(shù)據(jù)管理模塊,最終能夠實現(xiàn)數(shù)據(jù)查詢和數(shù)據(jù)決策服務。

4 結語

總而言之,目前采用融合式思想,在云計算技術條件下,對大數(shù)據(jù)處理系統(tǒng)進行部署的研究相對較少,特別是當前的信息產(chǎn)業(yè),由于其自身的解決方案并不能夠實現(xiàn)大數(shù)據(jù)條件的比較優(yōu)勢,所以本文提出的融合式的大數(shù)據(jù)處理技術,有效的提升了數(shù)據(jù)利用深度,拓展了大數(shù)據(jù)處理系統(tǒng)的應用范圍。