發(fā)布時間:2022-12-23 08:33:28
序言:寫作是分享個人見解和探索未知領域的橋梁,我們?yōu)槟x了8篇的大數(shù)據(jù)技術(shù)樣本,期待這些樣本能夠為您提供豐富的參考和啟發(fā),請盡情閱讀。
本文首先對大數(shù)據(jù)時代的特點進行了介紹,其次對常用的數(shù)據(jù)挖掘方法進行了闡述,最后提出了展望。
【關鍵詞】大數(shù)據(jù) 數(shù)據(jù)挖掘 分類 聚類
大數(shù)據(jù)(Big Data),也稱為海量數(shù)據(jù),是隨著計算機技術(shù)及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展而產(chǎn)生的獨特數(shù)據(jù)現(xiàn)象。現(xiàn)代社會正以不可想象的速度產(chǎn)生大量數(shù)據(jù),如網(wǎng)絡訪問,微博微信,視頻圖片,手機通信,網(wǎng)上購物……等等都在不斷產(chǎn)生大量的數(shù)據(jù)。如何更好的利用和分析產(chǎn)生的數(shù)據(jù),從而為人類使用,這是非常重要的科學研究。在大數(shù)據(jù)時代,更好的利用云計算以及數(shù)據(jù)挖掘,顯得尤為重要。
1 大數(shù)據(jù)的概念
大數(shù)據(jù),是指無法在一定時間內(nèi)用常規(guī)機器和軟硬件對其進行感知、獲取、管理、處理和服務的數(shù)據(jù)集合。IBM將大數(shù)據(jù)的特點總結(jié)為三個V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。
即產(chǎn)生的數(shù)據(jù)容量大。數(shù)據(jù)主要來源如:E-mail、搜索引擎的搜索、圖片、音頻、視頻、社交網(wǎng)站、微博微信、各種應用軟件和app、電子商務以及電子通信等等。在實際生活中,電子商務的購物平臺數(shù)量和種類越來越多,社交網(wǎng)站的典型facebook的數(shù)據(jù)量大的驚人,以PB計量都不夠。數(shù)據(jù)存儲的單位不僅僅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每個單位的關系為后者是前者的1024倍,如1PB=1024TB。同時大數(shù)據(jù)的增長速度是越來越快,如手機相機的像素數(shù)隨著新款手機的出現(xiàn)而成倍的增長。
1.2 多樣化
從數(shù)據(jù)組織形式的角度將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù),具有一定的規(guī)律,可以使用二維表結(jié)構(gòu)來表示,并存儲在數(shù)據(jù)庫中,如高校的教務管理系統(tǒng)的數(shù)據(jù)、銀行交易產(chǎn)生的數(shù)據(jù)。而非結(jié)構(gòu)化數(shù)據(jù)是無法通過預先定義的數(shù)據(jù)模型表達并存儲在數(shù)據(jù)庫中的數(shù)據(jù),如聲音、視頻和圖片等等。當前非結(jié)構(gòu)化數(shù)據(jù)的增長速度遠遠超過結(jié)構(gòu)化數(shù)據(jù)。
1.3 快速化
在當前商業(yè)競爭激烈的時代,對實時的數(shù)據(jù)進行分析和處理,挖掘有用的數(shù)據(jù)信息,并用于商業(yè)運作,對于企業(yè)和組織來說非常重要。如現(xiàn)在網(wǎng)絡購物會依據(jù)多數(shù)人的購物組合,分析出大部分人在購買一件物品的同時會同時購買其他的物品,從而在購物選擇時給予方便,提高網(wǎng)購的效率,提高效益。
隨著互聯(lián)網(wǎng)技術(shù)和計算機技術(shù)的快速發(fā)展,在產(chǎn)生大數(shù)據(jù)的同時,人們要能夠?qū)@些數(shù)據(jù)加以利用,得到有用的信息,才是最重要的。為了讓海量規(guī)模的數(shù)據(jù)能夠真正發(fā)揮巨大的作用,需要將這些數(shù)據(jù)轉(zhuǎn)換為有用的信息和知識,即從傳統(tǒng)的數(shù)據(jù)統(tǒng)計向數(shù)據(jù)挖掘和分析進行轉(zhuǎn)換。比如沃爾瑪超市能夠從男人購物時買啤酒的同時會購買小孩的紙尿褲這種關聯(lián),并在實際物品擺放時將這兩種物品放置在一起,方便用戶購物。
2 數(shù)據(jù)挖掘
隨著信息技術(shù)應用的廣泛,大量的數(shù)據(jù)產(chǎn)生并存儲各個領域的信息系統(tǒng)中,數(shù)據(jù)呈現(xiàn)了爆炸式的增長。數(shù)據(jù)挖掘在這種“數(shù)據(jù)爆炸,知識匱乏”的情況下出現(xiàn)的。數(shù)據(jù)挖掘(Data mining)是一個多學科交叉的研究領域,它融合了數(shù)據(jù)庫技術(shù)、機器學習、人工智能、知識工程和統(tǒng)計學等學科領域。數(shù)據(jù)挖掘在很多領域尤其是電信、銀行、交通、保險和零售等商業(yè)領域得到廣泛的應用。
數(shù)據(jù)挖掘也稱為從數(shù)據(jù)中發(fā)現(xiàn)知識,具體來講就是從大規(guī)模海量數(shù)據(jù)中抽取人們所感興趣的非平凡的、隱含的、事先未知的和具有潛在用途的模式或者知識。
3 數(shù)據(jù)挖掘的主要研究內(nèi)容
數(shù)據(jù)挖掘的任務是發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式,其模式分為兩大類:描述型模式和預測型模式。描述型模式是對當前數(shù)據(jù)中存在的事實做規(guī)范描述,刻畫當前數(shù)據(jù)的一般特性。預測型模式則是以時間為主要關鍵參數(shù),對于時間序列型數(shù)據(jù),根據(jù)其歷史和當前的值去預測其未來的值。常使用的算法有:
3.1 聚類分析
聚類是將數(shù)據(jù)劃分成群組的過程,根據(jù)數(shù)量本身的自然分布性質(zhì),數(shù)據(jù)變量之間存在的程度不同的相似性(親疏關系),按照一定的準則將最相似的數(shù)據(jù)聚集成簇。主要包括劃分聚類算法,層次聚類算法和密度聚類算法等。經(jīng)典算法有K-Means、K-Medoids。
3.2 特性選擇
特性選擇是指為特定的應用在不失去數(shù)據(jù)原有價值的基礎上選擇最小的屬性子集,去除不相關和冗余的屬性。特性選擇用于在建立分類模型前,或者預測模型之前,對原始數(shù)據(jù)庫進行預處理。常用的算法有最小描述長度法。
3.3 特征抽取
特征抽取式數(shù)據(jù)挖掘技術(shù)的常用方法,是一個屬性降維的過程,實際為變換屬性,經(jīng)變換了的屬性或者特性,是原來屬性集的線性合并,出現(xiàn)更小更精的一組屬性。常用算法如主成分分析法、因子分析法和非負矩陣因子法等。
3.4 關聯(lián)規(guī)則
關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領域中研究最為廣泛和和活躍的方法之一。最初的研究動機是針對購物籃分析問題提出的,目的是為了解決發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系規(guī)則。關聯(lián)規(guī)則是指大量數(shù)據(jù)中項集之間的有趣關聯(lián)或相關關系。常用的算法有Apriori算法。
3.5 分類和預測
分類是應用已知的一些屬性數(shù)據(jù)去推測一個未知的離散型的屬性數(shù)據(jù),而這個被推測的屬性數(shù)據(jù)的可取值是預先定義的。要很好的實現(xiàn)推測,需要事先定義一個分類模型??捎糜诜诸惖乃惴ㄓ袥Q策樹、樸素貝葉斯分類、神經(jīng)網(wǎng)絡、logistic回歸和支持向量機等。
4 結(jié)論
隨著時代的進步,數(shù)據(jù)也發(fā)生變化,具有各種各樣的復雜形式。很多研究機構(gòu)和個人在對結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)挖掘的同時,也展開了對空間數(shù)據(jù)、多媒體數(shù)據(jù)、時序數(shù)據(jù)和序列數(shù)據(jù)、文本和Web等數(shù)據(jù)進行數(shù)據(jù)挖掘和分析。同時大數(shù)據(jù)的發(fā)展促進了云計算的產(chǎn)生,基于云計算的數(shù)據(jù)挖掘也在迅速崛起。
參考文獻
[1]劉軍.大數(shù)據(jù)處理[M].北京:人民郵電出版社,2013(09).
[2]王元卓等.網(wǎng)絡大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學報,2013(06).
[3]申彥.大規(guī)模數(shù)據(jù)集高效數(shù)據(jù)挖掘算法研究[D].江蘇大學,2013(06).
[4](加)洪松林.數(shù)據(jù)挖掘技術(shù)與工程實踐[M].北京:機械工業(yè)出版社,2014.
[5]賀瑤等.基于云計算的海量數(shù)據(jù)挖掘研究[J].計算機技術(shù)與發(fā)展,2013(02).
作者簡介
許凡(1996-),男,江蘇省南京市人。現(xiàn)就讀三江學院計算機科學與工程學院計算機軟件工程專業(yè)本科。
孫勤紅(1979-),女,山東省臨沂市人。碩士研究生學歷。現(xiàn)為三江學院計算機科學與工程學院講師、指導教師。主要研究領域為數(shù)據(jù)挖掘。
關鍵詞:云計算;云存儲
1 什么是云存儲
云存儲是在云計算概念上延伸和發(fā)展的一個新的概念,是指通過集群應用、網(wǎng)絡技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡中大量各種不同類型的存儲設備通過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。當云計算系統(tǒng)運算和處理的核心是大量數(shù)據(jù)的存儲管理時,云計算系統(tǒng)中就需要配置大量的存儲設備,那么,云計算系統(tǒng)就轉(zhuǎn)變成為一個云存儲系統(tǒng),所以云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。
2 云存儲分類
按照服務對象可以把云存儲分類如下:
(1) 公共云存儲。公共云存儲可以以低成本提供大量的文件存儲。供應商可以保持每個客戶的存儲、應用都是獨立的、私有的,公共云存儲可以劃出一部分來用作私有云存儲。
(2) 私有云存儲。通過私有云存儲,一個公司可以擁有或控制基礎架構(gòu),以及應用的部署。私有云存儲可以部署在企業(yè)數(shù)據(jù)中心或相同地點的設施上。私有云可以由公司自己的IT部門管理,也可以由服務供應商管理。
相比傳統(tǒng)存儲模式,云存儲的租購模式顯得更加靈活方便,其實,企業(yè)自己構(gòu)建一個數(shù)據(jù)中心需要購買硬件等必備設施及復雜多變的維護管理。
(3) 混合云存儲。這種云存儲把公共云和私有云結(jié)合在一起。主要用于按客戶要求的訪問,特別是需要臨時配置容量的時候。
從公共云上劃出一部分容量配置一種私有云,可以幫助公司面對迅速增長的負載波動或高峰時很有幫助。
盡管如此,混合云存儲帶來了跨公共云和私有云分配應用的復雜性。
3 云存儲具有的優(yōu)勢
作為大數(shù)據(jù)時代的云存儲技術(shù),與傳統(tǒng)存儲技術(shù)相比,具有如下明顯優(yōu)勢:
(1) 靈活方便。對于中小企業(yè)或個人用戶,完全可以將數(shù)據(jù)的創(chuàng)建與維護委托給云服務提供商,而只是租用云服務提供商的服務即可,用戶不必考慮存儲容量、存儲設備類型、數(shù)據(jù)存儲位置,以及更多的關于數(shù)據(jù)的可用性、可靠性和安全性等繁雜的技術(shù)層面。避免了購買硬件設備及技術(shù)維護而投入的精力,節(jié)省下來的大量時間可以用于更多的工作業(yè)務發(fā)展。
(2) 成本低廉。就目前來說,企業(yè)在數(shù)據(jù)存儲上所付出的成本相當大,因為企業(yè)要建立一套存儲系統(tǒng)不僅需要購買硬件等基礎設施,同時,系統(tǒng)維護還需要專門的人員,企業(yè)的存儲空間及管理費用都面臨巨大挑戰(zhàn),企業(yè)必須更新或增加各種數(shù)據(jù)存儲和管理設備,而且還要負擔逐漸高漲的管理成本。
為了減少這種成本壓力,好多企業(yè)將大部分數(shù)據(jù)遷移至云存儲上,所有的升級、維護等管理任務均由云存儲服務提供商來完成。因此,可以將數(shù)據(jù)存儲與管理的成本降到最低,同時,還能獲得最優(yōu)良的數(shù)據(jù)存儲服務。
(3) 量身定制。隨著大數(shù)據(jù)的到來,傳統(tǒng)的存儲模式已不再適用企業(yè)的數(shù)據(jù)存儲,企業(yè)急需一種新的存儲方式來滿足企業(yè)數(shù)據(jù)存儲的個性化需求。
私有云即可滿足企業(yè)這一個性化需求。云服務提供商可以專門為企業(yè)客戶提供一種量身定制的云存儲服務解決方案,也可以由企業(yè)自己的IT機構(gòu)部署一套私有云服務架構(gòu)。企業(yè)不僅可以得到最優(yōu)質(zhì)的個性化服務,還能在一定程度上降低安全風險。
4 云存儲發(fā)展需要考慮的主要問題
由于云存儲具有傳統(tǒng)數(shù)據(jù)存儲模式不具備的諸多優(yōu)勢,越來越多的中小企業(yè)正在將自己的數(shù)據(jù)中心逐漸轉(zhuǎn)移至云端。而大型企業(yè)除了租用公共云存儲服務以外,也開始著手建立自己的私有云存儲數(shù)據(jù)中心。但是,云存儲仍處于快速發(fā)展階段,云存儲要想得到廣泛應用,還有待進一步完善和改進。
(1) 安全問題。數(shù)據(jù)存儲在云計算中心,安全問題始終是用戶最為關注的問題。
用戶的敏感信息和個人隱私數(shù)據(jù)如何才能保證其具有安全性和私密性,云存儲服務提供商應根據(jù)分布式文件中可能存在的安全威脅和安全需求,來制定相應的安全策略,以便在計算機中實施相應的保護機制,確保用戶數(shù)據(jù)避免丟失或被竊。
(2) 可靠性問題??煽啃允菙?shù)據(jù)存儲系統(tǒng)最基本也是最關鍵的一項指標。
數(shù)據(jù)的備份復制是云存儲管理中心必須考慮的問題,而且數(shù)據(jù)的備份復制可以大大提高云存儲系統(tǒng)的可靠性和性能,同時能夠增強系統(tǒng)的容錯能力。如果云存儲數(shù)據(jù)遭到破壞,云存儲服務提供商應該能夠快速全面地恢復數(shù)據(jù),確保用戶數(shù)據(jù)的完整性。
5 結(jié)束語
云存儲不僅僅是存儲,更多的是應用,是云計算時代的一場存儲革命,隨著云存儲的安全性、可靠性、實用性等存儲技術(shù)的不斷成熟,人們對存儲技術(shù)的認識不斷提高,云存儲成本的不斷降低,一定會形成一個安全可靠、實用快速的云數(shù)據(jù)存儲與訪問系統(tǒng)。云存儲必將廣泛應用于各行各業(yè),云存儲必然是未來數(shù)據(jù)存儲的發(fā)展趨勢。
參考文獻
[1]互動百科./wiki/云存儲.
[2]百度百科. / view /
關鍵詞:大數(shù)據(jù);數(shù)據(jù)庫技術(shù);數(shù)據(jù)標簽
1引言
數(shù)據(jù)庫技術(shù)主要是通過相關的技術(shù)措施對信息數(shù)據(jù)進行有效的存儲管理、優(yōu)化數(shù)據(jù)結(jié)構(gòu)、設計數(shù)據(jù)管理模式等。另外,數(shù)據(jù)庫技術(shù)還可以對庫里的數(shù)據(jù)進行科學合理的整合分析,挖掘數(shù)據(jù)的真實性和實用性,找出不同數(shù)據(jù)之間的聯(lián)系,這也是當前社會發(fā)展的實際需求,對于現(xiàn)代信息技術(shù)的發(fā)展起著十分重要的作用和意義。
2數(shù)據(jù)庫技術(shù)簡介
隨著大數(shù)據(jù)技術(shù)的不斷改革完善,作為近年來興起的新型技術(shù),它在一定程度上是隨著云計算的出現(xiàn)而發(fā)展的。立足于云計算的相關技術(shù),對人們生活和工作中產(chǎn)生的大量數(shù)據(jù)進行綜合處理,結(jié)合計算機技術(shù)、網(wǎng)絡通信技術(shù)、數(shù)據(jù)庫技術(shù)等,有效推動社會經(jīng)濟的穩(wěn)步發(fā)展。數(shù)據(jù)庫技術(shù)在推廣和普及過程中,主要是以計算機信息技術(shù)為載體,充分結(jié)合傳統(tǒng)數(shù)據(jù)信息處理技術(shù)和互聯(lián)網(wǎng)技術(shù),對社會中的生產(chǎn)要素和業(yè)務要素進行及時有效的分析和更新,調(diào)整社會中現(xiàn)有的業(yè)務結(jié)構(gòu)和發(fā)展模式,從而有效實現(xiàn)經(jīng)濟轉(zhuǎn)型。
3大數(shù)據(jù)時代背景下數(shù)據(jù)庫技術(shù)的應用現(xiàn)狀
3.1構(gòu)建與面向?qū)ο髮嶋H需求相結(jié)合的數(shù)據(jù)庫
在進行數(shù)據(jù)庫的開發(fā)和利用過程中,應當充分立足于用戶的實際需求,有效結(jié)合面向?qū)ο蠓椒?,根?jù)數(shù)據(jù)庫的分析情況,充分了解用戶的需求,為用戶提供更為全面和細致的服務。從一定意義上來講,不僅可以體現(xiàn)出個性化服務,還能保障數(shù)據(jù)傳輸過程中的安全性和實效性[1]。根據(jù)相關調(diào)查研究可以看出,當前我國數(shù)據(jù)庫技術(shù)仍處于不斷發(fā)展和創(chuàng)新時期,面向?qū)ο蟠罱ǔ龈咝У臄?shù)據(jù)庫,并且根據(jù)用戶需求不斷進行調(diào)整優(yōu)化。
3.2構(gòu)建與多媒體技術(shù)相結(jié)合的數(shù)據(jù)庫
一方面,對大多數(shù)群體來說,多媒體數(shù)據(jù)庫中所存儲的資料數(shù)據(jù)更多,界面的設置也更加多元化,能夠在第一時間吸引人們的注意力,從而更好地滿足人們的個性化需求,實現(xiàn)技術(shù)的多元化發(fā)展。另一方面,數(shù)據(jù)庫的安全問題一直是人們最為關注的問題,安全隱患一直是制約數(shù)據(jù)庫技術(shù)發(fā)展的重要因素,通過有效融合數(shù)據(jù)庫技術(shù)與多媒體,可以在一定程度上提高數(shù)據(jù)庫的安全性能和穩(wěn)定性能。在實際工作過程中,為了充分推動數(shù)據(jù)庫的發(fā)展和多媒體技術(shù)的有效融合,相關工作人員應當解決以下幾個問題。第一,多媒體數(shù)據(jù)庫在實際使用過程中必將涉及到用戶的個性化需求,在進行設計時應當有針對性的融入相關數(shù)字數(shù)據(jù),實現(xiàn)多媒體數(shù)據(jù)的有效管理和存儲,已成為了技術(shù)節(jié)點搭建的重要模塊。第二,數(shù)據(jù)庫技術(shù)與多媒體技術(shù)要實現(xiàn)有效結(jié)合必將涉及到系統(tǒng)的兼容性,這不僅是數(shù)據(jù)之間的融合,還是數(shù)據(jù)交叉使用的重要內(nèi)容,如何充分進行二者的融合和兼容,是全面深入實現(xiàn)多媒體數(shù)據(jù)庫面臨的主要問題[2]。
4大數(shù)據(jù)時代背景下的數(shù)據(jù)庫技術(shù)特點
4.1統(tǒng)一性
受傳統(tǒng)數(shù)據(jù)庫系統(tǒng)搭建模式內(nèi)容的影響,不同類型的數(shù)據(jù)庫在使用中仍存在不兼容的情況。因此,無法充分利用數(shù)據(jù)庫中的信息資源,造成了資源的閑置或浪費,無法充分滿足用戶的實際需求。大數(shù)據(jù)時代背景下的數(shù)據(jù)庫技術(shù)可以有效解決這一問題,針對不同類型的數(shù)據(jù)庫進行有效統(tǒng)一的數(shù)據(jù)庫建設,不斷完善數(shù)據(jù)信息資源的檢索功能,從而提高用戶的滿意程度和工作效率,簡化操作流程[3]。
4.2共享性
數(shù)據(jù)庫技術(shù)的有效實現(xiàn)和價值體現(xiàn),在一定程度上取決于數(shù)據(jù)信息資源的共享性。人們可以通過方便快捷的方式方法獲取資源,不斷提高信息的使用效率。在實踐應用過程中,相關工作人員可以根據(jù)虛擬數(shù)據(jù)的實際情況對各個數(shù)據(jù)庫中的子節(jié)點進行科學合理的搭建,逐漸實現(xiàn)功能的多元化發(fā)展和信息資源的共享。隨著我國信息技術(shù)的不斷發(fā)展,數(shù)據(jù)庫技術(shù)的逐漸拓展和信息資源的共享,在一定程度上實現(xiàn)了信息資源的方便快捷,不斷滿足用戶的多元化需求,從而充分體現(xiàn)出數(shù)據(jù)庫的價值和作用。
5大數(shù)據(jù)時代背景下數(shù)據(jù)庫技術(shù)的應用對策和手段
5.1數(shù)據(jù)標簽
數(shù)據(jù)標簽是大數(shù)據(jù)時代背景下使用數(shù)據(jù)庫技術(shù)的基礎,能夠充分實現(xiàn)數(shù)據(jù)的查詢和有效定位。在進行數(shù)據(jù)庫的有效搭建和完善過程中,相關技術(shù)人員應當有針對性地凸顯出數(shù)據(jù)庫中相關資源的特殊性,充分立足于社會發(fā)展的實際需求,科學合理的設置相應字符長度,不斷提高數(shù)據(jù)標簽的科學性和合理性。
5.2節(jié)點建設
在使用數(shù)據(jù)庫時,節(jié)點建設應當是建設的核心和關鍵,各個要素之間的有效搭建能夠充分滿足用戶的實際需求,體現(xiàn)出個性化發(fā)展目標。根據(jù)實際情況可以看出,當前我國在節(jié)點建設中仍存在一定的問題,比如過于注重其標準性,采用固定的某種模式進行搭建,沒有充分考慮到實際需求,使得節(jié)點建設脫離實際,無法充分發(fā)揮數(shù)據(jù)庫技術(shù)的作用和功能?;诖?,相關技術(shù)人員應當在原有數(shù)據(jù)庫技術(shù)基礎上進行優(yōu)化完善,結(jié)合原有的地址內(nèi)容和關鍵詞檢索信息,對整個數(shù)據(jù)信息資源進行重新整合,從而提高數(shù)據(jù)庫的有效性。
5.3虛擬大數(shù)據(jù)系統(tǒng)
在數(shù)據(jù)庫中靈活有效搭建出虛擬大數(shù)據(jù)技術(shù)可以更好地實現(xiàn)數(shù)據(jù)的海量管理,對數(shù)據(jù)庫綜合性能的提升和創(chuàng)新改革服務內(nèi)容等都有著極其重要的作用和意義。虛擬大數(shù)據(jù)系統(tǒng)為數(shù)據(jù)群的前臺,其功能的實現(xiàn)直接影響了數(shù)據(jù)庫和節(jié)點信息資源的收集交匯,合理分配任務。虛擬大數(shù)據(jù)系統(tǒng)應當是整個虛擬數(shù)據(jù)中的關鍵所在,只有確保其正常高效運行,才能為用戶提供更為更全面的服務[4]。
5.4信息獲取
我國現(xiàn)有的數(shù)據(jù)庫技術(shù)更為注重數(shù)據(jù)信息資源獲取渠道和機制的創(chuàng)新完善,通過交互式管理模式,不斷進行信息的重組和創(chuàng)新。一方面,對于信息的獲取應當充分考慮到用戶的實際需求,搭建出由上而下的健全數(shù)據(jù)信息獲取途徑,使得用戶獲得更為全面系統(tǒng)的數(shù)據(jù)信息,確保信息的真實性和可靠性。另一方面,在獲取元數(shù)據(jù)時,技術(shù)人員應當充分運用虛擬大數(shù)據(jù)技術(shù),對數(shù)據(jù)進行有效獲取。
>> 大數(shù)據(jù)關鍵技術(shù) 大數(shù)據(jù)關鍵技術(shù)分析及系統(tǒng)實例分析 淺談大數(shù)據(jù)基礎理論與關鍵技術(shù)發(fā)展 電力信息大數(shù)據(jù)高速存儲及檢索關鍵技術(shù)研究 電力大數(shù)據(jù)可視化系統(tǒng)開發(fā)關鍵技術(shù)研究及趨勢 投資統(tǒng)計大數(shù)據(jù)處理關鍵技術(shù) 基于大數(shù)據(jù)的信息系統(tǒng)關鍵技術(shù) 淺析云環(huán)境下的大數(shù)據(jù)關鍵技術(shù) 面向大數(shù)據(jù)的Deep Web數(shù)據(jù)系統(tǒng)關鍵技術(shù)研究 大數(shù)據(jù)安全和隱私保護技術(shù)體系的關鍵技術(shù)研究 移動數(shù)據(jù)庫關鍵技術(shù)及應用探討 社會網(wǎng)絡大數(shù)據(jù)分析框架及其關鍵技術(shù) 農(nóng)業(yè)云大數(shù)據(jù)自組織推送關鍵技術(shù)綜述 基于大數(shù)據(jù)的信息系統(tǒng)關鍵技術(shù)研究 云計算環(huán)境下的大數(shù)據(jù)可靠存儲關鍵技術(shù)概述 面向大數(shù)據(jù)的分布式系統(tǒng)設計關鍵技術(shù)研究 大數(shù)據(jù)時代下軟件工程關鍵技術(shù)分析 移動互聯(lián)網(wǎng)的大數(shù)據(jù)處理關鍵技術(shù) 電信運營商大數(shù)據(jù)變現(xiàn)之關鍵技術(shù) 移動通信網(wǎng)絡中大數(shù)據(jù)處理的關鍵技術(shù) 常見問題解答 當前所在位置:l.
[4]Big data[EB/OL]..
[18]丁智,林治.MapRdeuce編程模型、方法及應用綜述[J].電腦知識與技術(shù),2014,10(30):70607064.
[19]江舢,金晶,劉鵬展,等.分布式海量數(shù)據(jù)批處理技術(shù)綜述[Z].中國科技論文在線,2012.
[20]吳哲夫,肖鷹,張彤.大數(shù)據(jù)和云計算技術(shù)探析[J].互聯(lián)網(wǎng)天地,2015(4):611.
[21]馬紅玉,張柳.大數(shù)據(jù)中的可視化分析技術(shù)[J].山東農(nóng)業(yè)大學學報:自然科學版,2014,45(s):5658.
[關鍵詞]大數(shù)據(jù);互聯(lián)網(wǎng)+;農(nóng)業(yè);智能灌溉
引言
隨著科技的日益進步,計算機的相關技術(shù)被引用到各個領域。智能灌溉系統(tǒng)是融合傳感器技術(shù)、自動控制技術(shù)、計算機技術(shù)、無線通信技術(shù)與移動終端控制等多種高新技術(shù),自動采集光照、溫度、土壤水分、空氣濕度等信息,通過無線通信技術(shù)傳輸給信息管理系統(tǒng),自動控制噴水灌溉、通風除濕等設備,從而調(diào)節(jié)環(huán)境參數(shù)。智能灌溉系統(tǒng)應用大數(shù)據(jù)策略,在云服務平臺進行數(shù)據(jù)分析處理,以關聯(lián)圖表顯示歷史記錄,為農(nóng)業(yè)專家提供決策支持,同時獲取國家氣象局天氣預報信息,根據(jù)天氣狀況和作物需要智能調(diào)節(jié)噴水灌溉策略,調(diào)整用水量,實施精準灌溉,提高水資源利用率。智能灌溉系統(tǒng)支持多種應用場景如智能花園、溫室大棚、高爾夫球場等,提供Web版、桌面版、移動終端3種管理系統(tǒng)供用戶使用,使其隨時隨地操作管理。智能灌溉系統(tǒng)采用WiFi技術(shù)實現(xiàn)遠程無線通信,采用Zigbee技術(shù)構(gòu)建底層無線傳感網(wǎng),節(jié)能低耗,能夠根據(jù)應用場景規(guī)模靈活增加無線節(jié)點模塊,不會因為監(jiān)測點過多而使布線復雜,降低系統(tǒng)維護運營成本。
1職能灌溉系統(tǒng)總體結(jié)構(gòu)
系統(tǒng)總體結(jié)構(gòu)如圖1所示。系統(tǒng)實驗室模型及部分實物操作界面如圖2所示。
2智能灌溉系統(tǒng)功能模塊簡介
本系統(tǒng)根據(jù)物聯(lián)網(wǎng)三層體系結(jié)構(gòu)設計,功能模塊劃分及其主要設計內(nèi)容如下表1所示。
3智能灌溉系統(tǒng)簡易操作說明
下面主要說明桌面版管理系統(tǒng)、Web版管理系統(tǒng)、移動終端版管理系統(tǒng)的操作使用方法。3.1桌面版管理系統(tǒng)桌面版管理系統(tǒng)主要功能模塊有:操作控制模塊、數(shù)據(jù)與命令查看模塊。其中,操作控制模塊的功能如下:這部分提供了實時場景的選擇,區(qū)域?qū)崟r數(shù)據(jù)的顯示,區(qū)域手動操作和自動控制的設置??梢酝ㄟ^輸入服務器地址,進行場景的選擇,然后對該場景下的區(qū)域進行手動控制,實時控制底層終端控制設備,也可以開啟自動控制,輸入要自動控制的參數(shù)范圍,系統(tǒng)會根據(jù)輸入的控制參數(shù),進行自動控制。3.2Web版管理系統(tǒng)3.2.1登錄界面系統(tǒng)的開始頁面,界面簡潔友好。只有獲取權(quán)限才能進入控制系統(tǒng)。3.2.2首頁這部分主要是顯示項目的一些圖片,頁面下方是項目的介紹。3.2.3監(jiān)控中心這是本程序的核心部分,在這個頁面中,能夠通過儀器表查看到當前的數(shù)據(jù),并提供了天氣預報,能夠根據(jù)需要設置自動控制的外界條件,或是進行人工的操作處理。上述界面中,上面部分是最近一次采集到的數(shù)據(jù),以儀器表的形式生動地展示出來,左下角是自動控制時的溫濕度,光照強度的控制范圍,在這里輸入要控制的范圍后,系統(tǒng)會根據(jù)用戶輸入的范圍自動調(diào)控。右下角是系統(tǒng)的自動控制區(qū)域,在這里用戶可以進行手動控制。3.2.4數(shù)據(jù)分析查看將歷史記錄以關聯(lián)圖表的形式展示出來,一目了然,為農(nóng)業(yè)專家進行數(shù)據(jù)分析提供決策支持,最終確定適于作物生長的控制策略。3.2.5操作記錄將用戶的操作即自動操作記錄下來,便于查看。3.2.6退出程序退出后,系統(tǒng)的工作模式不變,保持原狀。點擊退出后,登錄狀態(tài)被重置,并跳轉(zhuǎn)到登錄頁面。3.3移動終端管理軟件3.3.1登錄部分這個是手機端的登錄界面,簡潔明了,選擇聯(lián)網(wǎng)模式,輸入賬號密碼以及當前的服務器地址即可登錄,可以選擇保存密碼,方便下次登錄。3.3.2數(shù)據(jù)查看中心選擇當前環(huán)境模式和區(qū)域,即可查看當前的實時數(shù)據(jù)。3.3.3控制中心選擇當前的場景模式和區(qū)域,就可以對該區(qū)域進行控制,可以根據(jù)需要輸入環(huán)境參數(shù),設置自動控制的范圍,也可直接進行手動控制。
4結(jié)語
關鍵詞:大數(shù)據(jù);信息處理技術(shù);云計算;數(shù)據(jù)挖掘;安全保障
引言
信息技術(shù)以及網(wǎng)絡科學技術(shù)的持續(xù)發(fā)展,使得各個領域中的信息和數(shù)據(jù)呈現(xiàn)出了爆炸式增長的態(tài)勢。在海量的信息數(shù)據(jù)中,除了有效信息之外,還充斥著許多垃圾信息。如果不能運用合理有效的信息數(shù)據(jù)處理技術(shù),對各項信息的種類與內(nèi)容進行判斷,則會影響社會現(xiàn)代化建設的效率。因此,本文對大數(shù)據(jù)時代下的計算機信息數(shù)據(jù)處理技術(shù)進行研究,具有鮮明的現(xiàn)實意義。
1大數(shù)據(jù)時代背景下計算機信息技術(shù)內(nèi)容
計算機信息處理技術(shù)主要包括了建模、數(shù)據(jù)信息采集、處理加工以及存儲等多個環(huán)節(jié),具體流程如圖1所示。
1.1建模
建立模型是大數(shù)據(jù)時代下計算機信息技術(shù)的基礎環(huán)節(jié),通過建立模型的方式可以為后續(xù)數(shù)據(jù)信息的分析和處理創(chuàng)造便利條件。在模型中進行數(shù)據(jù)分析,更加直觀易懂[1]。目前,以大數(shù)據(jù)為依托的信息模型主要包括了流處理和批處理兩種形式,在具體的模型建構(gòu)中,技術(shù)人員要根據(jù)信息數(shù)據(jù)的處理需求,建立適合的模型,以起到提升數(shù)據(jù)處理效率的效果。
1.2采集
與以往的信息數(shù)據(jù)處理方式不同,大數(shù)據(jù)時代下的信息數(shù)據(jù)面臨諸多挑戰(zhàn)。多樣化、大容量的數(shù)據(jù)信息特征,要求計算機信息技術(shù)能對各項信息進行有效采集和精準篩選。一般來說,技術(shù)人員要運用數(shù)據(jù)挖掘技術(shù)實現(xiàn)數(shù)據(jù)的篩選,以保障計算機信息數(shù)據(jù)處理的正確性。大數(shù)據(jù)時代信息數(shù)據(jù)的處理和加工要保證科學性,符合新時期計算機信息技術(shù)對數(shù)據(jù)處理的實際需求。
1.3存儲
因為大數(shù)據(jù)時代下的信息種類和數(shù)量都較多,所以需要借助新的方式實現(xiàn)數(shù)據(jù)的安全有效存儲。目前,云存儲空間已經(jīng)成為了人們首選的新型數(shù)據(jù)存儲模式。這種處理模式具有空間大、速度快和安全性高的優(yōu)勢,符合大數(shù)據(jù)時代下人們對于信息數(shù)據(jù)存儲的需求。云端的信息數(shù)據(jù)處理以及存儲,為海量信息提供了穩(wěn)定的存儲平臺,同時也為后續(xù)信息的調(diào)取提供了方便。
1.4加工
信息數(shù)據(jù)的加工是大數(shù)據(jù)時代下應用計算機信息技術(shù)對信息進行處理的重要環(huán)節(jié),在此環(huán)節(jié)中,技術(shù)人員要根據(jù)時代特征、企業(yè)需求以及數(shù)據(jù)本身的類型,選擇合理的計算機信息技術(shù)對數(shù)據(jù)進行加工處理。經(jīng)過處理之后可以上傳到云端空間進行存儲,或者直接傳出到企業(yè)終端進行使用。
2大數(shù)據(jù)時代背景下計算機信息技術(shù)處理面臨的問題
2.1信息種類繁多
進入到大數(shù)據(jù)時代,越來越多的信息和數(shù)據(jù)進入到企業(yè)日常經(jīng)營和管理工作當中。從一方面講,雖然這種發(fā)展狀態(tài)為企業(yè)的多樣化管理提供了豐富的資源支持,但是,從另一個方面進行分析,也能看出企業(yè)如何在眾多信息當中快速且精準地篩選出有效的信息,成為了企業(yè)現(xiàn)代化建設面臨的一項重大難題。與之前的信息化時代相比,大數(shù)據(jù)時代下,計算機信息技術(shù)需要從海量信息資源中進行有效信息定位,因此實際的工作量會大大增加。不僅如此,在信息篩選中還會受到網(wǎng)絡環(huán)境中不穩(wěn)定因素的影響,其面臨的安全威脅也明顯增強[2]。由此可以看出,為了從根本上解決信息技術(shù)不穩(wěn)定性因素的影響,相關領域的技術(shù)人員要不斷地更新計算機信息技術(shù),使其適應大數(shù)據(jù)時展的需求,為企業(yè)和社會的現(xiàn)代化信息建設提供幫助。
2.2新型人才缺失
大數(shù)據(jù)時代的來臨加大了對計算機信息技術(shù)本身的挑戰(zhàn),同時也提升了對新型網(wǎng)絡技術(shù)人才的要求。無論是在以往的信息社會還是在大數(shù)據(jù)背景下的新型信息化社會,技術(shù)人才的作用都十分關鍵。從企業(yè)發(fā)展的角度進行分析,以往企業(yè)的發(fā)展會受到傳統(tǒng)觀念的影響,因此對于人才的培養(yǎng)以及重視程度要求都較低。這一情況會使在專業(yè)化建設方面存在人才不足的問題,進而無法為其后續(xù)的發(fā)展提供及時、有效和專業(yè)性的指導。無論是從企業(yè)本身經(jīng)濟效益方面,還是整體社會效益方面,都會產(chǎn)生十分不利的影響。為了徹底解決這一問題,企業(yè)在現(xiàn)代建設中,除了要對技術(shù)進行優(yōu)化升級之外,還要重視新型技術(shù)人才的培養(yǎng)。提高對人才的重視程度,并為員工打造更適合的培訓方式,提升專業(yè)能力與綜合素養(yǎng)。
3大數(shù)據(jù)時代背景下計算機信息技術(shù)處理問題的應對方法
3.1案例概述
以R搜索引擎模型為例,在原本搜索引擎中,采用的是橫向搜索的模式,這種搜索模型并不能有效地結(jié)合用戶的特征,對信息數(shù)據(jù)進行結(jié)構(gòu)化與非結(jié)構(gòu)化的處理。進入到大數(shù)據(jù)時代,搜索引擎模型的設計單位明確認識到了模型中存在的不足之處,因此借助大數(shù)據(jù)時代下的新型計算機信息技術(shù),對模型進行改進,期望可以提高實際應用有效性[3]。
3.2需求分析
R搜索引擎模型期望將原本的橫向搜索模式調(diào)整為垂直的搜索模式,并在原本的信息數(shù)據(jù)處理模塊中增加二次處理模塊,實現(xiàn)結(jié)構(gòu)化的信息數(shù)據(jù)處理。二次處理模塊要求具備分類、去重的功能,以便提升模塊應用后搜索結(jié)果的精準性,同時提升信息數(shù)據(jù)搜索的速度。
3.3改進方法
3.3.1云計算為了使該搜索引擎模型達到預期的設計效果,技術(shù)人員運用了大數(shù)據(jù)時代下的新型計算機信息技術(shù),將云計算功能納入到了系統(tǒng)模型中。通過將計算機網(wǎng)絡和云計算網(wǎng)絡緊密地結(jié)合起來,發(fā)揮出了整合后的雙重優(yōu)勢。云計算網(wǎng)絡的應用,確保了計算機硬件設備更新之后的優(yōu)勢可以有效發(fā)揮,特別是隨著高新電子科學技術(shù)的不斷改革與完善,計算機硬件設備的更迭也要與時俱進,否則最終將會因為難以適應時代的發(fā)展和現(xiàn)實需求,而導致計算機網(wǎng)絡管理工作失效的情況。云計算的應用促成了開放式網(wǎng)絡模式的建立,公眾們擺脫了網(wǎng)絡中心的局限性,R搜索引擎借助云計算靈活和開放獨特性,逐漸發(fā)揮出來互聯(lián)網(wǎng)模式的優(yōu)勢,提升了信息數(shù)據(jù)的初始處理速率[4-5]。
3.3.2高端人才人才是計算機信息技術(shù)應用的保障,人才本身的能力和水平,會影響到計算機信息技術(shù)發(fā)揮的有效性與合理性。在大數(shù)據(jù)時代下,計算機信息技術(shù)相關專業(yè)的高端人才需求量大幅度增長。部分企業(yè)雖然在發(fā)展的過程中搭建了各種不同的網(wǎng)絡媒體平臺,但是由于缺乏相應的技術(shù)人才,網(wǎng)絡平臺的后續(xù)維護成為了一項難題。對此,R搜索引擎除了積極引進先進的科學技術(shù)人才之外,還對內(nèi)部的人才結(jié)構(gòu)進行了調(diào)整。比如,R搜索引擎將搜索引擎功能和視覺信息處理技術(shù)相互結(jié)合,提出用主動光源而非算法來解決。團隊提出的CCA方法可以把可見光圖像和近紅外圖像提取一個共同特征,在CCA的空間來進行,然后用各種各樣的局部特征進行處理和濾波,提取一些共同特征。R搜索引擎將發(fā)展目光放得更為長遠,在發(fā)展的過程中,從降低成本、提升競爭力等方面進行了人才的專項培養(yǎng),將高端科學技術(shù)作為依托,為搜索引擎模型和企業(yè)的長久發(fā)展提供了戰(zhàn)略性支持[6]。
3.3.3數(shù)據(jù)挖掘大數(shù)據(jù)背景下,各項信息數(shù)據(jù)的處理技術(shù)都得以充分完善,越來越多的信息和數(shù)據(jù)匯聚到了一起,不同數(shù)據(jù)之間內(nèi)在的聯(lián)系性也得以增強。但是,因為部分數(shù)據(jù)為冗余數(shù)據(jù)的范疇,在社會現(xiàn)代化建設中并不能發(fā)揮出實際效用,所以如何從這些數(shù)據(jù)中挖掘出有效信息,成為了R搜索引擎相關領域工作人員實際工作主要目標。數(shù)據(jù)挖掘技術(shù)的優(yōu)化,除了可以提升數(shù)據(jù)篩選的效率之外,還可以達到節(jié)約信息數(shù)據(jù)搜索與處理的成本。計算機信息技術(shù)中數(shù)據(jù)挖掘技術(shù)能提升技術(shù)本身對于數(shù)據(jù)信息的分析與加工處理能力,最終發(fā)現(xiàn)不同數(shù)據(jù)之間存在的內(nèi)在聯(lián)系,篩選出有利于社會建設的有效信息[7-8]。
3.3.4安全保障大數(shù)據(jù)發(fā)展背景下的互聯(lián)網(wǎng)環(huán)境開放性進一步增強,當大眾通過互聯(lián)網(wǎng)進行有效對信息搜索與篩選時,不可避免地會暴露自己的部分信息,如果缺乏合理有效的監(jiān)管,很有可能被不法分子利用,竊取個人信息,損害個人利益,并且還會對社會的發(fā)展造成危害。因此,互聯(lián)網(wǎng)信息技術(shù)的安全性和保障性技術(shù)十分重要,特別是在大數(shù)據(jù)時代下,以往的信息管理系統(tǒng)不能對網(wǎng)絡中出現(xiàn)的信息數(shù)據(jù)進行高效篩選,而經(jīng)過改進的大數(shù)據(jù)信息技術(shù),R搜索引擎不僅實現(xiàn)了高效處理,同時也增強了管理工作的科學性和安全性。面對多種不同類型的網(wǎng)絡攻擊以及計算機病毒侵入,都可以幫助企業(yè)和個人保護各自的信息不受到侵害[9-10]。
3.4結(jié)果分析
R搜索引擎在大數(shù)據(jù)時代背景下,對計算機信息處理技術(shù)進行了調(diào)整,同時引進并培養(yǎng)了現(xiàn)代化的高端技術(shù)人才,為產(chǎn)品模型的優(yōu)化升級提供了強大動力支持。經(jīng)過一系列改革之后,R搜索引擎最終將服務器的穩(wěn)定性提升了23.4%,并且網(wǎng)站的更新頻率、外鏈數(shù)量以及流量排名等都進入到了前3位,用戶綜合體驗排名第1。
>> 大數(shù)據(jù)加速推進貴州產(chǎn)業(yè)轉(zhuǎn)型升級 大數(shù)據(jù)助推產(chǎn)業(yè)升級 軍民融合助推貴州工業(yè)轉(zhuǎn)型升級 讓工業(yè)大數(shù)據(jù)成為制造業(yè)轉(zhuǎn)型升級的助推器 國網(wǎng)新疆電力公司大數(shù)據(jù)智庫平臺安全技術(shù)解析 大數(shù)據(jù)驅(qū)動下的新疆新型智庫建設 貴州大數(shù)據(jù)產(chǎn)業(yè)發(fā)展與產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型 貴州弄潮大數(shù)據(jù) 論道貴州大數(shù)據(jù) IT助推智庫創(chuàng)新 數(shù)據(jù)庫技術(shù)在大數(shù)據(jù)中的應用 大數(shù)據(jù)助推大格局賽罕區(qū)開啟食藥監(jiān)管“智”理新模式 信息技術(shù)助推傳統(tǒng)企業(yè)轉(zhuǎn)型升級 BIM技術(shù)助推國有大型施工企業(yè)轉(zhuǎn)型升級 2016云上貴州?大數(shù)據(jù)招商引智推介會在京舉行 利用大數(shù)據(jù)技術(shù)助推精準扶貧的新探索 創(chuàng)意助推企業(yè)轉(zhuǎn)型升級 大數(shù)據(jù)背景下的高校新型智庫信息支持平臺構(gòu)建研究 大數(shù)據(jù)環(huán)境下高校圖書館嵌入智庫建設模式探討 貴州耕“云”大數(shù)據(jù) 常見問題解答 當前所在位置:
[2].
[3]宗威、吳鋒.大數(shù)據(jù)時代下數(shù)據(jù)質(zhì)量的挑戰(zhàn),西安交通大學學報,2013年9月,第33卷,第5期,總第121期.
[4]吳金紅、張飛、鞠秀芳.大數(shù)據(jù): 企業(yè)競爭情報的機遇、挑戰(zhàn)及對策研究,情報雜志,第32卷.
[5]中國大數(shù)據(jù)重點行業(yè)應用市場研究白皮書
[6]中國大數(shù)據(jù)重點行業(yè)應用市場研究白皮書
大數(shù)據(jù)并不是一蹴而就、空穴來風的概念,在它的背后有很多趨勢在推動這個概念的到來。簡單地說有幾個方面推動大數(shù)據(jù)的到來:
第一是數(shù)據(jù)化。我們現(xiàn)在有了更多的傳感器去記錄數(shù)據(jù)。大家最能理解和最常見的傳感器就是手機。有了手機,我們就能通過技術(shù)監(jiān)測知道你生活在哪個地方,有沒有網(wǎng)絡購物等個人信息。正是有了越來越多的記錄數(shù)據(jù)的傳感器,使得我們獲得的數(shù)據(jù)一直在增長。
第二大變化是數(shù)據(jù)形態(tài)發(fā)生了變化 。我們現(xiàn)在有了各種各樣的數(shù)據(jù),既包括傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),例如門店的銷售數(shù)據(jù)、后臺數(shù)據(jù)等也包括互聯(lián)網(wǎng)的各種數(shù)據(jù)。
在大數(shù)據(jù)時代,互聯(lián)網(wǎng)用戶通常作為同一個對象使用多個網(wǎng)絡平臺。我們通過對特別對象或人物的網(wǎng)絡(性格、社交圈等)和行為(購物、評論等)的特征進行分析和挖掘,打破了孤立的個人數(shù)據(jù)特征,成功建立了以人為對象的跨越多個網(wǎng)絡和數(shù)據(jù)平臺的關系數(shù)據(jù)群,實現(xiàn)個人跨平臺數(shù)據(jù)的打通。
正是在這樣的大背景下,2011年5月,麥肯錫麥肯錫全球研究院(MGI)了一份報告――《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領域》,推動了工業(yè)界和學術(shù)界對大數(shù)據(jù)的關注,同年11月IBM公司在產(chǎn)品會上推出大數(shù)據(jù)概念。
大數(shù)據(jù)有四個特點:規(guī)模巨大;產(chǎn)生數(shù)據(jù)的速度非???,我們處理它的速度也非??欤粩?shù)據(jù)庫的多樣性;數(shù)據(jù)中潛藏價值。
我們認為大數(shù)據(jù)不是技術(shù)的變化,而是全方位理念的變化,它是基于多源異構(gòu)、跨域關聯(lián)的海量數(shù)據(jù)分析所產(chǎn)生的決策流程、商業(yè)模式以及生活方式和觀念形態(tài)上的顛覆性變化的總和。
大數(shù)據(jù)的創(chuàng)新
整個大數(shù)據(jù)在商業(yè)中的創(chuàng)新體現(xiàn)在數(shù)據(jù)的外部化。也就是我們?nèi)绾伟炎约旱臉I(yè)務數(shù)據(jù)拿出去給別人用或者怎么樣把別人的數(shù)據(jù)拿進來自己用?
一個門店、一個品牌的生存都不能僅僅依靠自己的數(shù)據(jù)。當下基于互聯(lián)網(wǎng)基礎的社交媒體、論壇、電子商務及移動電子商務數(shù)據(jù)給我們提供了很多可能的資源。我從不同角度,簡單闡釋一下這個問題。
如果從大的角度來談化妝品行業(yè)的整體發(fā)展趨勢及哪些品類會成為消費者期盼的商品,互聯(lián)網(wǎng)就給了我們很好的答案。
在10年前,中國還沒有男士護膚的概念和市場,但是到今天男士護膚品已經(jīng)是一個很大的市場。如果我們回溯到十年前,互聯(lián)網(wǎng)的論壇討論就是男士護膚市場起步的端倪。因為有一些消費者由于和歐美國家的接觸,他們比化妝品市場從業(yè)人員更敏感,他們首先發(fā)現(xiàn)了男士護膚市場的商機與需求。所以通過大數(shù)據(jù)的檢測你可能會遇到行業(yè)可能的機會。
從小的角度來看,大數(shù)據(jù)的運用,我在一個城市開店,我只想知道什么樣的東西受消費者的喜愛,未來的市場變化趨勢是怎樣的?這個時候電子商務和移動電子商務的數(shù)據(jù)就給了我們很好的答案。
我們可以通過分布式網(wǎng)絡爬蟲技術(shù),直接爬取互聯(lián)網(wǎng)數(shù)據(jù)。當你覆蓋足夠多的電子商務平臺,你就很容易知道哪類產(chǎn)品、哪類品牌甚至某個單品在哪個城市的銷售狀況。我甚至可以通過精準的計算技術(shù),更好的了解我們商業(yè)合作與競爭的利益。
如果再深一層,面對一個個體,我應該給哪些人推送精準營銷或者說一個產(chǎn)品面世后它在互聯(lián)網(wǎng)的美譽度是怎么樣的,有沒有可能出現(xiàn)重大安全問題,需要產(chǎn)品方做怎樣的調(diào)整,這些東西都不是我們自身的數(shù)據(jù)能解決的而是需要外部的數(shù)據(jù)輔助我們做決策。
舉幾個非化妝品行業(yè)的例子。搜索網(wǎng)站谷歌通過人們在網(wǎng)上的搜索記錄完成流感的預測。谷歌每天都會收到來自全球超過30億條的各種搜索指令,如此龐大的數(shù)據(jù)資源足以支撐和幫助它預測流感的傳染程度。
我們要注意到大數(shù)據(jù)運用的創(chuàng)新之處。谷歌不是通過疾控中心和醫(yī)院的數(shù)據(jù)來預測傳染病,它是通過搜索指令的數(shù)據(jù)資源來預測傳染病的流行程度。也就是說谷歌在用自身業(yè)務產(chǎn)生的數(shù)據(jù),拿出去解決其他地方的重大問題。
再舉一個非常典型的例子,告訴大家我們的數(shù)據(jù)要流動起來,才能發(fā)揮更大的價值。
國家電網(wǎng)每年會兩個指數(shù)一個是重工業(yè)用電指數(shù),一個是輕工業(yè)用電指數(shù),這兩個指數(shù)是整個中國工業(yè)制造業(yè)的晴雨表。如果將國家電網(wǎng)的數(shù)據(jù)和用水的數(shù)據(jù)結(jié)合起來,這些數(shù)據(jù)產(chǎn)生更大的價值。如果把用水和用電的數(shù)據(jù)結(jié)合運用到個人住戶,則可以給公安部門維護社會穩(wěn)定起到積極作用。
公安部門可以通過異常的用水及用電數(shù)據(jù)判斷哪些住宅是傳銷聚集地。因為傳銷三、四十個人擠在一個小房子里,用水量是超過正常范圍的。
同時,用水用電數(shù)據(jù)為國家安全委員會維護穩(wěn)定和反恐有重大意義。我們國家有一些被列入黑名單的,這些人一旦發(fā)生了不正常的移動或者居住地用水用電發(fā)生異常,公安部門需要第一時間實地走訪,掌握情況。
此外,用水用電的數(shù)據(jù)是所有銀行為中小企業(yè)發(fā)放貸款的重要依據(jù)。眾所周知,中小企業(yè)的財報數(shù)據(jù)都不太真實,銀行在為他們做風險評估的時候,基本不看財報,而是看企業(yè)的用水用電數(shù)據(jù)以及交管委的攝像頭記錄的貨車進出數(shù)據(jù),判斷企業(yè)的整體規(guī)模及信貸風險。
所以,我再次強調(diào)大數(shù)據(jù)創(chuàng)新的核心是怎么樣把自己的數(shù)據(jù)拿出去支持其他行業(yè)以及如何用其他行業(yè)的數(shù)據(jù)支持自己做決策。
大數(shù)據(jù)的商業(yè)實踐
將大數(shù)據(jù)用于品牌商業(yè)分析的時候,有三點和以前不一樣:
第一,我們所有的分析都是全樣的數(shù)據(jù)而不是抽樣的數(shù)據(jù)。從某種意義上講,世界上沒有全樣數(shù)據(jù),我們所能掌握的都只是部分,但從另一個意義上講,我們團隊能夠監(jiān)控到大量的電子商務及手機移動終端的數(shù)據(jù)。這些數(shù)據(jù)不再與以前做數(shù)據(jù)分析時,到某幾家店,通過某幾個產(chǎn)品的試用和觀察得出的數(shù)據(jù)一樣。因此大數(shù)據(jù)時代的數(shù)據(jù)分析報告,比以前更細、更高速、更高準確率
第二,大數(shù)據(jù)的分析包括很多非結(jié)構(gòu)化的數(shù)據(jù)。做移動電子商務的人會知道, 我們除了關注日常銷售、生產(chǎn)等結(jié)構(gòu)化的數(shù)據(jù)之外,還會非常看重商品在社交媒體上的影響力如何,品牌的粉絲影響力如何。所以每一件商品的美譽度如何以及在論壇上遭遇的輿情危機等都可以通過非結(jié)構(gòu)化的數(shù)據(jù)分析獲得認識。
第三,我們所有的數(shù)據(jù)都是關聯(lián)的數(shù)據(jù)。我們要打通一個用戶、 一款產(chǎn)品在不同社交媒體上的購買行為、瀏覽行為及被收藏被評價行為,從而獲得更全面的認知,同時發(fā)現(xiàn)產(chǎn)品從A平臺到B平臺的商業(yè)機會。
我建議有條件的品牌商及經(jīng)營者要實現(xiàn)外部數(shù)據(jù)的戰(zhàn)略儲備。我們團隊的數(shù)據(jù)其實來自兩方面:一個是自有數(shù)據(jù)的積累,二是公開數(shù)據(jù)的爬取?,F(xiàn)在的這些數(shù)據(jù)對于我們將來做擴展包括趨勢分析、競爭品牌的分析及了解用戶做精準營銷等意義重大。
在了解用戶的時候,我們需要進行全面了解。我們不僅要了解他的購買瀏覽記錄,還要了解他的時間和空間軌跡等。我們給很多品牌商做過服務,你對同一個對象在不同時間點給他推送廣告的打開率可以相差10幾倍。此外,了解一個用戶的行為軌跡,也能讓你做到精準的廣告投放和店鋪選址。
很多人在運用大數(shù)據(jù)營銷的時候,會步入邏輯結(jié)構(gòu)的誤區(qū)。一般我們理解的大數(shù)據(jù)營銷是產(chǎn)品經(jīng)理會通過思考去想像,我的產(chǎn)品適合什么層次的消費者,而企業(yè)的老總會思考我的產(chǎn)品選擇哪個明星做代言。有了這些想法之后,品牌才會根據(jù)媒體、銷售渠道及電子商務數(shù)據(jù)找到它們想要的的代言人。這樣的大數(shù)據(jù)營銷在邏輯上是不正確的,因為他太強烈的依賴于產(chǎn)品經(jīng)理對產(chǎn)品的定位。
而正確的大數(shù)據(jù)營銷是首先找到自己產(chǎn)品和競爭產(chǎn)品的已有用戶以及對這些產(chǎn)品表達過興趣、發(fā)表過評價的幾萬人甚至是幾十萬人。然后在通過分析這幾十萬人從事的職業(yè)、感興趣的電視節(jié)目、關注的明星、日常瀏覽哪些論壇的數(shù)據(jù)結(jié)論,選擇與品牌形象及消費定位匹配的代言人,進行點對點的精準營銷。
在這樣的設計流程中, 產(chǎn)品經(jīng)理和企業(yè)決策者的重要性體現(xiàn)在他們憑借敏銳的直覺,,將適合消費者使用的產(chǎn)品設計出來。一件產(chǎn)品問世,就像一個小孩出生,他已經(jīng)是活生生的生命個體,父母已經(jīng)無法再改變他。在這種情況下,父母對他的理解, 都比不上他在成長過程中自身生命力的勃發(fā)。許多父母會希望小孩子做各種事情,為小孩貼上標簽。但真正成功的父母,總是會從小孩的成長過程中看到驚喜。 同樣的每一件產(chǎn)品有了自己的生命力,它在面對市場的時候會遇到各種評價,我們利用這些大數(shù)據(jù)的分析能比產(chǎn)品經(jīng)理更多知道一件產(chǎn)品它真正的目標用戶在哪里,它他真正需要的廣告投放在哪里。
在這么一套新的邏輯框架支持下,給大家舉一個化妝品行業(yè)的例子。歐萊雅集團有一款價值千余元的超聲波潔面儀。當時這一款產(chǎn)品的產(chǎn)品經(jīng)理找到我們,給我們提出的是針對20歲至40歲的白領女性的產(chǎn)品定位。超聲波潔面儀的產(chǎn)品在電子商務渠道上有很多同類型的品牌,我們通過數(shù)據(jù)分析得出二三線城市的中小學老師的職業(yè)群體是被他們忽略掉的群體。
中小學老師每天接觸大量的粉筆灰塵,因此她們對潔面儀器的關注最活躍、使用頻次也最高。當我們把這個現(xiàn)象告訴歐萊雅的產(chǎn)品經(jīng)理時,他們一下子就明白了這個道理。