導讀:大數據是一個伴隨社會信息化而誕生,以海量數據積累為基礎,囊括無數條“數據產生-數據處理-信息提取-數據消費-新數據生產”的環(huán)狀鏈,以降低信息不對稱、提高決策有效性、推進智慧和知識演進為目標,可廣泛作用于幾乎所有實體的跨界生態(tài)系統(tǒng)和發(fā)展趨勢。
2019年12月11日,普華有策發(fā)布《大數據行業(yè)概況與發(fā)展特征》。
1、行業(yè)概況
(1)大數據的定義
大數據是一個伴隨社會信息化而誕生,以海量數據積累為基礎,囊括無數條“數據產生-數據處理-信息提取-數據消費-新數據生產”的環(huán)狀鏈,以降低信息不對稱、提高決策有效性、推進智慧和知識演進為目標,可廣泛作用于幾乎所有實體的跨界生態(tài)系統(tǒng)和發(fā)展趨勢。
(2)大數據的關鍵特征
從上述對大數據的定義,提取出大數據的四個關鍵特征,分別是:海量化(Vo l ume)、多樣化(Variety)、快速化(Velocity)和價值化(Value)。
1)海量化
大數據首先是數據量大。全球數據量正飛速增長,遍布世界各個角落的傳感器、移動設備、在線交易和社交網絡每天都要生成上百萬兆字節(jié)的數據,數據容量增長的速度大大超過了硬件技術的發(fā)展速度,以至于引發(fā)了數據存儲和處理的危機。
2)多樣化
大數據的數據類型非常多。海量數據的危機并不單純是數據量的爆炸性增長,它還牽涉到數據類型的不斷增加。原來的數據都可以用二維表結構存儲在數據庫中,如常用的 Excel 軟件所處理的數據,稱之為結構化數據。但是現(xiàn)在更多互聯(lián)網多媒體應用的出現(xiàn),使諸如圖片、聲音和視頻等非結構化數據占到了很大比重。統(tǒng)計顯示,結構化數據增長率大概是 32%,而非結構化數據增長則是 63%,目前全世界非結構化數據已占數據總量的 80%以上。隨著非結構化數據的比重越來越大,并顯示出其中蘊含著不可小覷的商業(yè)價值和經濟社會價值,對傳統(tǒng)的數據分析處理算法和軟件提出了挑戰(zhàn)。
3)快速化
隨著經濟全球化趨勢形成,生產要素成本不斷上升,企業(yè)面臨的競爭環(huán)境越來越嚴酷。在此情況下,能夠及時把握市場動態(tài),迅速對產業(yè)、市場、經濟、消費者需求等各方面情況做出深入洞察,并能快速制定出合理準確的生產、運營、營銷策略,就成為企業(yè)提高競爭力的關鍵。而對大數據的快速處理分析,將為企業(yè)實時洞察市場變化、迅速做出響應、把握市場先機提供決策支持。
4)價值化
價值是大數據的意義所在。隨著社會信息化程度的不斷提高、數據存儲量的不斷增加、數據來源和數據類型的不斷多樣化,對于企業(yè)而言,數據正成為企業(yè)的新型資產,形成競爭力的重要基礎。與曾經廣為提倡的“品牌價值化”一樣,“數據價值化”已經成為企業(yè)提高競爭力的下一個關鍵點。
(3)大數據相關技術
數據采集:ETL 工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯(lián)機分析處理、數據挖掘的基礎。
數據存?。宏P系數據庫、NOSQL、SQL 等。
基礎架構:云存儲、分布式文件存儲等。
數據處理:自然語言處理
統(tǒng)計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T 檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic 回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析、bootstrap 技術等等。
數據挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測:預測模型、機器學習、建模仿真。結果呈現(xiàn):可視化、BI 等。
(4)大數據技術的價值
擁有海量數據本身并不能創(chuàng)造出多大價值,需要采取技術手段進行處理分析才能獲取其智能的,深入的有價值的信息。大數據技術就是從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。解決大數據問題的核心是大數據技術。目前所說的”大數據”不僅指數據本身的規(guī)模,也包括采集數據的工具、平臺和數據分析系統(tǒng)。大數據研發(fā)目的是發(fā)展大數據技術并將其應用到相關領域,通過解決巨量數據處理問題促進其突破性發(fā)展。因此,大數據時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數據從中獲取有價值的信息,也體現(xiàn)在如何加強大數據技術研發(fā),搶占時代發(fā)展的前沿。
2、行業(yè)周期性、季節(jié)性與區(qū)域性特點
大數據行業(yè)作為一個成長性行業(yè),在發(fā)展過程中面臨著多個良好發(fā)展機遇,如互聯(lián)網金融對金融行業(yè)的滲透引發(fā)金融機構新一輪的市場競爭。隨著金融機構使用數據挖掘來支撐精細化管理和精細化營銷的理念深入,大數據需求將呈現(xiàn)出高速發(fā)展的態(tài)勢。
總體上,大數據行業(yè)的發(fā)展主要與下游多個產業(yè)的 IT 投資規(guī)模保持相關,并不存在明顯的行業(yè)周期性。
不同地區(qū)的信息化程度和對數據分析、數據挖掘的接受程度決定了該地區(qū)的大數據的市場需求,由于當前國家各級政府的高度關注和大力支持,各個地區(qū)各個行業(yè)對于大數據的關注度普遍較高,因此大數據行業(yè)不存在明顯的區(qū)域性。但由于開展大數據業(yè)務對于行業(yè)客戶本身的信息化基礎要求較高。因此發(fā)達地區(qū)還是一定程度上優(yōu)于信息化基礎薄弱的區(qū)域。
電力、金融、能源等行業(yè)內的大中型企業(yè)往往在年末相對集中支付合同款項,大數據領域內企業(yè)的現(xiàn)金流量呈現(xiàn)出一定的季節(jié)性。然而,電力、金融、能源等領域內客戶的大數據系統(tǒng)需要持續(xù)的運營和升級,相應的大數據業(yè)務本身并不存在季節(jié)性特征。