大數(shù)據(jù)其實就是個大胖子!
近年來,有關大數(shù)據(jù)的熱點話題一浪高過一浪,關注大數(shù)據(jù)應用的人也越來越多。總體來說,人們對大數(shù)據(jù)的前景持樂觀態(tài)度,比如談到大數(shù)據(jù)的技術特征,人們最容易想起的就是4個v:vast(數(shù)量龐大)、variety(種
近年來,有關大數(shù)據(jù)的熱點話題一浪高過一浪,關注大數(shù)據(jù)應用的人也越來越多。總體來說,人們對大數(shù)據(jù)的前景持樂觀態(tài)度,比如談到大數(shù)據(jù)的技術特征,人們最容易想起的就是4個“v”:vast(數(shù)量龐大)、variety(種類繁多)、velocity(增長迅速)和value(總價值高)。這些都沒錯,但仔細一想,它們都是偏重說明大數(shù)據(jù)的正面優(yōu)勢的。但其實,大也有大的難處,大數(shù)據(jù)也不可避免地存在著一些負面劣勢,大數(shù)據(jù)部就是個大胖子麼,這些"胖”可以概括四點:
inflated——大數(shù)據(jù)是肥胖的。大數(shù)據(jù)的大不僅僅體現(xiàn)在數(shù)據(jù)記錄的行數(shù)多,更體現(xiàn)在字段變量的列數(shù)多,這就為分析多因素之間的關聯(lián)性帶來了難度。哪怕是最簡單的方差分析,計算一兩個還行,計算一兩百個就讓人望而生畏了。
unstructured——大數(shù)據(jù)是非結構化的。大數(shù)據(jù)的結構也是非常復雜的,既包括像交易額、時間等連續(xù)型變量,像性別、工作類型等離散型變量這樣傳統(tǒng)的結構化數(shù)據(jù),更增添了如文本、社會關系網(wǎng)絡,乃至語音、圖像等大量新興的非結構化數(shù)據(jù),而這些非結構化數(shù)據(jù)蘊含的信息量往往更加巨大,但分析手段卻略顯單薄。
incomplete——大數(shù)據(jù)是殘缺的。在現(xiàn)實的世界里,由于用戶登記的信息不全、計算機數(shù)據(jù)存儲的錯誤等種種原因,數(shù)據(jù)缺失是常見的現(xiàn)象。在大數(shù)據(jù)的場景下,數(shù)據(jù)缺失更是家常便飯,這就為后期的分析與建模質量增加了不確定的風險。
abnormal——大數(shù)據(jù)是異常的。大數(shù)據(jù)里還有不少異常值(outlier)。比如某些連續(xù)型變量(如一個短期時間內的交易金額)的取值太大,某些離散型變量(如某個被選購的產品名稱)里的某個水平值出現(xiàn)的次數(shù)太少,等等。如果不刪除,很可能干擾模型系數(shù)的計算和評估;如果直接刪除,又覺得缺乏說服力,容易引起他人的質疑。這使得分析人員落到了一個進退兩難的境地。
利用大數(shù)據(jù)的分析,已經可以預見和分析出很多當下時代的大趨勢了。但是,數(shù)據(jù)的真實性如何保證?如果沒有全面、客觀認識大數(shù)據(jù)的過程,即便得到很多可預見的數(shù)據(jù),又有幾分準確性?想要真正運用好大數(shù)據(jù),并不是一項在常規(guī)條件下數(shù)據(jù)分析的簡單升級,而是一項需要大智慧的綜合工作。
inflated——大數(shù)據(jù)是肥胖的。大數(shù)據(jù)的大不僅僅體現(xiàn)在數(shù)據(jù)記錄的行數(shù)多,更體現(xiàn)在字段變量的列數(shù)多,這就為分析多因素之間的關聯(lián)性帶來了難度。哪怕是最簡單的方差分析,計算一兩個還行,計算一兩百個就讓人望而生畏了。
unstructured——大數(shù)據(jù)是非結構化的。大數(shù)據(jù)的結構也是非常復雜的,既包括像交易額、時間等連續(xù)型變量,像性別、工作類型等離散型變量這樣傳統(tǒng)的結構化數(shù)據(jù),更增添了如文本、社會關系網(wǎng)絡,乃至語音、圖像等大量新興的非結構化數(shù)據(jù),而這些非結構化數(shù)據(jù)蘊含的信息量往往更加巨大,但分析手段卻略顯單薄。
incomplete——大數(shù)據(jù)是殘缺的。在現(xiàn)實的世界里,由于用戶登記的信息不全、計算機數(shù)據(jù)存儲的錯誤等種種原因,數(shù)據(jù)缺失是常見的現(xiàn)象。在大數(shù)據(jù)的場景下,數(shù)據(jù)缺失更是家常便飯,這就為后期的分析與建模質量增加了不確定的風險。
abnormal——大數(shù)據(jù)是異常的。大數(shù)據(jù)里還有不少異常值(outlier)。比如某些連續(xù)型變量(如一個短期時間內的交易金額)的取值太大,某些離散型變量(如某個被選購的產品名稱)里的某個水平值出現(xiàn)的次數(shù)太少,等等。如果不刪除,很可能干擾模型系數(shù)的計算和評估;如果直接刪除,又覺得缺乏說服力,容易引起他人的質疑。這使得分析人員落到了一個進退兩難的境地。
利用大數(shù)據(jù)的分析,已經可以預見和分析出很多當下時代的大趨勢了。但是,數(shù)據(jù)的真實性如何保證?如果沒有全面、客觀認識大數(shù)據(jù)的過程,即便得到很多可預見的數(shù)據(jù),又有幾分準確性?想要真正運用好大數(shù)據(jù),并不是一項在常規(guī)條件下數(shù)據(jù)分析的簡單升級,而是一項需要大智慧的綜合工作。

責任編輯:熊川
免責聲明:本文僅代表作者個人觀點,與本站無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
-
權威發(fā)布 | 新能源汽車產業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設典型實踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎設施,電力新基建 -
燃料電池汽車駛入尋常百姓家還要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調”充電樁配套節(jié)奏
-
權威發(fā)布 | 新能源汽車產業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市