www涩-www黄网站-www黄色-www黄色com-国产免费拍拍视频在线观看网站-国产免费怕怕免费视频观看

大數(shù)據(jù)來襲,你準(zhǔn)備好了嗎

2014-06-12 09:31:39 大云網(wǎng)  點(diǎn)擊量: 評(píng)論 (0)
最近有一則這樣的笑話在網(wǎng)上流程開來,有一個(gè)美國數(shù)學(xué)教授平生最怕坐飛機(jī),他研究了近20年的統(tǒng)計(jì)數(shù)據(jù),發(fā)現(xiàn)恐怖分子帶炸彈上飛機(jī)的幾率其實(shí)非常低,但是他還不安心,他又進(jìn)一步研究數(shù)據(jù)發(fā)現(xiàn),兩個(gè)人同時(shí)帶炸彈上
最近有一則這樣的笑話在網(wǎng)上流程開來,“有一個(gè)美國數(shù)學(xué)教授平生最怕坐飛機(jī),他研究了近20年的統(tǒng)計(jì)數(shù)據(jù),發(fā)現(xiàn)恐怖分子帶炸彈上飛機(jī)的幾率其實(shí)非常低,但是他還不安心,他又進(jìn)一步研究數(shù)據(jù)發(fā)現(xiàn),兩個(gè)人同時(shí)帶炸彈上飛機(jī)的幾率幾乎為零,于是從此他坐飛機(jī)都自己攜帶一枚炸彈。”這雖然是一個(gè)簡單笑話,但卻是一個(gè)大數(shù)據(jù)分析的真實(shí)案例。這名科學(xué)家最終的做法固然可笑,但是在整個(gè)過程中,他收集整理了20年來與之相關(guān)的數(shù)據(jù),包括天氣數(shù)據(jù)、航班信息、新聞事件、乘客信息、出租車信息、交通信息、監(jiān)控信息等等大量的相關(guān)數(shù)據(jù),通過自己的研究,整理和分析了數(shù)據(jù)之間的相關(guān)性,構(gòu)建了數(shù)據(jù)分析模型,并最終得出了分析結(jié)果。那么,什么才是大數(shù)據(jù)呢?
"大數(shù)據(jù)"是一個(gè)體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。 "大數(shù)據(jù)"首先是指數(shù)據(jù)體量(volumes)?大,指代大型數(shù)據(jù)集,一般在10TB?規(guī)模左右,但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級(jí)的數(shù)據(jù)量;其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。最后一個(gè)特點(diǎn)是指數(shù)據(jù)真實(shí)性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。
"大數(shù)據(jù)"的概念遠(yuǎn)不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),而是涵蓋了人們?cè)诖笠?guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法實(shí)現(xiàn)的。換句話說,大數(shù)據(jù)讓我們以一種前所未有的方式,通過對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見,最終形成創(chuàng)新之力。
由此可見,大數(shù)據(jù)的建設(shè),我們首先要明確我們分析的目標(biāo),需要具備一個(gè)高性能的、大容量的具備數(shù)據(jù)采集、存儲(chǔ)、分析和展現(xiàn)能力的那么一個(gè)平臺(tái)或者系統(tǒng)。這就需要考慮以下幾個(gè)問題:數(shù)據(jù)從何而來?海量的數(shù)據(jù)如何存儲(chǔ)?這么多相關(guān)或非相關(guān)的數(shù)據(jù)怎么分析?分析出來結(jié)果如何展示?因此考慮上述問題,大數(shù)據(jù)分析不應(yīng)該是一個(gè)系統(tǒng),而應(yīng)該一個(gè)平臺(tái),是一個(gè)可以收集存儲(chǔ)不同格式不同規(guī)模的海量數(shù)據(jù)的高度數(shù)據(jù)共享的平臺(tái),是一個(gè)隨時(shí)根據(jù)需求建立模型分析和展示不同結(jié)果的平臺(tái)。
 

圖1 大數(shù)據(jù)平臺(tái)系統(tǒng)結(jié)構(gòu)
1.      數(shù)據(jù)采集
大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲(chǔ)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
   在大數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬的用戶來進(jìn)行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時(shí)達(dá)到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。
2.      數(shù)據(jù)預(yù)處理
雖然采集端本身會(huì)有很多數(shù)據(jù)庫,但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫,或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。導(dǎo)入與預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。
3.      數(shù)據(jù)分析
統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫,或者分布式計(jì)算集群來對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。
4.      數(shù)據(jù)挖掘
與前面統(tǒng)計(jì)和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
5.      結(jié)果呈現(xiàn)
    當(dāng)通過分析子系統(tǒng)對(duì)數(shù)據(jù)分析和處理完畢,需要從在獨(dú)立的數(shù)據(jù)庫存放計(jì)算和分析結(jié)果,并最終通過分析展示子系統(tǒng)將分析結(jié)果展現(xiàn)給數(shù)據(jù)需求者。分析展示子系統(tǒng)采用B/S架構(gòu)構(gòu)建一個(gè)Web應(yīng)用,可以是更多的用戶以最便捷的方式查看到分析結(jié)果。
  上述內(nèi)容就是普遍的一個(gè)大數(shù)據(jù)分析的基本步驟,大數(shù)據(jù)分析平臺(tái)是運(yùn)用了多種技術(shù)構(gòu)建的一個(gè)整體,對(duì)基礎(chǔ)設(shè)施建設(shè)具有很高要求,也是實(shí)現(xiàn)大數(shù)據(jù)分析平臺(tái)的關(guān)鍵,而分析模型和方法建立則是大數(shù)據(jù)分析的核心,其中每一個(gè)環(huán)節(jié)都包含了大量技術(shù)應(yīng)用。例如:
數(shù)據(jù)采集:ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫、NOSQL、SQL等。
基礎(chǔ)架構(gòu):云存儲(chǔ)、分布式文件存儲(chǔ)等。
數(shù)據(jù)處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計(jì)算機(jī)交互的語言問題的一門學(xué)科。處理自然語言的關(guān)鍵是要讓計(jì)算機(jī)"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計(jì)算語言學(xué)(Computational Linguistics。一方面它是語言信息處理的一個(gè)分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測與殘差分析、嶺回歸、logistic回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對(duì)應(yīng)分析、多元對(duì)應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。
數(shù)據(jù)挖掘:分類 (Classification)、估計(jì)(Estimation)、預(yù)測(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預(yù)測:預(yù)測模型、機(jī)器學(xué)習(xí)、建模仿真。
結(jié)果呈現(xiàn):云計(jì)算、標(biāo)簽云、關(guān)系圖等。(彭勇)
大云網(wǎng)官方微信售電那點(diǎn)事兒

責(zé)任編輯:葉雨田

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
?
主站蜘蛛池模板: av人摸人人人澡人人超碰 | 日韩欧美国产精品第一页不卡 | 不卡一级aaa全黄毛片 | 日韩免费一级毛片 | 欧美亚洲国产精品久久久久 | 欧美午夜三级我不卡在线观看 | 中国一级特黄大片毛片 | 精品国产免费观看久久久 | 亚洲第一区视频在线观看 | 欧美色欧 | 亚洲成人tv | 欧美精品免费在线 | 手机在线毛片 | 寂寞午夜影院 | 精品欧美亚洲韩国日本久久 | 美国一级毛片免费看成人 | 91久久国产露脸精品 | 在线亚州| 久久久久国产一级毛片高清片 | 美女国产福利视频 | 久久精品无遮挡一级毛片 | 欧美成人日韩 | 性感美女视频免费网站午夜 | 中文在线三级中文字幕 | 亚洲高清视频网站 | 5级做人爱c视版免费视频 | 久久久亚洲欧美综合 | 午夜影院美女 | 欧美高清一区 | 国产永久免费视频m3u8 | 国产特黄特色的大片观看免费视频 | 国产91久久久久久久免费 | 国产视频久久久 | 欧美成人性做爰 | 偶偶福利影院 | 91香蕉视频网| 欧美xxx高清 | 免费一级欧美片片线观看 | 天码毛片一区二区三区入口 | 国产美女三级做爰 | 香蕉超级碰碰碰97视频蜜芽 |