japan丰满性感人妻,99在线观看视频蜜臀,99久久婷婷国产综合精品免费,99久久免费精品国产,99在线公开视频中文字幕,老鸭窝91久久久久精品色噜噜,91国内精品久久久久精品一,乱码精品国产黄一级久久久,91超碰在线观看亚洲

茫茫大數(shù)據(jù),找不到真實(shí)的我

2019-01-19 15:57:42 2710
  • 收藏

    一、從App年度總結(jié)想開去……

    這幾年每到年末,手機(jī)上一堆App就會(huì)為你推送各種年度總結(jié)回顧,IT之家小編也和大家一樣,什么網(wǎng)易云音樂的年度總結(jié)啊、支付寶年度賬單等等,看得不亦樂乎。

    人嘛,對(duì)自我總是有著本能的關(guān)注,但尼采又說,“離每個(gè)人最遠(yuǎn)的,就是他自己”,說明自我認(rèn)知是一件困難的事情。

    不過在互聯(lián)網(wǎng)科技發(fā)達(dá)的今天,我們有了認(rèn)識(shí)自己的新途徑:數(shù)據(jù),大數(shù)據(jù)。實(shí)際上互聯(lián)網(wǎng)廠商們爭(zhēng)相做的年度總結(jié),就是大數(shù)據(jù)幫你認(rèn)識(shí)自己的例子之一。

    然而樂此不疲地刷著各種年度總結(jié)H5的時(shí)候,IT之家小編又產(chǎn)生了一些新的思考:這些總結(jié)真的準(zhǔn)確嗎?未必,甚至有時(shí)候偏差很大。

    例如網(wǎng)易云音樂的總結(jié)中,小編在2018年的某天將某首歌連續(xù)聽了50多次,從這條記錄應(yīng)該能得出一個(gè)直接的結(jié)論:IT之家小編很喜歡這首歌,但其實(shí)小編那天單曲循環(huán)這首歌時(shí),人在忙別的,根本沒在聽歌;例如還是網(wǎng)易云音樂總結(jié),IT之家小編2018年最喜歡的十首歌有七首都是小編不怎么聽的,因?yàn)樾【幐矚g將喜愛的歌下載到本地,也經(jīng)常會(huì)用手機(jī)自帶播放器聽;再如支付寶年度賬單,2018年的總結(jié)IT之家小編覺得是比較符合自己的估判的,但記得自己2017年看到賬單時(shí)是有些懵的,全年總消費(fèi)那一欄里,自己當(dāng)年壓根沒那么多收入啊,記得當(dāng)時(shí)網(wǎng)上也有很多網(wǎng)友如此反映。

    當(dāng)然,IT之家小編說這些并不是否定年度總結(jié)存在的意義,只是由此產(chǎn)生了一些思考:大數(shù)據(jù)的時(shí)代,真的能夠通過數(shù)據(jù)準(zhǔn)確定義個(gè)人或者群體嗎?人是很復(fù)雜的動(dòng)物,記得在哪里看過一句話:“事情可以計(jì)算準(zhǔn)確,但人是很難計(jì)算的”,而大數(shù)據(jù)應(yīng)用,最核心的還是統(tǒng)計(jì)人的行為,這似乎成為悖論。

    如今大數(shù)據(jù)的重要性被推到很高的高度,已然成為未來大趨勢(shì),商業(yè)、醫(yī)療、教育等各行各業(yè)在進(jìn)行越來越深刻的數(shù)據(jù)化改造,將來我們各種決策都需要大數(shù)據(jù)的指引。但人,如何不被大數(shù)據(jù)支配,這是又是一個(gè)新的問題。

    二、大數(shù)據(jù)究竟是什么?

    我們首先要清楚認(rèn)識(shí)大數(shù)據(jù),理解它的意義。

    百度百科上的解釋是:

    大數(shù)據(jù)指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

    這段解釋涵蓋了大數(shù)據(jù)的三個(gè)特點(diǎn):海量、高速變化、多樣化,從中可以衍生出另外兩個(gè)特點(diǎn):因?yàn)楹A浚允堑蛢r(jià)值密度的;因?yàn)楹A俊⒏咚僮兓叶鄻踊砸彩蔷哂姓鎸?shí)性的。總結(jié)起來就是五個(gè)特點(diǎn):海量、高速變化、多樣化、低價(jià)值密度、真實(shí)。當(dāng)然,這不是IT之家小編總結(jié)的,是行業(yè)的普遍共識(shí)~

    ▲圖片來源Wikimedia Commons

    但怎么理解這五個(gè)特點(diǎn)呢?其實(shí)IT之家小編只需說一個(gè)例子就可以講通這五個(gè)特點(diǎn),即對(duì)比傳統(tǒng)的統(tǒng)計(jì)調(diào)查數(shù)據(jù)。在傳統(tǒng)統(tǒng)計(jì)學(xué)中,因?yàn)檫^去我們收集數(shù)據(jù)處理數(shù)據(jù)的能力有限,不可能把所有數(shù)據(jù)都收集到,所以很強(qiáng)調(diào)數(shù)據(jù)樣本,樣本量的大小、豐富度,以及是否隨機(jī),都影響統(tǒng)計(jì)分析的結(jié)果。通過數(shù)據(jù)樣本,分析數(shù)據(jù)相關(guān)性的規(guī)律,總結(jié)出一定的理論、模型,這是我們以前做的事情。

    而大數(shù)據(jù),則是反其道行之,它要的不是樣本,而是追求所有的數(shù)據(jù),所有的數(shù)據(jù)相信大家都懂的,這是多么龐大,而且是源源不斷產(chǎn)生的,每個(gè)人做不同的行為,都會(huì)產(chǎn)生不同的數(shù)據(jù),所以也是多樣的,因?yàn)闆]有樣本,它的價(jià)值稀疏,畢竟不是每個(gè)人做得每件事產(chǎn)生的每個(gè)數(shù)據(jù)都是有價(jià)值的,但是它很真實(shí),而樣本和現(xiàn)實(shí)之間,永遠(yuǎn)存在誤差。

    大數(shù)據(jù)的思路之所以能夠?qū)崿F(xiàn),是因?yàn)樵诨ヂ?lián)網(wǎng)科技強(qiáng)大的今天,我們有能力去收集如此海量的數(shù)據(jù),也有能力去處理、分析它們。通過一個(gè)大數(shù)據(jù)的邏輯圖,大家可以更好地理解它:

    總體來說,大數(shù)據(jù)的體系邏輯包含數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、資源管理和服務(wù)協(xié)調(diào)、計(jì)算引擎和數(shù)據(jù)分析這五個(gè)層次。

    數(shù)據(jù)收集,主要通過互聯(lián)網(wǎng)數(shù)據(jù)抓取和客戶端、終端推送,例如你在電商網(wǎng)站購(gòu)買東西,使用手環(huán)運(yùn)動(dòng)的數(shù)據(jù)也會(huì)上送到數(shù)據(jù)中心,它的特點(diǎn)是分布式,多樣化,源源不斷地產(chǎn)生,并且是異構(gòu)的,即有很多數(shù)據(jù)源;

    因?yàn)槭占臄?shù)據(jù)有這些特性,所以對(duì)于數(shù)據(jù)存儲(chǔ),要求具有可擴(kuò)展性,容錯(cuò)能力高,并且支持多種存儲(chǔ)模型,這甚至體現(xiàn)在數(shù)據(jù)庫(kù)設(shè)計(jì)這種最要求精確的領(lǐng)域,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)(如MySQL)和文件系統(tǒng)就比較難適應(yīng)大數(shù)據(jù)時(shí)代的要求;

    資源管理和服務(wù)協(xié)調(diào),這里涉及到應(yīng)用的部署,大數(shù)據(jù)時(shí)代,需要將應(yīng)用部署在公共集群中,這樣才能提高資源利用率和實(shí)現(xiàn)數(shù)據(jù)的快速共享,否則那么多數(shù)據(jù)對(duì)應(yīng)獨(dú)立的服務(wù)器,要被拖死;

    計(jì)算引擎和數(shù)據(jù)分析同理,數(shù)據(jù)量的極大豐富讓應(yīng)用場(chǎng)景也越來越繁雜,計(jì)算引擎越來越多樣且專注,數(shù)據(jù)的分析同樣也需要分布式計(jì)算方法。

    總的來說,大數(shù)據(jù)從技術(shù)上來說就是因?yàn)?span id="i6q6i2c" class="font-color-red" style="color: rgb(210, 34, 34);">數(shù)據(jù)量實(shí)在是太大了,無(wú)論是數(shù)據(jù)的收集、存儲(chǔ)還是處理都需要很多機(jī)器一起做,這個(gè)過程,不得不提的就是云計(jì)算。

    所謂云計(jì)算,IT之家小編總結(jié)就是將龐大集群的虛擬化電腦進(jìn)行統(tǒng)一調(diào)度的能力,它天然滿足大數(shù)據(jù)的需求,所以云計(jì)算是釋放浩瀚大數(shù)據(jù)價(jià)值的驅(qū)動(dòng)力,兩者如同共生,為了不跑題,這里就不進(jìn)一步講了。

    三、只求相關(guān),不問因果

    大數(shù)據(jù)能成為未來的趨勢(shì),有兩個(gè)條件,一是具備顛覆性,二是正面意義大于負(fù)面意義。那么大數(shù)據(jù)顛覆了什么?

    英國(guó)牛津大學(xué)教授、數(shù)據(jù)科學(xué)家維克托·邁爾·舍恩伯格在他的《大數(shù)據(jù)時(shí)代》這本書中,將大數(shù)據(jù)的顛覆性凝練為三條:

    • 首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。

    • 其次,我們樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性。

    • 最后,我們的思想發(fā)生了轉(zhuǎn)變,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。

    從上面IT之家小編的介紹相信你能總結(jié)出,大數(shù)據(jù)帶來的各種改變,歸根結(jié)底在于其數(shù)量實(shí)在龐大多樣,它要的不是樣本,而是所有數(shù)據(jù),這就造成它必然混雜,難以追求精確性,在大數(shù)據(jù)里,混亂不是缺點(diǎn),而是一種必要,這已經(jīng)是顛覆人的正常思維了;

    再往下,以往我們需要樣本,總是需要在樣本數(shù)據(jù)中找到一些既定的因果關(guān)系,然后提煉成理論,從樣本到整體,然后總結(jié)成方法,這是我們做事的基本邏輯,而在大數(shù)據(jù)時(shí)代,你不需要這樣了,因?yàn)槲覀冇凶銐蚨嗟臄?shù)據(jù),我們要做的事情是找到目標(biāo)數(shù)據(jù)之間的相關(guān)關(guān)系,然后發(fā)現(xiàn)趨勢(shì),大數(shù)據(jù)會(huì)告訴我們接下來該干什么,而我們,不需要問為什么,負(fù)責(zé)決策就行了,不要小看這個(gè)轉(zhuǎn)變,它說明我們認(rèn)識(shí)世界方式的改變。

    2003年,美國(guó)計(jì)算機(jī)專家奧倫·艾奇奧尼(Oren Etzioni)乘坐飛機(jī),和乘客的交談中發(fā)現(xiàn)自己的機(jī)票買貴了,內(nèi)心一萬(wàn)頭草泥馬奔騰而過后,他萌生了一個(gè)想法:能不能有一個(gè)工具能夠預(yù)測(cè)機(jī)票的波動(dòng)趨勢(shì),幫大家省錢?說干就干,然后他就真的創(chuàng)立了一個(gè)系統(tǒng):通過從旅游網(wǎng)站爬取41天內(nèi)的12000個(gè)價(jià)格樣本,來判斷機(jī)票的未來走勢(shì),這個(gè)小項(xiàng)目后來發(fā)展成為科技創(chuàng)業(yè)公司Farecast并被必應(yīng)收購(gòu)。在后來的系統(tǒng)中,F(xiàn)arecast基于美國(guó)一個(gè)行業(yè)的機(jī)票預(yù)訂數(shù)據(jù)庫(kù),跟蹤每一條航線每一架飛機(jī)每一個(gè)作為一年內(nèi)的票價(jià)記錄,從而判斷機(jī)票價(jià)格變動(dòng)的趨勢(shì),然后這個(gè)系統(tǒng)大獲成功,還被用到其他領(lǐng)域。

    ▲奧倫·艾奇奧尼,圖片來源:Wikimedia Commons

    這是大數(shù)據(jù)應(yīng)用的一個(gè)經(jīng)典案例,在這個(gè)案例中,奧倫·艾奇奧尼明確表示,他不需要弄清楚機(jī)票價(jià)格波動(dòng)和時(shí)間或者其他因素之間的因果關(guān)系,只是要從所有的數(shù)據(jù)中分析出規(guī)律,然后給出可能的結(jié)果。你不要問為什么,只需要知道機(jī)票接下來會(huì)漲還是會(huì)跌就行了。

    還有一些例子,如沃爾瑪在上世紀(jì)九十年代就開始進(jìn)行將產(chǎn)品記錄為數(shù)據(jù)的工程,2004年,他們對(duì)這個(gè)龐大的數(shù)據(jù)庫(kù)進(jìn)行觀察,發(fā)現(xiàn)每當(dāng)季節(jié)性颶風(fēng)來臨,不僅颶風(fēng)用品銷量增加,POP-Tarts蛋撻的銷量也隨之增加,所以他們把颶風(fēng)用品和蛋撻放在一起,在這個(gè)例子中,你同樣不用知道人們買颶風(fēng)用品的同時(shí)為什么還喜歡買蛋撻而不是其他,你只需要發(fā)現(xiàn)這個(gè)現(xiàn)象,然后做決策就行,而且海量的大數(shù)據(jù),能夠?yàn)檫@個(gè)趨勢(shì)的準(zhǔn)確性提供一定的保證。

    還有德國(guó)通過手機(jī)家庭太陽(yáng)能用電的海量數(shù)據(jù)預(yù)測(cè)未來2-3個(gè)月智能電網(wǎng)需要的電量來降低成本;丹麥的維斯塔斯風(fēng)能系統(tǒng)通過研究風(fēng)力和天氣、湍流度等數(shù)據(jù)以及全球數(shù)萬(wàn)個(gè)受控渦輪機(jī)組傳感器數(shù)據(jù),來判斷渦輪發(fā)電機(jī)設(shè)置的位置,從而提高能源產(chǎn)出的效率和數(shù)量等等。

    上面這些案例中,大家都不需要考慮事物之間的因果關(guān)系,不需要研究背后的原理,不需要建立模型,只需要對(duì)海量的龐大數(shù)據(jù)做分析。IT之家小編認(rèn)為,這是大數(shù)據(jù)最大的顛覆性,如果我們的思維不轉(zhuǎn)變,最終會(huì)被大數(shù)據(jù)時(shí)代拋棄。

    四、爭(zhēng)議

    谷歌研發(fā)總監(jiān)曾Peter Norvig在2011年的一次講話中表示,“我們沒有更好的算法,我們僅僅是有更多的數(shù)據(jù)”,后來他在一次對(duì)自己言論澄清的文章中說:

    如果模型無(wú)論如何都有可能出錯(cuò),為什么不看看你是否能讓計(jì)算機(jī)從數(shù)據(jù)中快速地學(xué)習(xí)模型,而不是讓一個(gè)人費(fèi)力地從許多思想中推導(dǎo)模型?

    這應(yīng)該是對(duì)大數(shù)據(jù)很直接的解釋了。

    ▲谷歌研發(fā)總監(jiān)曾Peter Norvig,圖片來源:Flickr

    比這個(gè)更為激進(jìn)的是《連線》雜志主編克里斯·安德森(Chris Andersen),他在2008年就說過“數(shù)據(jù)爆炸使科學(xué)的方法都落伍了”,后來,他又在《The Petabyte Age》這篇文章中提出了“理論的終結(jié)”的觀點(diǎn),說

    現(xiàn)在已經(jīng)是一個(gè)有海量數(shù)據(jù)的時(shí)代,應(yīng)用數(shù)學(xué)已經(jīng)取代了其他所有的學(xué)科工具,而且只要數(shù)據(jù)足夠,就能說明問題。

    ▲克里斯·安德森,圖片來源Wikimedia Commons

    安德森的這篇文章當(dāng)時(shí)引起了很大的爭(zhēng)議,數(shù)據(jù)取代理論,這聽起來的確有些荒謬。在《大數(shù)據(jù)時(shí)代》中,舍恩伯格對(duì)這個(gè)觀點(diǎn)進(jìn)行了辯駁,他表示大數(shù)據(jù)從來不會(huì)叫囂“理論已死”,相反,大數(shù)據(jù)的方方面面也被理論影響著。例如在數(shù)據(jù)分析的時(shí)候,我們也需要理論的支持。

    五、愿問東西,且問因果

    2009年,谷歌流感趨勢(shì)研究團(tuán)隊(duì)(GFT)在《自然》雜志上發(fā)表論文,展示了分析數(shù)十億搜索中45個(gè)與流感相關(guān)的關(guān)鍵詞,從而能比疾病預(yù)防控制中心提前兩周預(yù)報(bào)2007-2008季流感發(fā)病率的過程。這在當(dāng)時(shí)引起了震驚,這說明人們不需要等待疾控中心的報(bào)告,就能及時(shí)知道未來醫(yī)院的就診人數(shù),從而提前預(yù)防,顯然這將讓很多人避免痛苦,免受巨大的損失。這成為谷歌運(yùn)用大數(shù)據(jù)最早和最經(jīng)典的案例之一。

    然而,后來有學(xué)者發(fā)現(xiàn),2009年,谷歌沒有準(zhǔn)確預(yù)測(cè)到非季節(jié)性流感A-H1N1,而在2011年8月到2013年8月的時(shí)間里,谷歌有100周高估了CDC報(bào)告的流感發(fā)病率,到2013年,谷歌調(diào)整算法后仍然存在高估的現(xiàn)象。

    又回到文章開頭:有時(shí)候,大數(shù)據(jù)可能也不那么準(zhǔn),甚至可能離譜。

    IT之家小編認(rèn)為,存在這種情況的原因,可能恰恰就在于大數(shù)據(jù)最大的顛覆性:只追求數(shù)據(jù)的相關(guān)性,而不關(guān)心因果關(guān)系。所以,這就像硬幣的正反兩面,如果使用不當(dāng),也可能帶來嚴(yán)重的危害。特別是在風(fēng)口期,大數(shù)據(jù)被鼓吹以至被濫用時(shí),風(fēng)險(xiǎn)更大。

    IT之家小編在文章開頭所說的App年度總結(jié)和你實(shí)際狀況不符合的案例,其實(shí)只是大數(shù)據(jù)最細(xì)枝末節(jié)的應(yīng)用,現(xiàn)在到未來,毫無(wú)疑問大數(shù)據(jù)會(huì)被運(yùn)用在更多的行業(yè),風(fēng)口也會(huì)越刮越強(qiáng),但如果你沒有理智運(yùn)用大數(shù)據(jù),只是一昧的迷信,那么后果可能也會(huì)慘烈,例如金融企業(yè)在數(shù)據(jù)量沒有達(dá)到標(biāo)準(zhǔn)的情況下就自以為通過大數(shù)據(jù)判斷個(gè)體的信譽(yù)程度而對(duì)外放貸,后果可想而知;再例如教育方面,未來你真的敢于完全聽?wèi){大數(shù)據(jù)的分析結(jié)果來決定報(bào)考哪座院校和規(guī)劃職業(yè)生涯方向,而不是遵從自己的興趣?還有利用大數(shù)據(jù)相親的,則更不消說了。

    你真的敢相信大數(shù)據(jù)里描繪的你的畫像,就是真實(shí)的你?即便它與你有90%以上的相似度,你真的敢將自己的所有決策放心交給大數(shù)據(jù)?

    所以,IT之家小編認(rèn)為,在大數(shù)據(jù)時(shí)代全面到來之前,我們首先需要探討的,是大數(shù)據(jù)運(yùn)用的邊界在哪里?

    當(dāng)然,這個(gè)邊界不是IT之家小編一人就能劃定的,但小編認(rèn)為,大數(shù)據(jù)之外,“小數(shù)據(jù)”仍然重要,“大小結(jié)合”是一種更可取的方式,我們既要判斷趨勢(shì),也需要深究原理。

    還有就是,在討論到和自我相關(guān)的問題時(shí),永遠(yuǎn)要遵從內(nèi)心的自我,就像在大數(shù)據(jù)里,混雜比精確更重要,在現(xiàn)實(shí)里,對(duì)自己的感覺,往往比數(shù)據(jù)更重要。

    總之,愿問東西,且問因果,則幸甚。

    本文參考資料:

    芯聯(lián)天下,2018-06-21,《終于有人把云計(jì)算、大數(shù)據(jù)和人工智能講明白了!》

    CSDN,2017-30-014,《從谷歌流感趨勢(shì)談大數(shù)據(jù)分析的光榮與陷阱》

    維克托·邁爾·舍恩伯格,2012,《大數(shù)據(jù)時(shí)代》

    董西成,2018,《大數(shù)據(jù)技術(shù)體系詳解:原理、架構(gòu)與實(shí)踐》


    聯(lián)系我們

    咨詢電話:0635-8808750

    聯(lián)系人:張老師:15653112065 / 宋老師:15863512053

    學(xué)校地址:聊城市東昌西路(百大三聯(lián)西側(cè))國(guó)際商務(wù)港5樓509

    聊城優(yōu)智教育

    ?
    全部評(píng)論(0)
    聯(lián)系我們
        工作時(shí)間
    • 周一至周五:08:30-19:30
    • 周六至周日:09:00-17:00