智能時(shí)代,運(yùn)維工程師該談什么?
后來(lái)我們發(fā)現(xiàn)運(yùn)維系統(tǒng)有個(gè)最大的不同在于,運(yùn)維系統(tǒng)對(duì)于成功率的追求比在線業(yè)務(wù)型系統(tǒng)更高一些。在線業(yè)務(wù)型系統(tǒng),比如說(shuō)我在訪問(wèn)后面一個(gè)地方有問(wèn)題的時(shí)候,我們會(huì)選擇盡快把這個(gè)過(guò)程失敗掉,而不是把時(shí)間不斷的拖長(zhǎng)以及不斷的試錯(cuò)。在線系統(tǒng)會(huì)更加快的把錯(cuò)誤往外拋。但是對(duì)于運(yùn)維系統(tǒng)來(lái)講如果也這樣做,就意味著這個(gè)成功率非常難保障。所以運(yùn)維系統(tǒng)要有更好的思考,怎么保障一次運(yùn)維操作,這背后可能有幾十個(gè)系統(tǒng),而且多數(shù)是無(wú)數(shù)的團(tuán)隊(duì)寫的,阿里以前碰到的情況就是無(wú)數(shù)個(gè)系統(tǒng),質(zhì)量層次不起,什么都有。怎么保證在這么復(fù)雜的環(huán)境下,保證對(duì)外的,對(duì)用戶層面這個(gè)成功率可以做到很高的。這是一個(gè)很大的問(wèn)題。
規(guī)模帶來(lái)的挑戰(zhàn)也是不容小覷
隨著規(guī)模的不斷增長(zhǎng),所有開源類型的運(yùn)維類的系統(tǒng),在規(guī)模化,當(dāng)你的機(jī)器規(guī)模等等其他規(guī)模上升到一個(gè)程度以后,通常來(lái)講都會(huì)面臨非常巨大的挑戰(zhàn)。阿里巴巴所有的這種類型的系統(tǒng),我們論證都是自己做是比較靠譜。最大的原因是規(guī)模,規(guī)模上去以后會(huì)遇到很多問(wèn)題。像代碼托管、代碼編譯什么的,以前認(rèn)為不會(huì)有太大的問(wèn)題,事實(shí)證明規(guī)模上來(lái)以后這些里面全都是問(wèn)題。我們也要投入非常大的精力去做規(guī)模方面的解決。
所以我覺(jué)得,阿里從以前的工具化走向更加自動(dòng)化的過(guò)程中,我們探討的核心問(wèn)題就是能不能有一個(gè)非常好的組織去完成這個(gè)過(guò)程。能讓運(yùn)維的團(tuán)隊(duì)更加轉(zhuǎn)型向 DevOps 這樣的方向。所以我們一直說(shuō),我們一直很糾結(jié)運(yùn)維團(tuán)隊(duì)到底應(yīng)該叫什么名字,我們一致認(rèn)為,運(yùn)維研發(fā)團(tuán)隊(duì),我們覺(jué)得不大對(duì),你的主要的活其實(shí)是干研發(fā)而不是運(yùn)維。但是叫研發(fā)運(yùn)維又有點(diǎn)奇怪。后來(lái)阿里巴巴基本上是叫研發(fā)團(tuán)隊(duì)。因?yàn)槲覀冋J(rèn)為運(yùn)維的研發(fā)團(tuán)隊(duì)和在線業(yè)務(wù)的研發(fā)團(tuán)隊(duì)沒(méi)有本質(zhì)區(qū)別,都是做研發(fā)的,只是一個(gè)在解決運(yùn)維領(lǐng)域的業(yè)務(wù)問(wèn)題。剛才講的五個(gè)層次,運(yùn)維領(lǐng)域的業(yè)務(wù)問(wèn)題,也是業(yè)務(wù),沒(méi)有什么區(qū)別。在線業(yè)務(wù),比如解決交易的問(wèn)題,解決其他問(wèn)題,這是完全一樣的。兩個(gè)研發(fā)團(tuán)隊(duì)沒(méi)有本質(zhì)區(qū)別。
所以這個(gè)過(guò)程,阿里經(jīng)過(guò)過(guò)去這一年的組織調(diào)整以后,我們看到整個(gè)自動(dòng)化層面,阿里有了很好的進(jìn)展,但是離我們的期望還要更加努力繼續(xù)往前演進(jìn)。
阿里巴巴在智能化領(lǐng)域的探尋之路
現(xiàn)在智能化這個(gè)話題特別火熱,就像我們說(shuō),AI 這個(gè)名字興起的時(shí)候,我們忽然發(fā)現(xiàn),阿里巴巴所有的業(yè)務(wù)都講 AI+ 自己的業(yè)務(wù),被所有人狂批一通。我們要想清楚,具不具備 AI 化的前提,可能前提都不具備就不斷探討這個(gè)名字。因?yàn)闃I(yè)界在不斷的炒熱非常多的名詞,讓大家去跟隨。
自動(dòng)化是智能化的前提
對(duì)于我們來(lái)講,我們認(rèn)為,比如說(shuō)就像我對(duì)這個(gè)團(tuán)隊(duì),我自己的團(tuán)隊(duì)講的一樣,我認(rèn)為智能化最重要的前提是,一是自動(dòng)化。如果你的系統(tǒng)還沒(méi)有完成自動(dòng)化的過(guò)程,我認(rèn)為就不要去做智能化,你還在前面的階段。智能化非常多的要求都是自動(dòng)化,如果不夠自動(dòng)化,意味著后邊看起來(lái)做了一個(gè)很好的智能化的算法等等,告訴別人我能給你很大的幫助,結(jié)果發(fā)現(xiàn)前面自動(dòng)化過(guò)程還沒(méi)有做完全。
一個(gè)最典型的 case,阿里巴巴以前一直在講,我們認(rèn)為資源的搭配上,其實(shí)可以做得更好。比如說(shuō)你半夜流量比較小,白天流量比較大,你能不能更好的做一些彈性,把資源釋放出來(lái)去干點(diǎn)別的,然后白天再把它補(bǔ)起來(lái)。這從算法層面上并沒(méi)有那么復(fù)雜,從算法層面做到一個(gè)簡(jiǎn)單的提升是很容易做的。所以,當(dāng)時(shí)我們就有很多團(tuán)隊(duì)做了一個(gè)東西,可以做到這一點(diǎn)。結(jié)果等到落地的時(shí)候發(fā)現(xiàn),業(yè)務(wù)不能自動(dòng)伸縮。如果你想,比如說(shuō)有些機(jī)器上面負(fù)載特別高,有些機(jī)器特別低,我們希望負(fù)載能拉得更均衡,在線業(yè)務(wù)更加穩(wěn)定化,做一個(gè)算法,比如說(shuō)背包,更好的去做組合,結(jié)果就是這個(gè)東西做完了,給出了建議說(shuō)最好這個(gè)應(yīng)用調(diào)到那臺(tái)機(jī)器,那臺(tái)應(yīng)用調(diào)到這臺(tái)機(jī)器。給完之后業(yè)務(wù)團(tuán)隊(duì)看了一眼,我們不干,因?yàn)楦蛇@些工作全部要手工干,你還每天給我建議,更不要干了,每天就來(lái)調(diào)機(jī)器了。
所以首先你要想明白你的前提,自動(dòng)化,具不具備自動(dòng)化的能力,不具備的話沒(méi)有必要在這方面做過(guò)多的投入。
數(shù)據(jù)結(jié)構(gòu)化是智能化的源動(dòng)力
目前 AI 領(lǐng)域基本是靠暴力,暴力破解,未來(lái)可能有別的方向,但是目前的 AI 基本上是靠大量數(shù)據(jù)的積累去尋找一個(gè)東西出來(lái),所以它一定需要有大量的數(shù)據(jù)積累,數(shù)據(jù)包括非常多的東西,對(duì)于運(yùn)維來(lái)講,可能基礎(chǔ)層面的數(shù)據(jù),機(jī)器的數(shù)據(jù),運(yùn)維變更的數(shù)據(jù),上面還有一些場(chǎng)景化的數(shù)據(jù),比如你解決故障,有沒(méi)有更好的結(jié)構(gòu)化的收集數(shù)據(jù),這是非常重要的。數(shù)據(jù)這個(gè)層面比較難做的在于, 在最開始階段,多數(shù)公司的運(yùn)維數(shù)據(jù)都是不夠結(jié)構(gòu)化的,結(jié)構(gòu)化不會(huì)做得那么好,當(dāng)然會(huì)有結(jié)構(gòu)化,但是結(jié)構(gòu)化的因素不會(huì)足夠好。
就像阿里巴巴在講,我們?cè)陔娚填I(lǐng)域 AI 化,我們最大的優(yōu)勢(shì)就是不斷對(duì)外部講,我們擁有的是結(jié)構(gòu)化的商品數(shù)據(jù),其他公司最多從我們這里扒結(jié)構(gòu)化的商品數(shù)據(jù)。你扒過(guò)去之后還要自己分析,并且做商品結(jié)構(gòu)的調(diào)整,這非常困難。但是阿里巴巴自己天然,所有人都會(huì)幫你把結(jié)構(gòu)做得非常好。所以對(duì)運(yùn)維來(lái)講也是一樣,如果你想在智能化上有更多的突破,數(shù)據(jù)怎么更好的做結(jié)構(gòu)化,是一個(gè)非常大的挑戰(zhàn)。你很難想清楚。這兩個(gè)地方是我覺(jué)得首先要想清楚的。
智能化最適合的運(yùn)維場(chǎng)景
從目前來(lái)看,對(duì)于運(yùn)維場(chǎng)景來(lái)講,智能化特別適合解決的問(wèn)題就兩種,對(duì)于所有行業(yè)好像都差不多,第一是規(guī)模,第二是復(fù)雜。規(guī)模就意味著,我有很多的機(jī)器,在很多機(jī)器中我要尋找出一個(gè)機(jī)器的問(wèn)題,這對(duì)于,因?yàn)橐?guī)模太大了,這時(shí)候?qū)τ谟脗鹘y(tǒng)的方式,將非常難解決這個(gè)問(wèn)題。或者你要投入非常大的人力等等,有點(diǎn)得不償失。規(guī)模上來(lái)以后怎么更好的解決規(guī)模的問(wèn)題,智能化會(huì)帶來(lái)一些幫助。第二是復(fù)雜,比如說(shuō)你的應(yīng)用從原來(lái)的一個(gè)應(yīng)用變成了幾千個(gè)、上萬(wàn)個(gè)、幾十萬(wàn)個(gè),這時(shí)候你要尋找出其中哪個(gè)應(yīng)用的問(wèn)題,將是非常復(fù)雜的問(wèn)題。所以復(fù)雜度的問(wèn)題是人類用人腦非常難推演的,但是機(jī)器相對(duì)來(lái)講是更容易做的。這是阿里有些團(tuán)隊(duì)希望嘗試智能化的方向,通常我們會(huì)看是不是在前面的這些前提條件上都具備。如果都具備了,那可以去探索一下。所以我講,阿里其實(shí)目前處于整個(gè)智能化運(yùn)維的探索階段,而不是全面展開階段。

- 相關(guān)閱讀
- 業(yè)務(wù)信息化
- 戰(zhàn)略規(guī)劃
- IT運(yùn)維與治理
-
從SCADA入手強(qiáng)化工控系統(tǒng)安全風(fēng)險(xiǎn)
-
展望2018 AI芯片領(lǐng)域:眾多廠商追隨深度學(xué)習(xí)
-
企業(yè)沒(méi)有專注于其最大的IT安全威脅的6個(gè)原因
-
展望2018 AI芯片領(lǐng)域:眾多廠商追隨深度學(xué)習(xí)
-
區(qū)塊鏈概念大熱的背后,真正的價(jià)值在這里
-
【觀點(diǎn)】區(qū)塊鏈的火熱,是不是一場(chǎng)錯(cuò)覺(jué)游戲