網易首頁 > 網易號 > 正文申請入駐

無論是傳統運維還是智能運維，最核心的都是經驗

2026-03-12 17:31:42　來源: ITPUB學院

北京舉報

分享至

　　三十年期我們用Oracle數據庫的時候是盲目用，那時候用得就很不好，甚至把重啟數據庫都當成一件恐怖的事情來做。如果不是高手，都不敢輕易重啟數據庫，生怕數據庫重啟后起不來了。當時江湖中這種傳聞也是很多的，我有一次重啟了二十多分鐘還沒起來，只能眼巴巴地看著空空蕩蕩的日志，最后一次日志輸出還是十多分鐘之前。后來我對Oracle了解一些了，知道了每一行啟動日志的含義，也就知道了當時系統在清理臨時段，因為數據庫好幾年沒重啟過了，所以打掃工作很耗時。再后來了解了REDO和CHECKPOINT的原理，知道數據庫重啟時一個沒風險的活，就再也不怕去給客戶重啟數據庫了。

　　運維最大的恐懼來自于未知，你不理解數據庫的原理，沒有相關的運維經驗，那么使用數據庫還是一件十分恐怖的事情。最大的問題是心里沒底，當系統出問題的時候無法定位問題，解決問題。后來有了MOS，一切好了很多，大多數問題借助MOS都能搞定了。

　　前幾天我說我在標注國產數據庫的運維知識，怎么標注呢？實際上說簡單也簡單，說復雜也夠復雜。就像我標注的Oracle LOG_BUFFER參數這個案例，僅僅從官方文檔中把Oracle關于LOG_BUFFER的參數描述復制到這個地方是不夠用的，因為這里僅僅包含了“知識”，知識是正確而無法直接用于運維實踐中的東西。我們必須把“經驗”標注進去，才真正有用。“經驗”不一定百分百準確，甚至還可能有一定的局限性，遠沒有“知識”的準確性高，但是經驗能發揮的作用遠超“知識”。在關于LOG_BUFFER的標注中，不僅要列出官方的知識，還要把LOG_BUFFER與log buffer space 等待與每秒REDO生成量指標之間的關系講清楚，AI才能真正理解這個參數的定義與使用方法，才能在AI診斷中準確地對與此參數相關的問題分析清楚。

　　這是一個系統工程，Oracle數據庫的關鍵參數有200多個，指標有四五百個，等待事件有1500左右，如果能把這些知識都標注準確了，那么對Oracle數據庫的診斷分析能力也就相當高了，超越某些中等水平的專家應該還是可能的。如果只做Oracle還好，如果說還要做20多款國產數據庫，那么這個工作量就是很龐大了。目前我們標注過的實體節點已經超過6萬個，還沒有覆蓋所有的國產數據庫。

　　當然最后AIOPS的能力也受限于標注知識的團隊的整體能力，如果能力不足，最后做出來的產品能力也就有限了。這也是AI Machine Labs才不到50人，還沒推出任何產品，就能融到20億美金，估值一下子高達120億美金的主要原因。

　　目前在進行國產庫的知識圖譜的標注的時候，我們遇到了很多瓶頸，那就是國產數據庫的知識不透明，經驗積累極少，從基層運維案例中提煉知識和經驗的成本太高。等國產數據庫廠商搞出自己的MOS不知道要猴年馬月了，甚至我都看不到在未來的5-10年里，某個國產數據庫廠商能打造出一款水平達到20年前Oracle Metalink水準的知識庫。依托生態可能是一條更好的路子，去年這一年我也不斷在和各個數據庫廠商溝通，能不能一起來做這件事。雖然略有成果，但是還是太少。要想打造出與商業產品類似的知識庫，光憑我們這種合作是遠遠不夠的。在中國，缺乏這方面的戰略投資，因此在這個領域無法做得更好。

　　目前一切只能依托企業用戶自身和第三方合作伙伴，靠著企業用戶花錢來做這些事情了。但是地主家也沒有余糧的時候，想讓企業在這方面花大錢也是不現實的。前陣子一個客戶說他們手頭有某國產數據庫的1萬多個故障告警的案例，從中應該能夠提取出不少運維經驗，不過這個提取誰來做？誰出錢，做出來產權歸屬是什么？往下一深談，問題還是一堆。有朋友感嘆道：只能讓時間來解決了。我的觀點有些不同，沒有錢，光耗時間，是解決不了這個問題的。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.