
我們的第一個(gè)問(wèn)題是“有問(wèn)題嗎”。如前所述,這種監控指標并不多,大約三到七種,它們既能提供預測性的指標,又能提供當前的指標,用于說(shuō)明即將有問(wèn)題或現在已經(jīng)有問(wèn)題了。由于我們要跟蹤的項目數量較少,所以數據保留應該不是個(gè)大問(wèn)題。最好能每分鐘或每小時(shí)繪制一次這種數據,并至少與前兩周中相似時(shí)間內的數據進(jìn)行對比。如果今天是周二,那么我們可能需要前兩個(gè)周二的有價(jià)值的數據。也許我們只需保留前兩周的數據即可,但在我們匯總數據之前,也可以把范圍擴展到保留一個(gè)月的數據。從長(cháng)遠來(lái)看,這些數據不會(huì )占用大量空間。此外,在預測與確定是否要發(fā)生問(wèn)題或已經(jīng)發(fā)生了問(wèn)題方面,這些數據會(huì )給我們節省很多時(shí)間。
接下來(lái)我們要問(wèn)的問(wèn)題是“哪里有問(wèn)題”。我們的金字塔表明,盡管問(wèn)題的具體程度在縮小,但數據量卻在增長(cháng)。這應該弓起我們的注意,因為我們要實(shí)現這一點(diǎn),就需要更多的監控指標。這種監控指標的數量可能在10到100之間,遠遠多于我們原始的監控指標。在非常大型的復雜的分布式系統中,監控指標的數量可能更多。我們仍然需要與以前相似日期中的數據進(jìn)行比較,理想狀況是分層對比。但在我們的匯總和歸檔/刪除策略中,我們需要激進(jìn)得多。理想的做法是,我們首先按照小時(shí)匯總數據,然后把數據納人均線(xiàn)的計算。也許我們會(huì )繪制和保留圖形,而隨著(zhù)時(shí)間逐漸刪除原始數據。我們當然不想無(wú)限制地保存原始數據,因為它們中的大多數再被用到的可能性很低,因而價(jià)值很低,成本卻很高。
最后,我們要問(wèn)的是“什么問(wèn)題”。我們所需的網(wǎng)站建設監控指標數比上一個(gè)監控方案又至少提高了一個(gè)數量級。我們會(huì )加上原始輸出日志、錯誤日志以及其他數據。這類(lèi)數據增加得很快,尤其是在一個(gè)對話(huà)多的環(huán)境中。我們可能希望保留兩周的數據,這里假設了從兩周的數據中能抓住大部分問(wèn)題。也許對于保留什么和刪除什么你有更好的信息,但我們要強調的是,你不能要求隨時(shí)隨地都可以檢查任何指標,這會(huì )有損股東價(jià)值,因為這種要求幾乎需要無(wú)窮多的花費,而得到的回報卻非常非常低。
本文地址:http://www.havencoinwallet.com//article/3907.html