1. 
          

          1. 新聞動(dòng)態(tài)

            老司機告訴你:正規的運維工作是什么的?

            網(wǎng)站建設 發(fā)布者:cya 2019-12-25 09:07 訪(fǎng)問(wèn)量:160

            來(lái)自:CSDN,作者:菲宇

            鏈接:https://blog.csdn.net/bbwangj/article/details/76598756

            導讀互聯(lián)網(wǎng)運維工作,以服務(wù)為中心,以穩定、安全、高效為三個(gè)基本點(diǎn),確保公司的互聯(lián)網(wǎng)業(yè)務(wù)能夠 7×24 小時(shí)為用戶(hù)提供高質(zhì)量的服務(wù)。

            運維人員對公司互聯(lián)網(wǎng)業(yè)務(wù)所依賴(lài)的基礎設施、基礎服務(wù)、線(xiàn)上業(yè)務(wù)進(jìn)行穩定性加強,進(jìn)行日常巡檢發(fā)現服務(wù)可能存在的隱患,對整體架構進(jìn)行優(yōu)化以屏蔽常見(jiàn)的運行故障,多數據中接入提高業(yè)務(wù)的容災能力。通過(guò)監控、日志分析等技術(shù)手段,及時(shí)發(fā)現和響應服務(wù)故障,減少服務(wù)中斷的時(shí)間,使公司的互聯(lián)網(wǎng)業(yè)務(wù)符合預期的可用性要求,持續穩定地為用戶(hù)提供務(wù)。


            在安全方面,運維人員需要關(guān)注業(yè)務(wù)運行所涉及的各個(gè)層面,確保用戶(hù)能夠安全、完整地訪(fǎng)問(wèn)在線(xiàn)業(yè)務(wù)。

            從網(wǎng)絡(luò )邊界劃分、ACL 管理、流量分析、DDoS 防御,到操作系統、開(kāi)源軟件的漏洞掃描和修補,再到應用服務(wù)的XSS、SQL注入防護;

            從安全流程梳、代碼白盒黑盒掃描、權限審計,到入侵行為檢測、業(yè)務(wù)風(fēng)險控制等。

            運維人員需要保障公司提供的互聯(lián)網(wǎng)業(yè) 運行在安全、可控的狀態(tài)下,確保公司業(yè)務(wù)數據和用戶(hù)隱私數據的安全,同時(shí)還需要具備抵御各種惡意攻擊的能力。


            在確保業(yè)務(wù)穩定、安全的前提下,還需保障業(yè)務(wù)高效的運轉,公司內快速的產(chǎn)出。運維工作需要對業(yè)務(wù)進(jìn)行各方面優(yōu)化。


            比如,IO 優(yōu)化提升數據庫性能,圖片壓縮降低帶寬使用量等,提供的互聯(lián)網(wǎng)業(yè)務(wù)以較小的資源投入帶來(lái)最大的用戶(hù)價(jià)值和體驗。同時(shí),還需要通過(guò)各種工具平臺提升內部產(chǎn)品發(fā)布交付的效率,提升公司內運維相關(guān)的工作效率。

            工作分類(lèi)運維

            運維的工作方向比較多,隨著(zhù)業(yè)務(wù)規模的不斷發(fā)展,越成熟的互聯(lián)網(wǎng)公司,運維崗位會(huì )劃分得越細。當前很多大型的互聯(lián)網(wǎng)公司,在初創(chuàng )時(shí)期只有系統運維,隨著(zhù)服務(wù)規模、服務(wù)質(zhì)量的 要求,也逐漸進(jìn)行了工作細分。


            一般情況下運維團隊的工作分類(lèi)(見(jiàn)圖1-1)和職責如下。

            圖1-1 運維團隊的工作分類(lèi)

            系統運維

            系統運維負責IDC、網(wǎng)絡(luò )、CDN和基礎服務(wù)的建設(LVS、NTP、DNS);負責資產(chǎn)管理,服務(wù)器選型、交付和維修。詳細的工作職責如下:


            1、IDC數據中心建設


            收集業(yè)務(wù)需求,預估未來(lái)數據中心的發(fā)展規模,從骨干網(wǎng)的分布,數據中心建筑,以及Internet接入、網(wǎng)絡(luò )攻擊防御能力、擴容能力、空間預留、外接專(zhuān)線(xiàn)能力、現場(chǎng)服務(wù)支撐能力等方面評估選型數據中心。負責數據中心的建設、現場(chǎng)維護工作。


            2、網(wǎng)絡(luò )建設


            設計及規劃生產(chǎn)網(wǎng)絡(luò )架構,這里面包括:數據中心網(wǎng)絡(luò )架構、傳輸網(wǎng)架構、CDN網(wǎng)絡(luò )架構等,以及網(wǎng)絡(luò )調優(yōu)等日常運維工作。


            3、LVS 負載均衡和 SNAT 建設


            LVS 是整個(gè)站點(diǎn)架構中的流量入口,根據網(wǎng)絡(luò )規模和業(yè)務(wù)需求,構建負載均衡集群。


            完成網(wǎng)絡(luò )與業(yè)務(wù)服務(wù)器的銜接,提供高性能、高可用的負載調度能力,以及統一的網(wǎng)絡(luò )層防攻擊能力。


            SNAT .集中提供數據中心的公網(wǎng)訪(fǎng)問(wèn)服務(wù),通過(guò)集群化部署,保證出網(wǎng)服務(wù)的高性能與高可用。


            4、CDN 規劃和建設


            CDN 工作劃分為第三方和自建兩部分。


            建立第三方 CDN 的選型和調度控制;根據業(yè)務(wù)發(fā)展趨勢,規劃CDN新節點(diǎn)建設布局;完善CDN業(yè)務(wù)及監控,保障CDN 系統穩定、高效運行。


            分析業(yè)務(wù)加速頻道的文件特性和數量,制定最優(yōu)的加速策略和資源匹配;負責用戶(hù)劫持等CDN日常故障排查工作。


            5.服務(wù)器選型、交付和維護


            負責服務(wù)器的測試選型,包含服務(wù)器整機、部件的基礎性測試和業(yè)務(wù)測試,降低整機功率,提升機架部署密度等。

            結合對公司業(yè)務(wù)的了解,推廣新硬件、新方案減少業(yè)務(wù)的服務(wù)器投入規模。負責服務(wù)器硬件故障的診斷定位,服務(wù)器硬件監控、健康檢查工具的開(kāi)發(fā)和維護。

            6、OS、內核選型和 OS 相關(guān)維護工作


            負責整體平臺的 OS 選型、定制和內核優(yōu)化,以及 Patch 的更新和內部版本發(fā)布;建立基礎的YUM包管理和分發(fā)中心,提供常用包版本庫;跟進(jìn)日常各類(lèi) OS 相關(guān)故障;針對不同的業(yè)務(wù)類(lèi)型,提供定向的優(yōu)化支持。


            7、資產(chǎn)管理


            記錄和管理運維相關(guān)的基礎物理信息,包括數據中心、網(wǎng)絡(luò )、機柜、服務(wù)器、ACL、IP等各種資源信息,制定有效的流程,確保信息的準確性;開(kāi)放API接口,為自動(dòng)化運維提供數據支持。


            8、基礎服務(wù)建設


            業(yè)務(wù)對 DNS、NTP、SYSLOG 等基礎服務(wù)的依賴(lài)非常高,需要設計高可用架構避免單點(diǎn),提供穩定的基礎服務(wù)。

            應用運維

            應用運維負責線(xiàn)上服務(wù)的變更、服務(wù)狀態(tài)監控、服務(wù)容災和數據備份等工作,對服務(wù)進(jìn)行例行排查、故障應急處理等工作。詳細的工作職責如下所述。


            1、設計評審


            在產(chǎn)品研發(fā)階段,參與產(chǎn)品設計評審,從運維的角度提出評審意見(jiàn),使服務(wù)滿(mǎn)足運維準入的高可用要求。


            2、服務(wù)管理


            負責制定線(xiàn)上業(yè)務(wù)升級變更及回滾方案,并進(jìn)行變更實(shí)施。掌握所負責的服務(wù)及服務(wù)間關(guān)聯(lián)關(guān)系、服務(wù)依賴(lài)的各種資源。能夠發(fā)現服務(wù)上的缺陷,及時(shí)通報并推進(jìn)解決。


            制定服務(wù)穩定性指標及準入標準,同時(shí)不斷完善和優(yōu)化程序和系統的功能、效率,提高運行質(zhì)量。完善監控內容,提高報警準確度。


            在線(xiàn)上服務(wù)出現故障時(shí),第一時(shí)間響應,對已知線(xiàn)上故障能按流程進(jìn)行通報并按預案執行,未知故障組織相關(guān)人員聯(lián)合排障。


            3、資源管理


            對各服務(wù)的服務(wù)器資產(chǎn)進(jìn)行管理,梳理服務(wù)器資源狀況、數據中心分布情況、網(wǎng)絡(luò )專(zhuān)線(xiàn)及帶寬情況,能夠合理使用服務(wù)器資源,根據不同服務(wù)的需求,分配不同配置的服務(wù)器,確保服務(wù)器資源的充分利用。


            4、例行檢查


            制定服務(wù)例行排查點(diǎn),并不斷完善。根據制定的服務(wù)排查點(diǎn),對服務(wù)進(jìn)行定期檢查。對排查過(guò)程中發(fā)現的問(wèn)題,及時(shí)進(jìn)行追查,排除可能存在的隱患。


            5、預案管理


            確定服務(wù)所需的各項監控、系統指標的閾值或臨界點(diǎn),以及出現該情況后的處理預案。建立和更新服務(wù)預案文檔,并根據日常故障情況不斷補充完善,提高預案完備性。能夠制定和評審各類(lèi)預案,周期性進(jìn)行預案演練,確保預案的可執行性。


            6、數據備份


            制定數據備份策略,按規范進(jìn)行數據備份工作。保證數據備份的可用性和完整性,定期開(kāi)展數據恢復性測試。


            數據庫運維

            數據庫運維負責數據存儲方案設計、數據庫表設計、索引設計和SQL優(yōu)化,對數據庫進(jìn)行變更、監控、備份、高可用設計等工作。詳細的工作職責如下所述。


            1、設計評審


            在產(chǎn)品研發(fā)初始階段,參與設計方案評審,從DBA的角度提出數據存儲方案、庫表設計方案、SQL開(kāi)發(fā)標準、索引設計方案等,使服務(wù)滿(mǎn)足數據庫使用的高可用、高性能要求。


            2、容量規劃


            掌握所負責服務(wù)的數據庫的容量上限,清楚地了解當前瓶頸點(diǎn),當服務(wù)還未到達容量上限時(shí),及時(shí)進(jìn)行優(yōu)化、分拆或者擴容。


            3、數據備份與災備


            制定數據備份與災備策略,定期完成數據恢復性測試,保證數據備份的可用性和完整性。


            4、數據庫監控


            完善數據庫存活和性能監控,及時(shí)了解數據庫運行狀態(tài)及故障。


            數據庫安全


            建設數據庫賬號體系,嚴格控制賬號權限與開(kāi)放范圍,降低誤操作和數據泄露的風(fēng)險;加強離線(xiàn)備份數據的管理,降低數據泄露的風(fēng)險。


            5、數據庫高可用和性能優(yōu)化


            對數據庫單點(diǎn)風(fēng)險和故障設計相應的切換方案,降低故障對數據庫服務(wù)的影響;不斷對數據庫整體性能進(jìn)行優(yōu)化,包括新存儲方案引進(jìn)、硬件優(yōu)化、文件系統優(yōu)化、數據庫優(yōu)化、SQL優(yōu)化等,在保障成本不增加或者少量增加的情況下,數據庫可以支撐更多的業(yè)務(wù)請求。


            6、自動(dòng)化系統建設


            設計開(kāi)發(fā)數據庫自動(dòng)化運維系統,包括數據庫部署、自動(dòng)擴容、分庫分表、權限管理、備份恢復、SQL審核和上線(xiàn)、故障切換等功能。


            7、運維研發(fā)


            運維研發(fā)負責通用的運維平臺設計和研發(fā)工作,如:資產(chǎn)管理、監控系統、運維平臺、數據權限管理系統等。提供各種API供運維或研發(fā)人員使用,封裝更高層的自動(dòng)化運維系統。詳細的工作職責如下所述。


            8、運維平臺


            記錄和管理服務(wù)及其關(guān)聯(lián)關(guān)系,協(xié)助運維人員自動(dòng)化、流程化地完成日常運維操作,包括機器管理、重啟、改名、初始化、域名管理、流量切換和故障預案實(shí)施等。


            9、監控系統


            負責監控系統的設計、開(kāi)發(fā)工作,完成公司服務(wù)器和各種網(wǎng)絡(luò )設備的資源指標、線(xiàn)上業(yè)務(wù)運行指標的收集、告警、存儲、分析、展示和數據挖掘等工作,持續提高告警的及時(shí)性、準確性和智能性,促進(jìn)公司服務(wù)器資源的合理化調配。


            10、自動(dòng)化部署系統


            參與部署自動(dòng)化系統的開(kāi)發(fā),負責自動(dòng)化部署系統所需要的基礎數據和信息,負責權限管理、API開(kāi)發(fā)、Web端開(kāi)發(fā)。結合云計算,研發(fā)和提供PaaS相關(guān)高可用平臺,進(jìn)一步提高服務(wù)的部署速度和用戶(hù)體驗,提升資源利用率。


            運維安全

            運維安全負責網(wǎng)絡(luò )、系統和業(yè)務(wù)等方面的安全加固工作,進(jìn)行常規的安全掃描、滲透測試,進(jìn)行安全工具和系統研發(fā)以及安全事件應急處理。詳細的工作職責如下所述。


            1、安全制度建立


            根據公司內部的具體流程,制定切實(shí)可行,且行之有效的安全制度。


            2、安全培訓


            定期向員工提供具有針對性的安全培訓和考核,在全公司內建立安全負責人制度。


            3、風(fēng)險評估


            通過(guò)黑白盒測試和檢查機制,定期產(chǎn)生對物理網(wǎng)絡(luò )、服務(wù)器、業(yè)務(wù)應用、用戶(hù)數據等方面的總體風(fēng)險評估結果。


            4、安全建設


            根據風(fēng)險評估結果,加固最薄弱的環(huán)節,包括設計安全防線(xiàn)、部署安全設備、及時(shí)更新補丁、防御病毒、源代碼自動(dòng)掃描和業(yè)務(wù)產(chǎn)品安全咨詢(xún)等。為了降低可能泄露數據的價(jià)值,通過(guò)加密、匿名化、混淆數據,乃至定期刪除等技術(shù)手段和流程來(lái)達到目的。


            5.安全合規


            為了滿(mǎn)足例如支付牌照等合規性要求,安全團隊承擔著(zhù)安全合規的對外接口人工作。


            6、應急響應


            建立安全報警系統,通過(guò)安全中心收集第三方發(fā)現的安全問(wèn)題,組織各部門(mén)對已經(jīng)發(fā)現的安全問(wèn)題進(jìn)行修復、影響面評估、事后安全原因追查。

            運維工作發(fā)展過(guò)程

            早期的運維團隊在人員較少的情況下,主要是進(jìn)行數據中心建設、基礎網(wǎng)絡(luò )建設、服務(wù)器采購和服務(wù)器安裝交付工作。幾乎很少涉及線(xiàn)上服務(wù)的變更、監控、管理等工作。


            這個(gè)時(shí)候的運維團隊更多的屬于基礎建設的角色,提供一個(gè)簡(jiǎn)單、可用的網(wǎng)絡(luò )環(huán)境和系統環(huán)境即可。


            隨著(zhù)業(yè)務(wù)產(chǎn)品的逐漸成熟,對于服務(wù)質(zhì)量方面就有了更高的要求。這個(gè)時(shí)候的運維團隊還會(huì )承擔一些服務(wù)器監控的工作,同時(shí)會(huì )負責 LVS、Nginx 等與業(yè)務(wù)邏輯無(wú)關(guān)的 4/7 層運維工作。


            這個(gè)時(shí)候服務(wù)變更更多的是逐臺的手工操作,或者有一些簡(jiǎn)單批量腳本的出現。監控的焦點(diǎn)更多的在服務(wù)器狀態(tài)和資源使用情況上,對服務(wù)應用狀態(tài)的監控幾乎很少,監控更多的使用各種開(kāi)源系統如Nagios、Cacti等。

            由于業(yè)務(wù)規模和復雜度的持續增加,運維團隊會(huì )逐漸劃分為應用運維和系統運維兩大塊。應用運維開(kāi)始接手線(xiàn)上業(yè)務(wù),逐步開(kāi)展服務(wù)監控梳理、數據備份以及服務(wù)變更的工作。


            隨著(zhù)對服務(wù)的深入,應用運維工程師有能力開(kāi)始對服務(wù)進(jìn)行一些簡(jiǎn)單的優(yōu)化。同時(shí),為了應對每天大量的服務(wù)變更,我們也開(kāi)始編寫(xiě)各類(lèi)運維工具,針對某些特定的服務(wù)能夠很方便的批量變更。


            隨著(zhù)業(yè)務(wù)規模的增大,基礎設施由于容量規劃不足或抵御風(fēng)險能力較弱導致的故障也越來(lái)越多,迫使運維人員開(kāi)始將更多的精力投入到多數據中心容災、預案管理的方向上。


            業(yè)務(wù)規模達到一定程度后,開(kāi)源的監控系統在性能和功能方面,已經(jīng)無(wú)法滿(mǎn)足業(yè)務(wù)需求;大量的服務(wù)變更、復雜的服務(wù)關(guān)系,以前靠人工記錄、工具變更的方式不管在效率還是準確性方面也都無(wú)法滿(mǎn)足業(yè)務(wù)需求。


            在安全方面也出現了各種大大小小的事件,迫使我們投入更多的精力在安全防御上。逐漸的,運維團隊形成之前提到的5個(gè)大的工作分類(lèi),每個(gè)分類(lèi)都需要有專(zhuān)精的人才。

            這個(gè)時(shí)候系統運維更專(zhuān)注于基礎設施的建設和運維,提供穩定、高效的網(wǎng)絡(luò )環(huán)境,交付服務(wù)器等資源給應用運維工程師。應用運維更專(zhuān)注于服務(wù)運行狀態(tài)和效率。


            數據庫運維屬于應用運維工作的細化,更專(zhuān)注于數據庫領(lǐng)域的自動(dòng)化、性能優(yōu)化和安全防御。運維研發(fā)和運維安全提供各類(lèi)平臺、工具,進(jìn)一步提升運維工程師的工作效率,使業(yè)務(wù)服務(wù)運行得更加穩定、高效和安全。


            我們將運維發(fā)展過(guò)程劃分為4個(gè)階段,如圖1-2所示。

            圖1-2運維發(fā)展過(guò)程

            手工管理階段:業(yè)務(wù)流量不大,服務(wù)器數量相對較少,系統復雜度不高。對于日常的業(yè)務(wù)管理操作,大家更多的是逐臺登錄服務(wù)器進(jìn)行手工操作,屬于各自為戰,每個(gè)人都有自己的操作方式,缺少必要的操作標準、流程機制,比如業(yè)務(wù)目錄環(huán)境都是各式各樣的。


            工具批量操作階段:隨著(zhù)服務(wù)器規模、系統復雜度的增加,全人工的操作方式已經(jīng)不能滿(mǎn)足業(yè)務(wù)的快速發(fā)展需要。因此,運維人員逐漸開(kāi)始使用批量化的操作工具,針對不同操作類(lèi)型出現了不同的腳本程序。


            但各團隊都有自己的工具,每次操作需求發(fā)生變化時(shí)都需要調整工具。這主要是因為對于環(huán)境、操作的規范不夠,導致可程序化處理能力較弱。此時(shí),雖然效率提升了一部分,但很快又遇到了瓶頸。


            操作的質(zhì)量并沒(méi)有太多的提升,甚至可能因為批量執行而導致更大規模的問(wèn)題出現。我們開(kāi)始建立大量的流程規范,比如復查機制,先上線(xiàn)一臺服務(wù)器觀(guān)察10分鐘后再繼續后面的操作,一次升級完成后至少要觀(guān)察20分鐘等。


            這些主要還是靠人來(lái)監督和執行,但在實(shí)際過(guò)程中執行往往不到位,反而降低了工作效率。


            平臺管理階段:在這個(gè)階段,對于運維效率和誤操作率有了更高的要求,我們決定開(kāi)始建設運維平臺,通過(guò)平臺承載標準、流程,進(jìn)而解放人力和提高質(zhì)量。


            這個(gè)時(shí)候對服務(wù)的變更動(dòng)作進(jìn)行了抽象,形成了操作方法、服務(wù)目錄環(huán)境、服務(wù)運行方式等統一的標準,如程序的啟停接口必須包括啟動(dòng)、停止、重載等。通過(guò)平臺來(lái)約束操作流程,如上面提到的上線(xiàn)一臺服務(wù)器觀(guān)察10分鐘。


            在平臺中強制設定暫停檢查點(diǎn),在第一臺服務(wù)器操作完成后,需要運維人員填寫(xiě)相應的檢查項,然后才可以繼續執行后續的部署動(dòng)作。


            系統自調度階段:更大規模的服務(wù)數量、更復雜的服務(wù)關(guān)聯(lián)關(guān)系、各個(gè)運維平臺的林立,原有的將批量操作轉化成平臺操作的方式已經(jīng)不再適合,需要對服務(wù)變更進(jìn)行更高一層的抽象。

            將每一臺服務(wù)器抽象成一個(gè)容器,由調度系統根據資源使用情況,將服務(wù)調度、部署到合適的服務(wù)器上,自動(dòng)化完成與周邊各個(gè)運維系統的聯(lián)動(dòng),比如監控系統、日志系統、備份系統等。

            通過(guò)自調度系統,根據服務(wù)運行情況動(dòng)態(tài)伸縮容量,能夠自動(dòng)化處理常見(jiàn)的服務(wù)故障。運維人員的工作也會(huì )前置到產(chǎn)品設計階段,協(xié)助研發(fā)人員改造服務(wù)使其可以接入到自調度系統中。


            在整個(gè)運維的發(fā)展過(guò)程中,希望所有的工作都自動(dòng)化起來(lái),減少人的重復工作,降低知識傳遞的成本,使我們的運維交付更高效、更安全,使產(chǎn)品運行更穩定。對于故障的處理,也希望由事后處理變成提前發(fā)現,由人工處理變成系統自動(dòng)容災。



            關(guān)鍵字: 網(wǎng)站運維 開(kāi)封網(wǎng)站建設

            文章連接: http://www.gostscript.com/wzjss/657.html

            版權聲明:文章由 晨展科技 整理收集,來(lái)源于互聯(lián)網(wǎng)或者用戶(hù)投稿,如有侵權,請聯(lián)系我們,我們會(huì )立即刪除。如轉載請保留

            双腿国产亚洲精品无码不卡|国产91精品无码麻豆|97久久久久久久极品|无码人妻少妇久久中文字幕
                1.