監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產品資料
X 關閉

解決Hyper-V高可用集群服務和網絡問題

申請免費試用、咨詢電話:400-8352-114

文章來源:泛普軟件

這個系列包含四個部分,主要討論如何提高Hyper-V高可用集群的性能。第一部分闡述了固件、驅動、補丁和更新對虛擬主機集群穩(wěn)定性的影響;第二、第三部分,我給出了在解決Hyper-V集群故障時的一些個人經驗,這些經驗有助于提高虛擬集群的穩(wěn)定性。這里,在第四部分,我討論一些復雜的網絡問題并解釋何時、怎樣結束Hyper-V高可用集群服務。

Hyper-V網絡問題1:虛擬機重啟后,IP地址重復或者自動尋找私有IP(APIPA)

這個問題發(fā)生在Hyper-V集群節(jié)點突發(fā)性丟失私有/公共網絡或者FC鏈路之后,同時,該問題還會觸發(fā)虛擬機在其他的主機上重新啟動。當看到很多的虛擬機都在試圖尋找一個替代主機時,我發(fā)現那簡直是一團糟。

在很多情況下,虛擬機將會試圖在存活的節(jié)點上重新啟動,然后遷移到另外一個節(jié)點直到虛擬機再次重啟。其結果是,如果虛擬機運行Windows 2003或XP,該虛擬機就會重新啟動并報告“網絡上的IP地址重復”;如果是Windows 2008或Vista,就會獲得一個APIPA地址……除了網絡問題,所有其他的虛擬機功能應該工作正常。遺憾的是,”修復”或者”禁用-再啟動”虛擬機網卡沒有什么效果。手工啟動幾次受影響的虛擬機則可以搞定。

有個小技巧:作為一種更快的方式,可以打開Hyper-V Manager,雙擊虛擬機,然后選擇“關機”。系統(tǒng)將會關閉,不過虛擬機會立即重啟,因為它是高可用集群的一部分。

這個問題是因為在不恰當的時間、不正確的完成集群中虛擬機配置而導致。根據我的觀察,當集成的組件沒有匹配安裝在主機上的Hyper-V版本時,這種情況就會出現。

因此,假如你的環(huán)境中包含Windows 2008 SP2的Hyper-V主機和具有Hyper-V的集成組件的虛擬機,在集成組件升級后,這些問題就會發(fā)生。不過,假如這些問題在你升級集成組件之前發(fā)生,那就相對簡單,手工重啟受到影響的虛擬機就應該可以解決問題。

Hyper-V網絡問題2:關機之后還可以ping通虛擬機

很多情況下,就像我們剛才所提到的,重啟可以解決虛擬機的網絡問題。同樣,當Hyper-V集群主機出現不可預料的故障、虛擬機被迫在其他的節(jié)點上重啟,我曾見過系統(tǒng)完全重啟,同時報告它們都可以正常的ping通。

但是,如果再深入檢查就會發(fā)現,除了能夠ping通,無法通過其他的遠程管理進程(例如,遠程桌面協(xié)議(RDP),eventvwr,全局名稱協(xié)議等等)訪問虛擬機。也無法從虛擬機ping出去。更奇怪的是,就算你完全關閉了虛擬機,還是可以ping通它。

為了解決這個問題,請使用Failover Cluster Manager或者SCVMM關閉虛擬機集群。在Hyper-V manager中關閉虛擬機集群會引起集群重啟虛擬機的高可用性回應。

當你目睹Failover Cluster Manager顯示虛擬機已經關掉卻還能ping通的時候,你會很詫異。根據我的經驗,這種情形是由于為虛擬機配置了傳統(tǒng)的網絡適配器引起。

要修復這個問題會有一點棘手,需要使用Failover Cluster Manager和Hyper-V Manager,以下是操作步驟:

1. 當遇到集群中節(jié)點失效時,很可能有必要在每個節(jié)點上重啟Hyper-V Management Service以刷新真正的虛擬機狀態(tài),同時使用Hyper-V Manager工具。

然后,在Failover Cluster Manager中,右鍵單擊受影響的虛擬機的“配置”,再選擇“關閉”。

2. 關閉之后,通過Hyper-V Manager遠程ping該虛擬機檢查其狀態(tài)。你會發(fā)現,它在Hyper-V Manager中的狀態(tài)是關閉的,但是可以ping通。

3. 使用Failover Cluster Manager將該虛擬機移動到集群中其他的節(jié)點上,然后執(zhí)行第2步。請注意,當每個虛擬機都移動完成之后,它們在Hyper-V Manager中的狀態(tài)將會改變?yōu)椤斑\行”,盡管它們在Failover Cluster Manager中的狀態(tài)依然是關閉的。

4. 要解決這個問題,在Hyper-V Manager中右鍵單擊虛擬機,然后選擇“Turn Off”。這個時候,虛擬機的狀態(tài)會顯示為關閉,同時也無法再ping通。

5. 重啟虛擬機。它就會恢復到全功能狀態(tài)。

要消除這個問題,需要限制虛擬機使用傳統(tǒng)的網絡適配器,它通過主機分區(qū)路由流量。

結束Hyper-V高可用集群服務

有時,對一個響應遲鈍的虛擬集群節(jié)點而言,我感到自己真拿它沒辦法。無論是驅動問題,卷影復制服務(Volume Shadow Copy Service)垮掉或者其他未知的問題,在很多情況下,我不得不拿出“錘子”將節(jié)點上的高可用集群服務“殺掉”。當節(jié)點上有多個處于未知狀態(tài)的虛擬機負載時,“殺掉”該服務需要勇氣,但對于集群的整體穩(wěn)定性來說,很有必要。

不過,在采取這種極端的操作之前,了解其后果非常重要。當你“殺掉”高可用集群服務時,該服務會為集群中的剩余節(jié)點創(chuàng)建一個高可用的回應。故障節(jié)點上的虛擬機會被重新分布到其他的節(jié)點并重啟,就像剛剛經歷一次斷電。根據我們的經驗,Failover Cluster Manager現在將會派上用場,將會重啟故障節(jié)點。在將虛擬機移動回去之前,請仔細檢查事件記錄和其他的監(jiān)控記錄。

再次重申,在“殺掉”高可用集群服務之前,你應該搞清楚每個選項。

舉幾個例子,比如,Hyper-V已經完全無法對外界的集群管理工具做出響應。集群工具的管理功能——比如cluster.exe命令或者任何圖形化用戶接口(GUI)形式的管理工具(比如,Failover Cluster Manager, SCVMM, Hyper-V Manager等) ——已經無法使用或者不能響應。盡管如此,一些虛擬機的正常運行,而另外一些則不是。

如果出現這種情況,在你“殺掉”高可用集群服務之前,你應該檢查以下項目:

使用cluster.exe命令查詢受影響的節(jié)點。對GUI中不響應的節(jié)點來說,要查詢虛擬機的狀態(tài),這個工具可能仍然只具備有限的功能。從查詢的反饋中,有問題的虛擬機集群資源會引導你找到真正的原因。 使用某個產品,比如Pskill或者Taskkill。在《Hyper-V虛擬機配置文件,虛擬機狀態(tài)有關的集群問題》這篇文章中,我描述了如何找到某個特定虛擬機的VMWP.exe進程并殺死它。如果能夠從cluster.exe命令的輸出中找到虛擬機卡殼的任何信息,那將有助于終結一個有問題的虛擬機而不是“殺掉“高可用集群服務。 試著從一次崩潰中保存虛擬機的工作負載。你可能無法訪問集群主機,但是你可以通過RDP或者其他的遠程管理進程訪問客戶端OS。從高可用集群中手動關閉虛擬機只會使該虛擬機從別的地方再重新啟動,因此,聰明的做法是,關閉應用程序,看上去就像經歷了一次硬關機?! 栴}總會遇到,你可能不得不殺掉高可用集群服務從而重新獲得控制權。我曾經成功的使用Pskill和Taskkill殺掉了高可用集群服務。

Taskkill /s CLUSTERNODENAME /IM clussvc.exe

PsKill \CLUSTERNODENAME clussvc.exe

(請注意:“殺掉“高可用集群服務之后,以前遇到的一些問題可能會重現:比如IP地址重復,或者APIPA,虛擬機重啟之后或者關閉之后仍然可以ping通。)

這個系列雖然列出了很多Hyper-V集群的問題,可是,我依然認為虛擬主機集群的優(yōu)勢遠大于其弊端。這些問題并不是經常出現,但它們一旦發(fā)生,總會讓人發(fā)瘋和抓狂。

最后,這些問題指出了Hyper-V以及其他的虛擬化產品的發(fā)展時期不可避免的困境。隨著更多的用戶采用虛擬化技術、更廣泛的利用虛擬化技術,會出現更多的問題——比如,在這個系列中提到的這些問題。

發(fā)布:2007-04-21 11:10    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]
長沙OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普長沙OA軟件行業(yè)資訊其他應用

長沙OA 長沙新聞動態(tài) 長沙OA信息化 長沙OA快博 長沙OA軟件行業(yè)資訊 長沙軟件開發(fā)公司 長沙門禁系統(tǒng) 長沙物業(yè)管理軟件 長沙倉庫管理軟件 長沙餐飲管理軟件 長沙網站建設公司