[原]記一次安裝SQL Server集群的曲折歷程
前兩天一位新朋友在QQ上說:“安裝SQL Server集群的時候,第二個節點選不上”:
我當時第一反應是Windows的集群沒有搞好,于是乎先后問了“另一個節點有沒有開機”、“有沒有安裝分布式事務協調其(MSDTC)”、“是不是使用遠程桌面安裝”等一系列無關痛癢的問題,但依然沒有頭緒,找不到明顯的硬傷。
此時,我還是堅持認為問題出現在Windows的集群上,于是讓他對群集管理器進行截圖:
細心的朋友應該能夠發現“MSDTC” 裝錯地方了,正常來說應該是裝在群集組中,很多文檔中都說MSDTC并不是必須的,但我遇到好幾個案例都是因為沒有安裝MSDTC導致安裝失敗,于是我認為終于找到突破口了。
糾正了這個錯誤后,問題依舊,另一個節點還是“不可用”,原因“未知”。
讓他從另一個節點開始安裝,故障依舊。
于是,我讓他做一下故障轉移,看看資源是否能正常切換到另一個節點中,實驗表明集群具有故障轉移能力,簡單來說,操作系統這一層上的集群(MSCS) 已經沒有問題了,明明MSCS沒有問題,但是SQL Server集群安裝時卻死活不認另一個節點,很是奇怪。
第二天,他讓我“遠程協助”,由于從事運維有一段時間了,對于故障的排除我養成了一種“親手確認”的習慣,首先是自己再做一次MSCS的故障轉移,剛開始切換的時候,主節點掛了,原來他機器的性能問題(他的機器跑了3個虛擬機,一個域控制器、兩個節點),在群集管理器中清晰地看到資源的轉移過程,的確MSCS是沒有問題的。
于是我抱著拼人品的心態,開始安裝SQL Server,一路下來都很順利,到了“選節點”那步,也就是本文那一張圖片所描述的那步,不能選擇第二個節點,“親手確認”了病癥后,還是回到了昨天卡住的那個問題上。
于是借助萬能的 google 和 baidu ,使用關鍵字“sql server 集群 安裝 不可用節點 未知”搜索,發現沒有什么可用的信息,“未知”都落在作者、出處上,于是使用僅剩0.4級的英語將關鍵字翻譯成英語“sql server cluster unavailable node reason unknow”,終于在MSDN上找到了一個類似的問題:cluster install 2nd node unavailable ,最后作者“自問自答”地回答了問題:
ok, after setting up a packet sniffer and running behind the bits and bytes I finally found the solution to this problem.
Make sure the "Remote Registry" service is running on second (inactive) node!
簡單來說就是開啟 Remote Registry 這個服務,再查了一下該服務的狀態——“禁用”,而我這邊的 SQL Server 集群的 Remote Registry 是自動啟動的,先不管馬上將這個服務啟動,重新開始SQL Server 安裝進程,終于可以選擇第二個節點了。
這讓我想起了他的機器名有YLMF的字樣,于是我懷疑他的系統是那種“雨林木風”xxxxxxxx版,后來也證實了這一點:
折騰了這么久,這次 SQL Server 集群安裝不能選擇第二個節點的原因是 Remote Registry 這個服務沒有啟動,而沒有 Remote Registry 沒有啟用的原因是它被禁用,而 Remote Registry 被禁用的原因極有可能是由于“雨林木風”xxxxxxxx版經過“優化”并且禁用了“無關痛癢”的服務所致。
浙公網安備 33010602011771號