Forum
12 R2 Hyper-v, 2 nodlu cluster, fibre ch storage mevcut. Host tarafında değilde guest tarafındaki vm.lerin hepsinde ki 10 küsür vm var, ara ara Event id 41 (63) hatası üretiyor. Host tarafında herhangi bir güç kaybı vs görümüyor. Oluşan eventin öncesindeki eventlerde sorunu tesbit edebilmek adına olumsuz hiç bir log görünmüyor. Bu durum ara ara genelde akşam saatlerinde oluşmuş. Sadece aşağıdaki hatayı veriyor.
The system has rebooted without cleanly shutting down first. This error could be caused if the system stopped responding, crashed, or lost power unexpectedly.
Nadiren aynı gün içerisinde 2-3 kere bazen ay içerisinde 2-3 kere bu durum oluşmuş, genelde akşam 19'dan sonra olduğu için farketdilmemiş.
Belki bu konuda bir fikri olan vardır diye düşündüm.
Bu böyle bir soruna nedne oılur mu bilemiyorum; sanal makineleri diskleri kopyalayarak ve sysprep yaparak kurdum.
Kolay gelsin.
Merhaba,
Birkaç sorum olacaktı,
VM lerin çalıştırdığı OS ları yazabilir misiniz?
Hyper-V için yayınlanmış olan tüm hotfix leri kurdunuz mu?
VM lerin OS larının update leri de tamdır sanırım.
Yedeklemenizin başladığı zaman ile bu olayın gerçekleştiği zaman çakışıyor mu?
Kolay gelsin...
Hostlar 2012 r2, vmler 08 r2 ve 2012 r2. Host tarafını windows update yoluyla güncelliyorum ayrıca hotfix indirip kurmadım. Vmlerin updateleri güncel. Yedekleme gece 12'de başıyor ve her yarım saatte bir tanesi yedekleme için start alıyor. (Veeam) Event loglarda resetlenmelerin belli bir saati yok gündüz de olmuş gece de. Dikkatimi çeken ise atıyorum 3 vmde 1 dk arayla bu durum oluşmuş. Dün gece 04 sularında nodlardan birinde niclerden bir tanesi çalışmaz duruma gelmiş. Kontrol ettiğimde ise hem hosta hem de bu nice bağlanmış vmler pinglenmiyordu. İlgili nici disable/enable yapınca düzeldi. Konuyu araştırınca Broadcom'un bu modelinde wmq defaultta enabled oluyormuş ve driverdaki bir bugdan dolayı vmlerle iletişim kopuyormuş. Tabi 2015 nisanda bir update çıkmış onu yükledim ve bugün microsoft tarafında da wmq ile ilgili bir update çıktı onu da yükledim. Umarım problem bunlardan kaynaklanıyordur. Anlamadığım ise nicten dolayı vmlerle iletişim kesildiğinde o nice bağlı vmlerin neden fail over olmadığı.
Durum sanki Network kartlarının sürücüleri ve Hyper-V nodları üzerinde ki hotfix lerin kurulmuş olmaması nedeniyle gibi gözüküyor.
Tavsiyem https://support.microsoft.com/en-us/kb/2920151 adresinde Hyper-V ile ilgili olan hotfix leri indirip kurmanız. Hotfix lerin bir kısmı Windows Update ile geliyor ancak bir kısmını da buradan indirip kurmanız gerekmekte.
Ayrıca Network kartlarınızın da son firmware ve driver güncellemelerine sahip olup olmadığını kontrol etmenizi öneririm.
Sanal makinelerin network lerinin kopması durumunda diğer node üzerine taşınmasını istiyorsanız, sanal makine ayarlarında Network Adapter altında bulunan Advanced Features bölümüne gelip "Protected Network" seçeneğinin işaretli olması gerekiyor. Kontrol edebilir misiniz?
Hyper-V node larınız üzerinde ki konfigurasyonu bilmiyorum. Mesela teaming yapıyor musunuz? Virtual Switch tarafında ki yapılandırmanız ve bağlı olduğu Network connections bölümünde ki ağ kartlarının yapılandırması nasıl? Bunlar ile ilgili ekran görüntülerini burada paylaşabilirseniz daha rahat yorum yapabilirim.
Kolay gelsin...
Teaming yapmıyorum, virtual switch tarafındaki yapılandırmam default şekilde. Fizikselde 4 adet nic var 1 tanesi heartbeat ve virtual switchle bağlatısı yok sadece fiziksel olarak çalışıyor. Diğer 3 nic virtual switche bağlı. 1 tanesi host tarafında public ip, diğer ikisi 172.16.30.10 ve 172.16.40.10 şeklinde. Vmler bu 3 phy nice bağlı vnic ile çalışıyor tabi vmler public ip ile çalışıyor. Protected Network seçili fakat hem virtual hem de phy nici disable yapınca sadece log oluşuyor bu nice bağlı vm diğer noda geçmiyor olduğu yerde kalıyor.
Event viewer'de cluster için viewer oluşturduğumda clusterda message queuing rolü olmadığı halde her bir dakikada aşağıdaki logların oluştuğunu gördüm
Event id 2050 - [RCM] ResourceTypeChaseTheOwnerLoop::DoCall: ResType MSMQ's DLL is not present on this node. Attempting to find a good node...
Event id 2050 - [RCM] ResourceTypeChaseTheOwnerLoop::DoCall: ResType MSMQTriggers's DLL is not present on this node. Attempting to find a good node...
Bu eventler nodun birinde ayın 10'unda diğerinde ise 14'ünde başlamış ki nodlara aynı günde ve peş peşe sadece Windows'un updateleri yükleniyor, extradan hiç bir program, rol veya özellik yüklenip kaldırılmıyor, kendiliğinden böyle bir event oluşmuş.
Ben de tuttum Message queuing server ve message queuing triggers featureslarını yükledim ve sonra bu logun oluşması durdu artık bu logu üretmiyor.
Lambadan cin çıkar gibi ilginç problemleri gördükçe MS'nin sanallaştırma-cluster konusunda yemesi gereken çok fırın ekmek olduğunu düşünüyorum.
Ilgis ivar midir bilmiyorum fakat Nic driverini update ettikten sonra bu problem tekrar etmedi. 20 gundur bir sıkıntı yok.
Bence kesinlikle ilgisi var. Bugüne kadar Hyper-V ortamında bir problem ile karşılaştğımda ilk baktığım kısım donanım firmware ve driver larıdır. Büyük oranda da daha derine dalmadan bu ikisini güncelleyerek sorunları çözebildim. Bu nedenle ilk postumdu sanırım güncellemeleri varsa geçmenizi önermiştim. Düzelmesine sevindim.
Kolay gelsin...
Bu sorunu yasayacak arkadaslar icin şunu eklemek isterim; Server 2008 r2'de rdbss.sys'de bu soruna sebep oluyor olabilir. Çünkü iperf ile networku test ederken sistem birden bluescreene düştü ve kernel.dmp yi monitor edince rdbss.sys nin buna sebep oldugunu gordum ve event logda ayni hata yani "kernel-power" gorunuyordu. Bunun icin hotfix var bunu yukleyiniz.