Forum

Bildirimler
Hepsini Temizle

VM Esxi 7.0.3 Kendiliğinden Restart Sorunu

4 Yazılar
2 Üyeler
1 Reactions
303 Görüntüleme
(@egemenkoksal)
Gönderiler: 112
Estimable Member
Konu başlatıcı
 

Merhaba. Önce sistemi yazayım:

VMware ESXi 7.0.3 Build 19193900

HP Proliant DL580 G7

4 x Intel Xeon E7 4870 2,40 

128 GB Memory ( 8gb x 16)

4 adet nvme disk + 1 adet 8tb 3.5 sata mevcut.

VMware 7.03 imajı nvme 'in birinden yüklü ve nvme'den açıyor. 8tb sadece veri tutuyor bir imaj yada işletim sistemi yok.

 

Bu makina üzerinde imajlar yani sanal serverlar kullanıyoruz. Günde en az 1 kez (random zamanlarda) fiziki makina restart oluyor.

yaklaşık 2 yıldır 7/24 çalışan bir makina bu. 2 yıldır hiç bir değişiklik yapmadık dokunmadık ne hard ne soft güncellemedik.

aynı makinadan 2 tane daha var marka modelden tüm özelliklerine kadar herşey aynı tek fark onlardaki sanal serverlar farklı. Diğer ikisinde sorun yok.

Son 1 aydır Neden kendi kendini fiziki restart ettiğini çözemedik.

7/24 çalışan bir fabrika olduğumuz için "dur hepsini kapatayım da sorunlu olan (örneğin) ram'leri diğer makinada deneyeyim test edeyim" gibi bir şansımız yok. 1 saat kapalı kalsa neredeyse fabrikadaki üretim durma noktasına geliyor.

Depremde, bu işler ile ilgilenen ve esxi vm vb konuları yemiş yutmuş arkadaş vefat etti. Biz zaman içerisinde kendimiz araştıra araştıra bir bilgi birikimi edindik. Fakat bunu çözemiyoruz. (sorun belki basit birşeyden kaynaklanıyordur. Böyle sistemler kullanıyorsunuz bunu mu çözemediniz demeyin diye bunu belirtmek istedim)

VM içerisindeki ilgili log dosyasını ekte ekliyorum. Direkt copy paste yapınca kod yazdığımı sanıp forum beni engelliyor. Bu nedenle txt dosyaya koydum.

Ek not: Bugün saat 11:35 civarı ve 12:25 civarında fiziki makina kendini restart etti. Log dosyasını 11:35 ten sonrasını aldım ve kesintisiz txt dosyaya ekledim.

Eksik verdiğim bilgi veya Sorunuz varsa yanıtlarım

Yardımcı olabilirmisiniz.

 

Bu konu 3 ay önce 3 defa egemen köksal tarafından düzenlendi
 
Gönderildi : 26/07/2024 17:00

ibrahim yildiz
(@ibrahimyildiz)
Gönderiler: 4556
Co-Helper
 

Yazmamayı da düşündüm ama Log'a baktık madem yazalım, konu içeriği beni biraz güldürdü doğrusu. Açıkçası hiçbir profesyonel o sunucuya uzaktan, yerinde destek vermez. 🙂 Çözülmesi de şans işi yada oldukça zordur.

Belki çaresizdi ondan bu isteniyordu ama Rahmetli arkadaş kritik, fabrika gibi bir ortam için çok yanlış bir çözümlemeye gitmiş doğrusu.
Çalışmaya çalışıyordur ama neresinden tutsan elinde kalıyor. Çünkü hiçbirinin bir biriyle uyumlu olmadığı şeyleri kurgulamış.

Bu pozisyonda sürümlere takılmak boş belki ama bilin hani. O sunucu modeli ne o esxi sürümü destekliyor (en son 5.5 olması lazım) nede nvme aygıtları. Sorun bunlar kaynaklıysa kolaylıkla çözemezsiniz.

Desteklenen aygıtlar ve sürümler çok önemlidir işte bunun gibi durumlarda, çünkü firmware'ler karşısında ki donanımı algılamalı, sensöre edebilmeli, doğru log üretmelidir. CPU tarafında desteklenmeyen uygulamalara gidilmiş. Çalışınca çalışır çakılınca iş zordur 🙂 belirttiğim durumlarda ILO, esxi vs doğru log'u ve işareti alamayabilirsiniz aynı sizin dosyanızda ki gibi.

Peki dosya da ne var; her dk başı aynı döngü hataları var.
Memory caching hatası var, core'lar muhtemel aygıt dönüşleriyle throttle'a giriyor,
nvme durum okunamıyor, o hata içeriğine vmware IO hatası demiş ve birçok durum sıralamış buna restart dahil, yine sonra değineceğim sunucuya usb bridge birimleri, sdcard, com port veya usb aygıtı dahilse paralelinde olabilir demiş.
Zaten sunucu da ki o cpu'ların o esxi sürümüyle istenen nvme bridge desteği yok.
Sonra ethernet nic'leri hata üretmiş muhtemelen Team yapılmış yine cpu karşılığı support edilmediği log edilmiş.
esxi firmware ile konuşamadığını yazmış bu muhtemel Disk HBA yada nic'ler ile ilgili.
Final de com port'lardan çakılmış crash olmuş. Bu com port'lar kaynaklı demek değildir döngünün sadece orada patladığını gösteriyor olabilir.
Yani log'unuz kesin nedeni içermiyor. Sunucunun aygıtları benchmark yapılarak izlenmesi lazım, sadece yük altında bu sonuç üretiyor olabilir.

Başka diyebileceğim bu sunucu rollerini doğru kurgu da başka sunucuya aktarıncaya kadar şunu inceler ve denerdim. Diğer fabrika cihazlarıyla com port iletişimi var mı ve bu hangi VM den neden çakılıyor... Diğer vm'lerde ki com port atamalarını kaldırma vs.
Belki bunla bile geçici çözülebilir bunun dışında belleklerden başlayarak derin analiz ve sunucu üzerinde ki yükü azaltma vs gerekir.

Aşağıda bir link veriyorum. G7 nesline o sürümün nasıl kurulabildiğini ve uyarıları göreceksiniz.

Finalde homelab için böyle bir kullanım olabilir hiçbir itirazımız olmaz zaten dünyada yapılıyor da amatörlerin dünyası ama ticari ortam da aynı config deki diğerlerinin de güncel doğru sunucularla değişimini biran önce başlatın derim, zaten support alamayacaksınız siz de yaşadığınız üzere çaresiz kaldınız. Daha yeni nesil, gerekli perf. ihtiyacını karşılayan gerekirse 2. el alıma gidin ama değiştirin donanımınızı mutlaka, sizin ikna kaabiliyetinize bağlı, bir sabah o sunucuların açılmadığı durumu bir fabrika da yaşamak istemeyeceklerdir.

https://www.provirtualzone.com/install-vsphere-7-in-a-non-supported-hp-dl360-g7/

'balık vermez, nasıl tutulabildiğine yönlendirir'
****************************************************************
Probleminiz Çözüldüğünde Sonucu Burada Paylaşırsanız. Sizde Aynı Problemi Yaşayanlar İçin Yardım Etmiş Olursunuz. Eğer sorununuz çözüldü ise lütfen "çözüldü" olarak işaretlerseniz diğer üyeler için çok büyük kolaylık sağlayacaktır.
*****************************************************************

 
Gönderildi : 27/07/2024 02:51

(@egemenkoksal)
Gönderiler: 112
Estimable Member
Konu başlatıcı
 

Değerli yorumlarınız ve zamanınızı ayırdığınız için teşekkür ederim İbrahim bey.

Vefat eden arkadaşın ne yaptığını bilmiyorum nasıl kurmuş napmış, belki o da araştırarak öğrenerek yapıyordu bilmiyorum. Ama bir sorun olduğu zaman dakikasında biliyor ve çözüyordu. Ben size katılıyorum ve Söylediklerinizi doğru kabul ediyorum.

Dediğiniz gibi ya ram'lerden balayarak derin bir analiz gerekiyor (bunun için de ilk sırada zaman lazım) yada yeni ve uyumlu güncel bir sunucu edinmek sıfırdan kurmak. Şuan ki sistem kör topal çalışırken yeni sunucu alıp kurmak çözümü daha mantıklı.

Sorunu geçici olarak çözdük sanırım. G7'lerde tak-çıkar power var biliyorsunuzdur. Powerdan şüphelendim ilk olarak. Çünkü aklıma şu geldi.

Tedaş, bünyesinde trafo barındıran bizim gibi işletmeleri 6 ayda bir gelip trafo testi yapıyor. işlemleri yaklaşık 1 saat sürüyor.

3 tane VM üzerinde 9 tane sanal kullanıyoruz. Bu 3 fiziki sunucu ve beraberinde ana switchler vs 10 kwa UPS güç kaynağına bağlı. 10 kwa güç kaynağı ise 30 kwa UPS'e bağlı. Bu ups ise otomatik jeneratöre bağlı. Yani jeneratör çalışmasa bile sunucular yaklaşık 2 saat serverlerı açık tutuyor bunu biliyoruz. 

Bundan 1 ay kadar önce Tedaş yine rutin trafo kontrolüne geldi. Jeneratör hattını kapattılar ve elektiriği kesip teste başladılar. Sunucularımız ups'ler ile çalışıyordu. Evet aslında doğru olan sanlları vm leri ups leri hepsini kapatmamız gerekirdi fakat jeneratör hattının şartelini indirdikleri için düşünemedik. 

Tedaş teste başladıktan 10 dk kadar sonra serverların tümü ve ups kapandı. İlk olarak haliyle Ups ten şüphelendik. Geri açtık upsler açıldı sorunsuz. 

Vm leri açtık. Bu konu başında bahsettiğim vm açılmadı yazılımsal olarak. purple ekrana düşüyordu. çok uğraştık. sonrasında vm diski yaptık tekrardan. imajları mount ettik vs açıldı. ( işte 1 ay önce o günden sonra ilk başlarda haftada bir en son zamanda da günde bir restart etmeye başladı kendini)

Tedaş ve fabrika elektrikçileri, test esnasında Birşeylerin ters gittiğini ve istemeden topraklama hattı üzerinden yanlış hatırlamıyorsam 20.000 volt civarı geri dönüş olduğunu söylediler. Fabrika imalatında kullanılan ve o an kapalı olmasına rağmen arızalanan inkjet gibi bir kaç cihaz da bozuldu. 

Şartel kapalı olmasına rağmen topraklama hattından voltaj dönüşü olabileceğini kimse hesaplamadı. Ama onu geçtim ups'lere neden bir şey olmadı arızalanmadı. Ama görevini yaparak 20000 voltu belki de saliselik kaçırdı ve sonra kapanarak korumaya aldı. Bilemiyorum

Herneyse, bu geldi aklıma, o gün power'ın belki de salisenin onda biri kadar da olsa darbe yemiş olabileceğini ve bu nedenle restart'ın power dan kaynaklanabileceğini düşündüm.

Diğer çalışan G7 nin birinde çift power vardı ve birini çıkartıp bundaki ile değiştirdim. çıkanı dışarı boşa aldım. Bu işlemi Cuma günü akşam yaptım ve o saatten şu ana dek (pazartesi 17:53) henüz restart olmadı.

İnşallah yeni uyumlu bir sunucu alıp kurulum yapana dek de restart olmaz.

 

Bu ileti 3 ay önce 3 defa egemen köksal tarafından düzenlendi
 
Gönderildi : 29/07/2024 17:47
Emre Oktay reacted

ibrahim yildiz
(@ibrahimyildiz)
Gönderiler: 4556
Co-Helper
 

Çözüm dönüşü yapmanız güzel.
Aslında akıldaydı cevap uzadığı için o kısımlara gelemedik. Herşey gibi hardware'in de bir yıpranması, ömrü var bende de var G7 malum çok eski cihazlar, çok kısa anlık kondansatör, transister vs ömür tolerasyonu kaynaklı PS, MB, Ram'lerden de cihazlar restart edebilir. Normal açılır ama kritik bir yük oluştuğu an kapanabilir gibi durumları görürüz.

Doğal yıpranma da olabilir dediğiniz sebeple de olabilir. UPS korumaya alır ama dar an içinde kaçırabilir anot dan kaçırmasa da topraktan kaçırabilir. Tüm hatta o voltaj değeri dolanmamıştır sunuculara o değerin yarısı topraktan ulaşsa zaten tümü yanardı.

Siz zaten aksiyonları yazmışsınız, bir şekilde doğal cihaz ömründen de cihazları yenilememiz gerekiyor stop etmeden önce.

'balık vermez, nasıl tutulabildiğine yönlendirir'
****************************************************************
Probleminiz Çözüldüğünde Sonucu Burada Paylaşırsanız. Sizde Aynı Problemi Yaşayanlar İçin Yardım Etmiş Olursunuz. Eğer sorununuz çözüldü ise lütfen "çözüldü" olarak işaretlerseniz diğer üyeler için çok büyük kolaylık sağlayacaktır.
*****************************************************************

 
Gönderildi : 29/07/2024 18:35

Paylaş: