Bugünkü yazımızda belkide bir veri tabanı yöneticisinin görmek isteyeceği son şey olan ” Node Eviction ” konusunu işleyeceğiz.
Eviction, Türkçeleştirirsek tahliye Oracle Cluster için tasarlanmış bir mekanizma / süreç teknolojisidir. Bu teknoloji cluster içerisinde bulunan ve kritik sorunları olan yada olmayan Node’ları tutarlılık ve genel cluster işleyişini bozmamak için yapıdan ayırır. Örneğin , bir cluster üzerinde herhangi bir node asılı kalır yada farklı sebeplerden erişilemediğini düşünürse Eviction tarafından ilgili Node kendisini cluster yapısından ayrılacak ve bu problemli görünen node için hızlı bir yeniden başlatma gerçekleşecektir.
Bu süreç LMON tarafından ” ORA-29740 evicted by instance number ” hatası ile kayıtlara geçer.
Temel Sebepleri aşağıdaki gibidir ve farklı vakalara göre güncellenebilir.
- Network problemleri
- Memory ( ram ,swap vb. ) problemleri
- İşlemcide oluşabilecek aşırı ve uzun süreli yük
- Bug 16876500 & Bug 14385860
Problemin giderilmesi için bakılacak kayıtlar
- Tüm instance Alert Log kayıtları ( cluster alert.log, asm alert.log )
- Ocssd.logs geçmişi
- LMON, LMSn, LMD0 geçmişi
- OSWatcher günlükleri
- İşletim sistemi günlükleri ( /var/log/messages )
Konuyu biraz daha açmak gerekirse, Node’lar arasında network kaynaklı olarak bir iletişim hatası meydana geldiğinde yada inviction işlemine mağruz kalacak Node heartbeat bilgilerini CFVRR üzerine yazamadığında , node üzerindeki Cluster olası veri bozulmasının önüne geçmek için yukarıda bahsettiğimiz tahliye işlemini gerçekleştirir. Tüm bu süreçlerin otomatikleşmesinden ise IMR sorumludur.
- Instance Membership Recovery ( IMR ) , tüm cluster üyelerinin düzeninden sorumludur ve aynı zamanda Cluster Group Services yapısının bir parçasıdır.
İlk başta söz ettiğimiz gibi bu süreç problem algılanan Node ‘un yeniden başlaması ile sonuçlanır.
Tekrar görüşmek dileğiyle,