Cloudflare Kasım Ayında Log Kaybına Neden Olan Büyük Bir Olay Yaşadı

Cloudflare, 14 Kasım 2024 tarihinde yaşanan büyük bir olayı doğruladı. Bu olayda, 3,5 saatlik bir süre boyunca Cloudflare Logs’un %55’inin kaybolmasına neden oldu. Olay, hizmeti kullanan çoğu müşteriyi etkiledi. Yanlış yapılandırılan bir sistem, zincirleme bir arıza serisini tetikledi ve beklenmedik talep artışlarını yönetmede zayıflıkları ortaya çıkardı. Cloudflare’ın operasyonel ekibi, bu olayın sebeplerini ve gelecekte alacakları önlemleri detaylı bir şekilde paylaştı.

Cloudflare, günlük yaklaşık 4,5 trilyon olay kaydını müşterilerine gönderiyor. Bu, toplamda işlenen 50 trilyon olay kaydının %10’undan daha azını oluşturuyor. Ancak yine de ölçeklenebilir ve güvenli bir sistem kurmayı zorlaştırıyor.

Cloudflare, log verilerini dünya çapında 330 şehirdeki on binlerce sunucudan gönderebilmek için Logpush adlı bir hizmet geliştirdi. Bu hizmet, logları otomatik olarak ölçeklendiren ve tahmin edilebilir dosya boyutlarıyla yedekleyen bir çözüm sundu. Ancak, 14 Kasım’daki olayda, Logpush ile ilgili yapılan bir değişiklik, yeni verileri desteklemek amacıyla ek bir yapılandırma eklemeyi gerektiriyordu. Bu yapılandırma hatalı oldu ve Logfwdr’a boş bir yapılandırma sağlandı.

Hatalı yapılandırma, yaklaşık 5 dakika içinde geri alındı. Fakat bu değişiklik Logfwdr’da ikinci bir hata tetikledi ve bu da Buftee sisteminin yanıt veremez hale gelmesine yol açtı. Sonuç olarak, Buftee sisteminin yanlış yapılandırılmasından iyileşmek Cloudflare’ı saatlerce meşgul etti.

Olaydan ders çıkaran Cloudflare ekibi, benzer hataların tekrarını engellemek için sistemlerinde daha fazla uyarı mekanizması ekleyeceklerini duyurdu. Ancak, hata ve yanlış yapılandırmaların kaçınılmaz olduğunu kabul ediyorlar. Şirket, tüm sistemlerinin böyle bir sorunla karşılaştığında tahmin edilebilir ve sorunsuz bir şekilde yanıt verecek şekilde tasarlanmasını amaçlıyor.

Exit mobile version