Facebook’ta Çalışan Türk Mühendis Çöküş Gecesini Anlattı

Facebook’ta Çalışan Türk Mühendis Çöküş Gecesini Anlattı

HaberAbi 06 Eki 2021 İnternet 29  0

ÖZEL HABER – Dünyanın en güçlü şirketlerinden Facebook, tarihin en büyük internet krizini yaşadığında milyarlarca insan bağlantıdan mahrum kaldı. Yaklaşık 8 saat süren kesinti sebebi ile şirket 60 milyon dolar ziyan etti. Bu sayı gözünüze büyük görünebilir elbette, fakat okyanusun tabanına kendi internet çizgisini döşeyen, yılda 30 milyar dolara yakın para kazanan bir şirket için devede kulak kalıyor.

Pekala o gece ne oldu, ne oldu da bir anda Facebook internetin altyapısından silindi, nasıl oldu da mühendisleri -adeta bir mağara adamı gibi- kendi şirketlerinin müdafaa kalkanlarını kesmek zorunda kaldı? Bundan 7 ay evvel Uber’den Facebook’a Kıdemli Yazılım Mühendisi olarak transfer olan Eren Algan çöküş gecesi yaşananları Webtekno’ya anlattı.

Facebook, Instagram, WhatsApp ve Oculus neden çöktü? Başlamadan evvel bilmeniz gereken iki kavram var: BGP ve DNS

  • BGP (Border Gateway Protocol): Kısaca ‘internetin posta servisi’ diyebiliriz. WhatsApp’tan bir ileti göndermek istediğinizde bu bilgiyi en hızlı/verimli biçimde karşıdaki şahsa göndermek için çalışır.
  • DNS (Domain Name System): Kısaca ‘internetin telefon rehberi’ diyebiliriz. Tarayıcıya “facebook.com” yazdığınızda bu adresin hangi IP’ye (bir nevi kimlik numarasına) sahip olduğunu söyleyen sistemdir.

Eren Algan, “Herhangi bir internet adresine ulaşabilmeniz için bu iki sistem de gereklidir. DNS, size yazdığınız karakterlerin hangi IP’ye ilişkin olduğunu söylerken, sizin bulunduğunuz ağdan gitmek istediğiniz ağa en süratli biçimde nasıl gideceğinizi söyleyen sistem ise BGP’dir.” diyor. Kolay bir örnekle anlatalım: WhatsApp’a girdiniz arama kutusuna bir kişinin ismini yazdınız; sonuçlar karşınıza geldi ve kişi ismi telefon numarası/profili ile eşleşti (DNS). Kişiyi aradınız, komut bilgisi evvel size en yakın baz istasyonuna, akabinde en yakın uydu ve karşıdaki bireye en yakın baz istasyonuna son olarak telefonuna ulaştı (BGP).

Sonun başlangıcı: Yalnızca bir mühendis ve bir yanılgılı komut!

Şirketi Facebook hakkında “Kendi bilgi süreç merkezleri (data center’ları) olan, devasa bir ağ yapısına sahip bir kurum” diyen Eren Algan “Hatta ve hatta Pasifik Okyanusu’nun altindan kendi fiber optik kablolarini geçiren muazzam boyutta bir şirketten kelam ediyoruz. Bütün bu kablolu ağlar ise Facebook’un ‘backbone network’ ismini verdiği bir kablolama sistemi üzerinden geçiyor.” diyor.

Yani çoğunlukla kablosuz olarak ilişki kurduğumuz Facebook, aslında internetin tabiatı gereği tüm sistemlerini kablolara borçlu. Dolayısı ile şirket, bu kablolu altyapıya sistemli olarak bakım yapması gerekiyor, yalnızca bu işle ilgilenen mühendislik grupları sistemli olarak testler gerçekleştiriyor.

“4 Ekim’de rutin bir ‘backbone’ bakım süreci sırasında bir mühendis, bu ağın ne kadar kapasitesinin olduğunu anlamak için bir komut çalıştırdı. Sonun başlangıcı olan bu komut, istenmeyen bir biçimde ‘backbone’ ağının bütün irtibatlarını alaşağı etti; Facebook’u bütün bilgi süreç merkezlerini çevrimdışı hale getirdi.

Talihsizlikler serüveni devam ediyor: Eren, Facebook’un internetten -gerçek anlamda- yok olduğu o anı şöyle anlattı

Facebook sistemlerinin olağanda bu biçim yanılgıları engellemek üzerine şurası olduğunu söyleyen Eren Algan; “Ancak talihsizlik olacak ki bu yanlışları anlamak için geliştirilen yazılımda da bir yanılgı meydana geldi, bu nedenle mühendisin girdiği yanlışlı komut durdurulamadı. Sonucunda Facebook’un bilgi süreç merkezleri ile internet ortasındaki bağ koptu.” diyor:

“Facebook’un DNS sunucuları; şayet kendi bilgi süreç merkezlerine ulaşamazsa, kendilerini ‘ulaşılamaz/hatalı’ olarak işaretliyor, durumu posta servisine (BGP’ye) bildiriyor. Çöküş gecesi ise DNS sunucuları ‘Biz meskende yokuz, hatta konut bile yok’ manasına gelen kusur verdi.”

Facebook’un bir anda çağlar öncesine dönüşü: Spiral testereyle sunucu kapılarını kesip, bir hırsız üzere kendi şirketine girmek…

Facebook ve bağlı tüm uygulamalarında bir sorun olduğunu anlayan çabucak mühendislerin işe koyulduğunu söyleyen Eren Algan “Hiç de beğenilen olmayan başka bir sürprizle karşılaştılar. Bütün bilgi süreç merkezleri çevrimdışı olduğu için hiç kimsenin internet üzerinden müdahale etme ihtimali yoktu.” diyor. Yani dünyanın en büyük internet şirketlerinden Facebook’un çalışanları, yeryüzünde internet varken “internetsiz” kalıyor.

“Tek yapılabilecek şey, fiziki olarak bilgi süreç merkezlerine gidip, DNS sunucularını ayağa kaldırmak olacaktı. Olağan ki de bu o kadar kolay değildi. Facebook, hacker’lar bilgi süreç merkezlerine girmesinler diye ekstra güvenlik tedbirleri almıştı. Mühendisler bu bilgisayarlara ulaşmak için spiral testere makinesi alip adeta bir hırsız üzere kendi şirketlerinin fiziki güvenlik manilerini kesmek zorunda kaldılar.”

Her şey olağana dönse de problemler bitmedi:

Mühendislerin kendi şirketlerine hırsız üzere girip yanlışlı komutu düzelttikten sonra sistemi ayağa kaldırdıklarını söyleyen Eren Algan “Tabii ki meseleler bununla bitmedi. Bütün sistemleri bir anda açmak, bu boyuttaki şirketler için hiçbir vakit hakikat tahlil olamaz. Sistemler ayağa kaldırıldığında bilgisayarlarda çok fazla yük olacağı için, bu sistemlerin aşikâr siralarla ve muhakkak kapasitelerle ayağa kaldırılması gerekir.” diyor ve WhatsApp’ın neden yalnızca bir adet ampul üzere açma-kapama anahtarına sahip olmadığını anlıyoruz.

“Facebook, bu üzere muhtemel sorunları evvelce öngördüğü için ‘storm drills’ denilen ve muhtemel bir felaket durumunda sistemlerin nasıl davranacağını test ettikleri bir protokole sahiptir. Bu durumda da sistemler muhakkak bir sırayla ve kapasiteyle ayağa kaldırmayı başardılar. Yaklaşık 5 saati geçen hummali çalışmanın sonunda Facebook, Instagram, WhatsApp, Oculus uygulamalarına erişim sağlandı :)”

“Ben 4 Ekim’de ofise gittiğimde içeride kullanılan ağa ulaşım sağlanamıyordu. Hatta ve hatta yazıcılar bile çalışmıyordu. İçerideki haberleşme sistemleri çalışmayınca, olaylardan haberimizin olması bile çok sonradan oldu.”

Artık herkesin aklındaki soruyu cevaplamaya geldi sıra… O yanlışlı komutu yazan, Facebook’a 67 milyon dolar kaybettiren o mühendise n’oldu?

“Hiç bir şey olmadı, olmaz da. Facebook üzere şirketler bu türlü kusurlara öğrenme fırsatı olarak bakarlar ve sistemlerini geliştirmek için post-mortem (otopsi) yaparlar. Genelde bu türlü yanılgılar yüzünden beşerler kovulmazlar. O beşerler için mesleklerinde unutulmaz bir öykü, Facebook için ise çok değerliye mal olmuş bir yanılgı olur.”

İçeriğe verdiği dayanak için Eren Algan’a teşekkür ederiz, kendisinin LinkedIn hesabına buradan, Instagram hesabına da buradan ulaşabilirsiniz.

Facebook’un çöküş gecesinde yaşananları aşağıdaki videomuzdan da öğrenebilirsiniz:

O gece yaşananlara ait öbür haberlerimiz:

Mercedes F1 Takımı, Türk Bayrağını Hatalı Çizdi
Mercedes F1 Takımı, Türk Bayrağını Hatalı Çizdi
İBB, Gaz Borularını Denetleyecek Robot Üretimine Başladı
İBB, Gaz Borularını Denetleyecek Robot Üretimine Başladı
Facebook’un Çöktüğü Gece Türk Telekom’a Ne Olduğu Açıklandı
Facebook’un Çöktüğü Gece Türk Telekom’a Ne Olduğu Açıklandı
Webrazzi, Teknoloji Sitesi Tech.eu'yu Satın Aldı
Webrazzi, Teknoloji Sitesi Tech.eu’yu Satın Aldı

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

This site uses Akismet to reduce spam. Learn how your comment data is processed.