Article
Incident Yönetimi: Prod Hata Sürecini Basitleştir
Prodüksiyon olaylarında bilgi dağınıklığı krizi büyütür. Alios'ta incident yönetimi ve prod hata sürecini node şablonu ve postmortem takibiyle nasıl kuracağınızı öğrenin.
Incident Yönetimi: Prod Hata Sürecini Basitleştir

Prodüksiyonda bir şey kırıldı. İlk beş dakikada şu sorular geliyor: Kim biliyor? Ne kırıldı? Kim bakıyor? Ne zamandır böyle? Müşteriler etkiliyor mu?
Bu soruların cevabı farklı kanallara dağılıyor. Slack'te panik mesajları, telefon görüşmeleri, ekranlar arasında koşuşturma. Kriz yönetilirken bilgi koordinasyonu da yapılıyor. İki iş aynı anda yürüyor, ikisi de kötü yürüyor.
Incident yönetimi kriz sırasında değil, kriz öncesinde kurulur. Olay başladığında sistem hazır olmalı.
Incident Sırasında Bilgi Neden Dağılıyor?
Prodüksiyon olaylarında koordinasyon sorununun üç kaynağı var.
Tek merkez yok. Bilgi Slack'e, e-postaya, telefon görüşmelerine dağılıyor. Kim ne buldu, kim ne denedi, ne zaman ne değişti — bunlar farklı yerlerde yaşıyor. Bir saat sonra "tam olarak ne oldu?" sorusu yanıtlanamıyor.
Roller belirsiz. Kriz sırasında herkes bir şeyler yapıyor ama kim incident lead, kim iletişimden sorumlu, kim teknik incelemede — bunlar net değil. Çakışmalar oluyor, bazı şeyler iki kez yapılıyor, bazıları hiç yapılmıyor.
Postmortem unutuluyor. Incident kapandı, herkes rahatladı, normal hayata döndü. Postmortem "bu hafta yazacağız" listesine girdi, unutuldu. Aynı incident üç ay sonra tekrarlandı.
Alios'ta Incident Node Şablonu
Her incident için anında bir node açılıyor. Bu node incident boyunca tek merkez — tüm bilgi, tüm kararlar, tüm timeline burada yaşıyor.
📌 INCIDENT — [Kısa tanım]
Durum: Aktif / Çözüldü / Postmortem Bekleniyor
Öncelik: Kritik / Yüksek
Başlangıç: [Tarih / Saat]
Çözüm: [Tarih / Saat — dolduğunda]
Incident Lead: [İsim]
İletişim Sorumlusu: [İsim]
Teknik Lead: [İsim]
🔴 ETKİ
Etkilenen sistem/özellik: [Ne çalışmıyor]
Etkilenen kullanıcı sayısı: [Tahmini]
İş etkisi: [Ödeme alınamıyor / Giriş yapılamıyor vb.]
Şiddet: [ ] P1 — Tam kesinti [ ] P2 — Kısmi etki
[ ] P3 — Degraded [ ] P4 — Minor
📋 TİMELINE
[Saat] — [Ne oldu / Ne fark edildi / Kim buldu]
[Saat] — [İlk müdahale adımı]
[Saat] — [Bulgu veya hipotez]
[Saat] — [Denenen çözüm]
[Saat] — [Çözüm bulundu / Uygulandı]
[Saat] — [Sistem normale döndü]
🔧 AKSİYONLAR
Aktif:
- [ ] [Aksiyon] — Sorumlu: [İsim] — Deadline: [Saat]
- [ ] [Aksiyon] — Sorumlu: [İsim] — Deadline: [Saat]
Tamamlanan:
- [x] [Aksiyon] — [İsim] — [Saat]
💬 İLETİŞİM
Müşteri bildirimi: [ ] Gönderildi — [Saat]
Ekip güncellemesi: [ ] Paylaşıldı — [Saat]
Status page: [ ] Güncellendi — [Saat]
🔍 ROOT CAUSE (dolduğunda)
Hipotez: [Ne neden oldu — ilk tahmin]
Doğrulanan root cause: [Kanıtlanmış sebep]
Tetikleyici: [Tam olarak ne tetikledi]Incident Sırasında Kullanım
Timeline alanı sürekli güncelleniyor. Her gelişme, her denenen çözüm, her bulgu zaman damgasıyla ekleniyor. Saat sonra "ne zaman ne oldu?" sorusu node'a bakılarak cevaplanıyor.
Aksiyonlar alanı coordination'ı sağlıyor. Kim ne yapıyor görünüyor, çakışma olmuyor, atlanan adım kalmıyor.
Postmortem Takibi
Incident kapandıktan sonra node "Postmortem Bekleniyor" durumuna geçiyor. 48 saat içinde postmortem yazılması standart haline getiriliyor.
📋 POSTMORTEM — [Incident başlığı]
ÖZET
Ne oldu, ne zaman, nasıl çözüldü — 3-4 cümle.
ETKİ
Süre: [X saat Y dakika]
Etkilenen kullanıcı: [N]
İş etkisi: [Tahmini]
ROOT CAUSE
[Doğrulanan root cause — teknik detayla]
NEDEN FARK EDİLMEDİ?
[Monitoring neden alarm vermedi, kim neden görmedi]
NEDEN BU KADAR SÜRDÜ?
[Çözüm süresini uzatan faktörler]
AKSIYON PLANI
Kısa vade (bu sprint):
- [ ] [Aksiyon] — Sorumlu: [İsim] — Deadline: [Tarih]
Orta vade (bu çeyrek):
- [ ] [Aksiyon] — Sorumlu: [İsim] — Deadline: [Tarih]
Uzun vade (roadmap'e alındı):
- [ ] [Aksiyon] — Node: [İlgili teknik borç node'u]
ÖĞRENME
[Bu incident'ten ekibin öğrendiği en önemli şey]
[Bir dahaki benzer durumda ne farklı yapılacak]Postmortem aksiyonları ayrı node'lar olarak açılıyor ve takip ediliyor. "Aksiyon alındı mı?" sorusu postmortem node'una bakılarak cevaplanıyor.
Son Düşünce
Incident yönetimi kriz anında kurulamaz. Şablon önceden hazır, roller önceden belirli, node önceden açılmaya hazır olmalı.
Alios'ta incident node şablonu bu hazırlığı sağlıyor. Kriz başladığında tek yapılan şey node'u kopyalayıp doldurmak. Bilgi dağılmıyor, coordination kaybolmuyor, postmortem unutulmuyor.