Article

Incident Yönetimi: Prod Hata Sürecini Basitleştir

Prodüksiyon olaylarında bilgi dağınıklığı krizi büyütür. Alios'ta incident yönetimi ve prod hata sürecini node şablonu ve postmortem takibiyle nasıl kuracağınızı öğrenin.

Incident Yönetimi: Prod Hata Sürecini Basitleştir

Prodüksiyonda bir şey kırıldı. İlk beş dakikada şu sorular geliyor: Kim biliyor? Ne kırıldı? Kim bakıyor? Ne zamandır böyle? Müşteriler etkiliyor mu?

Bu soruların cevabı farklı kanallara dağılıyor. Slack'te panik mesajları, telefon görüşmeleri, ekranlar arasında koşuşturma. Kriz yönetilirken bilgi koordinasyonu da yapılıyor. İki iş aynı anda yürüyor, ikisi de kötü yürüyor.

Incident yönetimi kriz sırasında değil, kriz öncesinde kurulur. Olay başladığında sistem hazır olmalı.

Incident Sırasında Bilgi Neden Dağılıyor?

Prodüksiyon olaylarında koordinasyon sorununun üç kaynağı var.

Tek merkez yok. Bilgi Slack'e, e-postaya, telefon görüşmelerine dağılıyor. Kim ne buldu, kim ne denedi, ne zaman ne değişti — bunlar farklı yerlerde yaşıyor. Bir saat sonra "tam olarak ne oldu?" sorusu yanıtlanamıyor.

Roller belirsiz. Kriz sırasında herkes bir şeyler yapıyor ama kim incident lead, kim iletişimden sorumlu, kim teknik incelemede — bunlar net değil. Çakışmalar oluyor, bazı şeyler iki kez yapılıyor, bazıları hiç yapılmıyor.

Postmortem unutuluyor. Incident kapandı, herkes rahatladı, normal hayata döndü. Postmortem "bu hafta yazacağız" listesine girdi, unutuldu. Aynı incident üç ay sonra tekrarlandı.

Alios'ta Incident Node Şablonu

Her incident için anında bir node açılıyor. Bu node incident boyunca tek merkez — tüm bilgi, tüm kararlar, tüm timeline burada yaşıyor.

📌 INCIDENT — [Kısa tanım]
Durum: Aktif / Çözüldü / Postmortem Bekleniyor
Öncelik: Kritik / Yüksek
Başlangıç: [Tarih / Saat]
Çözüm: [Tarih / Saat — dolduğunda]
Incident Lead: [İsim]
İletişim Sorumlusu: [İsim]
Teknik Lead: [İsim]


🔴 ETKİ

Etkilenen sistem/özellik: [Ne çalışmıyor]
Etkilenen kullanıcı sayısı: [Tahmini]
İş etkisi: [Ödeme alınamıyor / Giriş yapılamıyor vb.]
Şiddet: [ ] P1 — Tam kesinti  [ ] P2 — Kısmi etki
         [ ] P3 — Degraded   [ ] P4 — Minor


📋 TİMELINE

[Saat] — [Ne oldu / Ne fark edildi / Kim buldu]
[Saat] — [İlk müdahale adımı]
[Saat] — [Bulgu veya hipotez]
[Saat] — [Denenen çözüm]
[Saat] — [Çözüm bulundu / Uygulandı]
[Saat] — [Sistem normale döndü]


🔧 AKSİYONLAR

Aktif:
- [ ] [Aksiyon] — Sorumlu: [İsim] — Deadline: [Saat]
- [ ] [Aksiyon] — Sorumlu: [İsim] — Deadline: [Saat]

Tamamlanan:
- [x] [Aksiyon] — [İsim] — [Saat]


💬 İLETİŞİM

Müşteri bildirimi: [ ] Gönderildi — [Saat]
Ekip güncellemesi: [ ] Paylaşıldı — [Saat]
Status page: [ ] Güncellendi — [Saat]


🔍 ROOT CAUSE (dolduğunda)

Hipotez: [Ne neden oldu — ilk tahmin]
Doğrulanan root cause: [Kanıtlanmış sebep]
Tetikleyici: [Tam olarak ne tetikledi]

Incident Sırasında Kullanım

Timeline alanı sürekli güncelleniyor. Her gelişme, her denenen çözüm, her bulgu zaman damgasıyla ekleniyor. Saat sonra "ne zaman ne oldu?" sorusu node'a bakılarak cevaplanıyor.

Aksiyonlar alanı coordination'ı sağlıyor. Kim ne yapıyor görünüyor, çakışma olmuyor, atlanan adım kalmıyor.

Postmortem Takibi

Incident kapandıktan sonra node "Postmortem Bekleniyor" durumuna geçiyor. 48 saat içinde postmortem yazılması standart haline getiriliyor.

📋 POSTMORTEM — [Incident başlığı]


ÖZET
Ne oldu, ne zaman, nasıl çözüldü — 3-4 cümle.

ETKİ
Süre: [X saat Y dakika]
Etkilenen kullanıcı: [N]
İş etkisi: [Tahmini]

ROOT CAUSE
[Doğrulanan root cause — teknik detayla]

NEDEN FARK EDİLMEDİ?
[Monitoring neden alarm vermedi, kim neden görmedi]

NEDEN BU KADAR SÜRDÜ?
[Çözüm süresini uzatan faktörler]

AKSIYON PLANI

Kısa vade (bu sprint):
- [ ] [Aksiyon] — Sorumlu: [İsim] — Deadline: [Tarih]

Orta vade (bu çeyrek):
- [ ] [Aksiyon] — Sorumlu: [İsim] — Deadline: [Tarih]

Uzun vade (roadmap'e alındı):
- [ ] [Aksiyon] — Node: [İlgili teknik borç node'u]

ÖĞRENME
[Bu incident'ten ekibin öğrendiği en önemli şey]
[Bir dahaki benzer durumda ne farklı yapılacak]

Postmortem aksiyonları ayrı node'lar olarak açılıyor ve takip ediliyor. "Aksiyon alındı mı?" sorusu postmortem node'una bakılarak cevaplanıyor.

Son Düşünce

Incident yönetimi kriz anında kurulamaz. Şablon önceden hazır, roller önceden belirli, node önceden açılmaya hazır olmalı.

Alios'ta incident node şablonu bu hazırlığı sağlıyor. Kriz başladığında tek yapılan şey node'u kopyalayıp doldurmak. Bilgi dağılmıyor, coordination kaybolmuyor, postmortem unutulmuyor.

Incident Yönetimi: Prod Hata Sürecini Basitleştir

Incident Yönetimi: Prod Hata Sürecini Basitleştir

Incident Sırasında Bilgi Neden Dağılıyor?

Alios'ta Incident Node Şablonu

Incident Sırasında Kullanım

Postmortem Takibi

Son Düşünce

More articles

AI ile Incident Riski: Prod Hata Sürecini Tek Node'da Topla

AI Geliştirmede Dokümantasyon: Kararlar Slack'te Kaybolmasın

AI ile Roadmap Epik Task: Planı Koddan Önce Kur

AI Çağında Tek Sistem: Notion Jira Slack Yerine Alios