Bullbahis Bullbahis Network cluster_state: healthy

runbook · observability

Bullbahis Observability Cluster için OpenTelemetry Tabanlı Veri Akış Mimarisi

Bu teknik raporda, Bullbahis Observability Cluster üzerinde uçtan uca telemetri akışının nasıl kurgulandığını, sinyal sıkıştırma, mTLS yetkilendirme, servis mesh entegrasyonu ve yeni link mimarisi başlıkları altında ele alıyoruz.

Bullbahis Konsoluna Git

Bullbahis Edge Cluster için OpenTelemetry Tabanlı Veri Toplama

OpenTelemetry Collector, Bullbahis Edge Cluster düğümlerinde DaemonSet olarak konuşlandırılır. Toplayıcı, OTLP/gRPC üzerinden gelen metric, log ve trace sinyallerini batch processor ile sıkıştırıp tail-based sampling kuralları doğrultusunda merkezi backend tarafına iletir. Bu yapı, uygulama tarafında ek bir agent kurulumunu gereksiz kılar; her servisin OpenTelemetry SDK'sını konuşması yeterli olur. Aynı pipeline, Prometheus remote-write uçnoktasıyla da paralel beslenir, böylece klasik metrik dünyası ile dağıtılmış izleme dünyası tek havuzda buluşur.

Bullbahis tarafında uygulanan örnekleme stratejisi, hata yolundaki span'lerin tamamını koruyarak başarılı yolların sınırlı bir kesitini saklar. Tail-based sampling kararları, kuyruk derinliği ve servis mesh latans dağılımı dikkate alınarak dinamik biçimde yenilenir; bu sayede yüksek trafik tepelerinde bile gözlem maliyeti makul bir bandda tutulur.

Batch ve Tail-Based Sampling Yapılandırması

Batch processor üzerinde send_batch_size: 1024 ve timeout: 5s parametreleri kuyruk büyümesi ile uçuş süresi arasında dengeyi kurar. Tail-based sampling tarafında ise error: true bayrağı ile latency.threshold_ms: 800 koşulları aynı anda tetiklendiğinde izleme tam çözünürlükle kaydedilir.

Bullbahis Konsoluna Güncel Erişim ve mTLS Tabanlı Yetkilendirme

Operatör ekipleri, Bullbahis konsoluna erişim için kısa ömürlü sertifikalar üzerinden mTLS akışı kullanır. Konsolun güncel adresi service catalog'dan dinamik olarak çözüldüğü için statik bir endpoint duyurusuna ihtiyaç kalmaz; istemci tarafı SDK, en uygun bölgesel uç noktayı seçip kararlı bir oturum kurar. SPIFFE ID temelli kimlik, her isteğin hangi iş yükü adına yapıldığını kanıtlar ve cert-manager tarafından üretilen sertifikaların ömrü yirmi dakika ile sınırlandırılır.

Kısa ömürlü kimlikler, herhangi bir credential sızması durumunda saldırı yüzeyini doğal olarak daraltır; rotasyon manuel müdahale gerektirmeden çalışır.

Cert TTL

20 dakika · cert-manager rotasyonu otomatik

Identity

SPIFFE/SVID tabanlı, workload bazlı oturum

mTLS Mode

STRICT · plaintext fallback kapalı

Endpoint Discovery

Service catalog · DNS yanıtsız bırakılmaz

Servis Mesh Üzerinde Anomali Tespiti ve Trace Korelasyonu

Istio veri düzlemi, gelen-giden tüm trafiği envoy proxy'ler aracılığıyla şeffaf biçimde izler. Bu sinyaller OpenTelemetry tarafına yönlendirildiğinde, p50 / p95 / p99 latans dağılımları gerçek zamanlı bir anomali tespit motoruyla karşılaştırılır. EWMA tabanlı taban çizgisi her servis için on beş dakikalık kayan pencere üzerinden hesaplanır; sapma katsayısı 2.5 standart sapmayı aştığında alarm akışı tetiklenir.

Trace korelasyonu sayesinde alarm yalnızca etkilenen üst zincir servislere bağlanır ve yanlış pozitif gürültüsü minimize edilir. Aynı korelasyon kimliği, log toplayıcısı tarafına da aktarıldığı için bir uyarıdan ilgili servisin son bin günlük satırına tek tıkla geçilebilir.

  1. Envoy access log → OTel Collector receiver kanalına aktarılır.
  2. Tail-based sampling, hata ve latans tabanlı koşulları değerlendirir.
  3. Korelasyon kimliği aynı trace'in metric, log ve span örneklerine işlenir.
  4. EWMA tabanlı tespit motoru, sapma katsayısını gerçek zamanlı hesaplar.
  5. Alarm yalnızca üst zincir servislere yönlendirilir, gürültü filtrelenir.

EWMA Pencere Boyutu Seçimi

Yüksek frekanslı trafiğin görülmediği gece saatlerinde otuz dakikalık pencere daha kararlı sonuç verirken, gündüz tepe saatlerinde on beş dakikalık pencere ani değişimleri daha hızlı yakalar. Pencere boyutu, ConfigMap üzerinden her ortam için ayrı tanımlanır ve hot-reload mekanizmasıyla yeniden yükleme olmadan devreye alınır.

Bullbahis 2026 Sürüm Notları: Yeni Link Mimarisi ve GitOps Akışı

2026 sürüm hattı, Bullbahis platformunda iki yapısal değişikliği beraberinde getirdi. İlki, ingress katmanında BGP anycast yönlendirmesinin etkinleştirilmesidir; bu sayede coğrafi yakınlık temelli yeni link mimarisi, isteği en düşük RTT'ye sahip uç düğüme yönlendirir. İkinci yenilik, GitOps akışının ArgoCD Image Updater ile birleştirilmesidir; container imajları imzalı manifest dosyaları üzerinden cluster'a otomatik nakledilir.

Bölge Endpoint RTT (ms) Durum
eu-tr-1 edge-01.bullbahis.svc 62 primary
eu-tr-2 edge-02.bullbahis.svc 74 primary
eu-de-1 edge-03.bullbahis.svc 110 failover
eu-nl-1 edge-04.bullbahis.svc 118 failover

SLO/SLA Hata Bütçesi ve Sürekli İyileştirme Döngüsü

Üretim ortamında her servis kendi SLO tablosuna sahiptir. Bullbahis ekibinin temel SLI metrikleri arasında istek başarı oranı, p95 yanıt süresi ve istemci tarafı hata oranı yer alır. Hata bütçesi üç aylık dönem üzerinden hesaplanır ve dağılımına göre özellik geliştirme hızı ile güvenilirlik çalışmaları arasındaki denge belirlenir. Bütçe tükenmeye başladığında otomatik olarak feature freeze tetiklenir; mühendislik ekibi geriye dönük analiz yaparak köke ulaşana kadar yeni dağıtıma ara verir.

Bullbahis Observability Cluster, OpenTelemetry, servis mesh, mTLS ve GitOps katmanlarının uyumlu çalışmasıyla modern Kubernetes ortamlarında veri görünürlüğünün ulaşabileceği üst seviyeyi temsil eder. Doğru sampling stratejisi, anlamlı SLO seçimi ve hata bütçesine dayalı süreç, platformun uzun vadeli güvenilirliğini sürdürmesine zemin hazırlar.

Yazar

Görkem Aktaş

SRE Mühendisi

Yayıncı

Bullbahis Network

Observability & Reliability

Kapsam

OpenTelemetry · Service Mesh · GitOps · SLO

Doküman

Evergreen runbook · sürüm bağımsız