Runbook adımlarını uygulatmaya yardımcı AI ajanı tasarlama

Operasyon ekiplerinin en büyük kabusu nedir biliyor musun? Gece yarısı gelen bir alarm ve ardından onlarca sayfalık runbook dokümanını taramak zorunda kalmak. Runbook adımlarını uygulatmaya yardımcı bir AI ajanı tasarlamak, tam da bu sorunu çözmek için giderek popülerleşen bir yaklaşım. Peki böyle bir ajan nasıl kurgulanır, hangi bileşenlerden oluşur ve pratikte nelere dikkat etmek gerekir?

Bu yazıda, runbook otomasyonu için bir AI ajanı tasarlamanın temel adımlarını, mimari kararları ve sık yapılan hataları ele alacağız. Hem kavramsal çerçeveyi hem de uygulamaya dönük ipuçlarını bir arada bulacaksın.

Başlamadan Önce: Gerekenler

Bir AI ajanı tasarlamaya başlamadan önce bazı araçları ve ön koşulları netleştirmek işini kolaylaştırır. Eksik bir altyapıyla yola çıkmak, projenin ilerleyen aşamalarında ciddi geri dönüşlere neden olabilir.

Araçlar ve İhtiyaçlar

Bir LLM (Large Language Model) API erişimi veya self-hosted model altyapısı
Runbook dokümanlarının yapılandırılmış formatı (YAML, JSON veya Markdown)
Orchestration framework (LangChain, AutoGen, CrewAI gibi seçenekler değerlendirilebilir)
Hedef sistemlere erişim için API anahtarları veya CLI araçları
Loglama ve izleme altyapısı
Test ortamı (production’a dokunmadan önce mutlaka)

Ön Koşullar

Mevcut runbook’ların envanterinin çıkarılmış olması
Hangi adımların otomatize edilebileceğine dair bir ön analiz
Güvenlik ve yetkilendirme politikalarının belirlenmesi
Ekip içinde “human-in-the-loop” kararlarının netleştirilmesi
Temel prompt engineering bilgisi

Runbook Nedir ve Neden AI Ajanı?

Runbook, belirli bir operasyonel görevi veya sorunu çözmek için adım adım yazılmış prosedür dokümanıdır. Genelde IT operasyonları, DevOps ve SRE ekipleri tarafından kullanılır. Bir sunucu yeniden başlatma prosedürü, veritabanı yedekleme adımları veya bir servisin sağlık kontrolü tipik runbook örnekleridir.

Peki neden bir AI ajanı? Geleneksel otomasyon scriptleri belirli senaryolar için harika çalışır ama esneklikten yoksundur. Bir adım başarısız olduğunda veya beklenmedik bir durum ortaya çıktığında script genellikle durur. AI ajanı ise doğal dil anlama yeteneği sayesinde durumu yorumlayabilir, alternatif yollar önerebilir ve hatta operatöre sorular sorarak ilerleyebilir.

Kısa Tanım: Runbook AI ajanı, yazılı prosedürleri anlayan, adımları sırayla uygulayan veya uygulatılmasını koordine eden ve süreç boyunca karar desteği sunan bir yapay zeka sistemidir.

Nerede Kullanılır?

Incident response süreçlerinde ilk müdahale otomasyonu
Rutin bakım görevlerinin hızlandırılması
On-call mühendislere rehberlik sağlama
Yeni ekip üyelerinin eğitim sürecinde destek
Compliance ve audit gereksinimlerinin karşılanması

AI Ajanı Mimarisi: Temel Bileşenler

Bir runbook AI ajanı tasarlarken birkaç temel bileşeni doğru kurgulamak gerekir. Bu bileşenler birbirleriyle sürekli iletişim halinde çalışır ve ajanın “zekasını” oluşturur.

1) Runbook Parser

İlk adım, mevcut runbook dokümanlarını ajanın anlayabileceği bir formata dönüştürmektir. Eğer runbook’lar düz metin veya PDF formatındaysa, bunları yapılandırılmış bir şemaya çevirmek gerekir. YAML veya JSON formatı bu iş için oldukça uygun.

Örnek bir yapı şöyle olabilir:

step_id: Benzersiz adım tanımlayıcısı
description: Adımın ne yaptığının açıklaması
action_type: Manuel, otomatik veya yarı-otomatik
command: Çalıştırılacak komut (varsa)
success_criteria: Başarı koşulu
fallback: Başarısızlık durumunda ne yapılacağı

2) Planlama Modülü (Planner)

LLM tabanlı planlama modülü, runbook adımlarını analiz eder ve bir yürütme planı oluşturur. Bu modül, adımlar arasındaki bağımlılıkları anlar, paralel çalıştırılabilecek adımları tespit eder ve koşullu dallanmaları yönetir.

Pratikte en sık görülen hata, planlama modülüne çok fazla özerklik vermektir. Başlangıçta daha kısıtlı bir yaklaşım benimsemek ve ajanın sadece önceden tanımlı adımları takip etmesini sağlamak daha güvenlidir.

3) Executor (Yürütücü)

Executor, planlanan adımları gerçekten uygulayan bileşendir. Bu bileşen, hedef sistemlere bağlanır, komutları çalıştırır ve sonuçları toplar. Güvenlik açısından en kritik katman burasıdır.

Her komut çalıştırılmadan önce doğrulama yapılmalı
Tehlikeli komutlar için mutlaka onay mekanizması olmalı
Tüm işlemler detaylı şekilde loglanmalı
Timeout ve retry politikaları net tanımlanmalı

4) Gözlemci (Observer)

Her adımın sonucunu değerlendiren ve bir sonraki adıma geçilip geçilmeyeceğine karar veren bileşendir. LLM burada devreye girerek komut çıktılarını yorumlar. Örneğin, bir health check komutunun çıktısında “degraded” kelimesi geçiyorsa, ajanın bunu anlayıp uygun aksiyonu tetiklemesi beklenir.

Pro İpucu: Observer modülünde “belirsizlik eşiği” tanımla. Eğer LLM bir çıktıyı yorumlamakta zorlanıyorsa (confidence düşükse), otomatik olarak insan onayı iste. Bu, yanlış pozitif kararların önüne geçer.

Tasarım Sürecinde Adım Adım İlerleme

Şimdi tüm bu bileşenleri bir araya getirerek bir AI ajanı tasarlama sürecini adım adım inceleyelim.

1) Kapsam belirleme: Hangi runbook’larla başlayacağını seç. Genelde en sık kullanılan ve en az riskli olanlarla başlamak mantıklı. Örneğin, bir log temizleme prosedürü iyi bir başlangıç noktası olabilir.

2) Runbook’ları yapılandır: Seçtiğin runbook’ları makine tarafından okunabilir formata dönüştür. Her adımı ayrı ayrı tanımla, bağımlılıkları belirt ve başarı kriterlerini netleştir.

3) Prompt tasarımı: Ajanın her aşamada kullanacağı prompt’ları hazırla. Planlama, yürütme ve gözlem için ayrı prompt şablonları oluştur. Prompt’larda rol tanımı, bağlam bilgisi ve beklenen çıktı formatını net belirt.

4) Araç entegrasyonu: Ajanın kullanacağı araçları (tools) tanımla. SSH bağlantısı, API çağrıları, veritabanı sorguları gibi yetenekleri fonksiyon olarak sarmalayıp ajana sun.

5) Güvenlik katmanı: Hangi komutların otomatik çalıştırılabileceğini, hangilerinin onay gerektirdiğini belirle. Bir “allowlist” ve “blocklist” yaklaşımı genelde işe yarar.

6) Test döngüsü: Sandbox ortamında kapsamlı testler yap. Hem happy path hem de edge case senaryolarını dene. Ajanın beklenmedik durumlarda nasıl davrandığını gözlemle.

7) Kademeli devreye alma: Önce “gözlemci mod”da çalıştır; ajan ne yapacağını söylesin ama uygulamasın. Güven oluştukça yetkileri artır.

Mini Senaryo: Şu Durumda Ne Yaparsın?

Diyelim ki ajanın bir disk temizleme runbook’unu çalıştırıyorsun. Üçüncü adımda “eski log dosyalarını sil” komutu var ama komut çıktısında “permission denied” hatası dönüyor. İyi tasarlanmış bir ajan şunları yapmalı:

Hatayı tanımlayıp kategorize etmeli (yetki sorunu)
Runbook’taki fallback adımına bakmalı
Eğer fallback yoksa, operatöre bildirim göndermeli
Mevcut durumu ve önerilen aksiyonları özetlemeli
Operatörün kararını beklemeli veya alternatif yol önermeli

Yaygın Hatalar ve Kaçınılması Gerekenler

Runbook AI ajanı tasarlarken bazı hatalar tekrar tekrar karşımıza çıkar. Bunları önceden bilmek, projenin başarı şansını artırır.

Aşırı özerklik: Ajana çok fazla karar yetkisi vermek tehlikelidir. Özellikle başlangıçta “önce sor, sonra yap” prensibiyle ilerle.
Yetersiz loglama: Her adımı, her kararı ve her çıktıyı loglamak şart. Bir şeyler ters gittiğinde geriye dönük analiz yapabilmek için bu veriler kritik.
Tek LLM’e bağımlılık: LLM API’si yanıt vermezse ajanın tamamen durması kabul edilemez. Fallback mekanizmaları ve graceful degradation planla.
Context window sınırlarını görmezden gelmek: Uzun runbook’lar ve çok sayıda adım, LLM’in context limitini aşabilir. Chunking ve özetleme stratejileri geliştir.
Test eksikliği: “Çalışıyor gibi görünüyor” yeterli değil. Edge case’leri, hata senaryolarını ve race condition’ları mutlaka test et.

Kilit Çıkarım: Bir AI ajanı ne kadar akıllı olursa olsun, production ortamında insan gözetimi olmadan çalıştırmak risklidir. Human-in-the-loop yaklaşımını en azından kritik adımlarda koru.

Frequently Asked Questions

Runbook AI ajanı için hangi LLM’i kullanmalıyım?

Bu, kullanım senaryona ve bütçene bağlı. Genel amaçlı modeller (GPT-4, Claude gibi) çoğu senaryo için yeterli performans sunar. Eğer hassas verilerle çalışıyorsan, self-hosted açık kaynak modeller değerlendirilebilir. Önemli olan, seçtiğin modelin function calling veya tool use özelliklerini desteklemesi.

Mevcut runbook’larımı otomatik olarak yapılandırılmış formata çevirebilir miyim?

Evet, LLM’leri bu iş için de kullanabilirsin. Düz metin runbook’ları bir prompt ile YAML veya JSON formatına dönüştürmek mümkün. Ancak çıktıyı mutlaka manuel olarak doğrula; LLM bazen adımları yanlış yorumlayabilir veya kritik detayları atlayabilir.

AI ajanı production ortamında güvenli mi?

Güvenlik tamamen tasarımına bağlı. Doğru yetkilendirme, allowlist/blocklist mekanizmaları, onay akışları ve kapsamlı loglama ile güvenli bir sistem kurulabilir. Ancak hiçbir sistem yüzde yüz güvenli değildir; risk değerlendirmesi yapıp kabul edilebilir risk seviyesini belirlemen gerekir.

Küçük bir ekip olarak nereden başlamalıyız?

En basit ve en az riskli runbook’la başla. Örneğin, sadece bilgi toplayan (okuma yapan) bir prosedür iyi bir başlangıç noktası. Sistem üzerinde değişiklik yapmayan bir ajanla deneyim kazan, sonra kademeli olarak yetkileri artır.

Ajanın yanlış karar vermesi durumunda ne olur?

Bu yüzden rollback mekanizmaları ve checkpoint’ler kritik. Her önemli adımdan önce sistem durumunu kaydet. Yanlış bir işlem yapıldığında geri alabilecek altyapıyı kur. Ayrıca, kritik adımlarda insan onayı zorunlu tutmak bu riski minimize eder.

Sonuç: Adım Adım İlerle, Güvenle Ölçekle

Runbook adımlarını uygulatmaya yardımcı bir AI ajanı tasarlamak, operasyon ekiplerinin verimliliğini ciddi şekilde artırabilir. Gece yarısı alarmlarına daha hızlı müdahale, daha az insan hatası ve tutarlı prosedür uygulaması bu yaklaşımın başlıca faydaları arasında. Ancak başarılı bir implementasyon için doğru mimari kararlar, güvenlik önlemleri ve kademeli devreye alma stratejisi şart.

Küçük başla, sık test et ve her adımda güvenliği ön planda tut. Bu prensipleri takip ederek, ekibinin iş yükünü hafifleten ve güvenilir şekilde çalışan bir AI ajanı oluşturabilirsin. Şimdi mevcut runbook envanterini gözden geçirip ilk adayı belirlemenin tam zamanı.