Ajan otomasyonunda maliyet bütçesi cost budget nasıl kurgulanır

Başlamadan Önce: Maliyet Bütçesi Neden Kritik?

Bir yapay zeka ajanı geliştirdiniz, harika çalışıyor, ama ay sonunda gelen fatura sizi şoke etti. Tanıdık geldi mi? Ajan otomasyonunda maliyet bütçesi kurgulamak, projenizin sürdürülebilirliği için teknik mimari kadar önemli. Token bazlı fiyatlandırma modelleri, kontrolsüz bırakıldığında bütçenizi birkaç saat içinde eritebilir.

Kilit Çıkarım: Güncel API fiyatlandırmalarına bakıldığında, örneğin OpenAI’ın GPT-4o modeli milyon token başına 2.50-10 dolar arasında, Claude 3.5 Sonnet ise milyon input token başına yaklaşık 3 dolar civarında seyrediyor. Bir ajan döngüsü onlarca API çağrısı yapabildiğinden, maliyet hızla tırmanır.

Gerekenler ve Ön Koşullar

Gerekenler:

Kullandığınız LLM sağlayıcısının API dashboard erişimi
Token sayacı veya kullanım izleme aracı
Bütçe limiti belirleme yetkisi (organizasyonel)
Temel prompt mühendisliği bilgisi

Ön Koşullar:

Ajanınızın ortalama görev başına kaç API çağrısı yaptığını bilmek
Aylık/haftalık kullanım projeksiyonu çıkarmış olmak
Hangi görevlerin yüksek token tükettiğini tespit etmek

Adım Adım: Maliyet Bütçesi Kurulumu

Baseline Ölçümü Yap: Ajanını 24-48 saat boyunca tipik iş yüküyle çalıştır. Her API çağrısındaki input/output token sayısını logla. Bu veri olmadan bütçe belirlemek tahmin yapmaktan öteye geçmez.
Görev Bazlı Maliyet Haritası Çıkar: Her ajan görevi için ortalama token tüketimini hesapla. Örneğin: “Müşteri e-postası yanıtlama = ~2.000 token”, “Rapor özeti çıkarma = ~8.000 token” gibi. Bu harita, hangi işlemlerin bütçeyi zorladığını gösterir.
Hard Limit ve Soft Limit Belirle: Soft limit (uyarı eşiği) bütçenin %70-80’inde tetiklenmeli. Hard limit ise kesin durma noktası. Çoğu API sağlayıcısı (OpenAI, Azure, Google Cloud) dashboard üzerinden bu limitleri ayarlamana izin verir.
Rate Limiting Uygula: Dakika/saat başına maksimum istek sayısı koy. Bu hem maliyeti kontrol eder hem de API kotalarını aşmayı engeller. Pratikte en sık görülen hata: Rate limit koymadan production’a çıkmak.
Fallback Stratejisi Kurgula: Bütçe limitine yaklaşıldığında daha ucuz bir modele (örneğin GPT-4o’dan GPT-4o-mini’ye) otomatik geçiş yapacak mantık ekle. Kalite biraz düşer ama sistem çalışmaya devam eder.
Günlük/Haftalık Raporlama Kur: Otomatik maliyet raporu oluşturan bir sistem entegre et. Slack, e-posta veya dashboard bildirimleri ile ekibi bilgilendir.

Pro İpucu: Token tüketimini azaltmanın en etkili yolu prompt optimizasyonu. Gereksiz sistem promptlarını kısalt, few-shot örneklerini minimize et. Testlerde, iyi optimize edilmiş bir prompt %30-50 token tasarrufu sağlayabiliyor.

Maliyet Kontrol Stratejileri

Token Optimizasyonu

Ajanlar genellikle her döngüde tüm conversation history’yi gönderir. Bu, context window dolana kadar maliyetin katlanarak artması demek. Çözüm: Sliding window yaklaşımı kullan, sadece son N mesajı veya özetlenmiş geçmişi gönder.

Strateji	Potansiyel Tasarruf	Uygulama Zorluğu	Risk
Prompt kısaltma	%20-40	Düşük	Düşük
Context window yönetimi	%30-60	Orta	Orta
Model downgrade (fallback)	%50-80	Düşük	Kalite kaybı
Caching (aynı sorgular)	%10-30	Orta	Düşük
Batch processing	%20-50	Yüksek	Gecikme

Akıllı Routing

Her görev en pahalı modeli gerektirmez. Basit sınıflandırma işleri için küçük modeller, karmaşık reasoning için büyük modeller kullan. Bu “model routing” yaklaşımı, enterprise sistemlerde standart hale geldi.

Caching Mekanizması

Sık tekrarlanan sorgular için response cache’i kur. Özellikle FAQ tarzı sorularda veya standart işlemlerde dramatik tasarruf sağlar. Redis veya basit bir in-memory cache bile işe yarar.

Yaygın Hatalar ve Kaçınılması Gerekenler

Limitsiz test ortamı: Development’ta bile limit koy. Bir bug sonsuz döngüye girerse, sabaha kadar binlerce dolar harcayabilir.
Retry logic’te exponential backoff unutmak: API hatası alındığında agresif retry, hem maliyeti artırır hem de rate limit’e takılmanıza neden olur.
Tüm logları LLM’e göndermek: Debug için uzun log dosyalarını context’e eklemek, token tüketimini patlatır. Önce filtrele, sonra gönder.
Streaming maliyetini göz ardı etmek: Streaming response kullanıyorsan, yarıda kesilen isteklerin de ücretlendirildiğini unutma.

Şu Durumda Ne Yaparsın?

Senaryo: Ajan beklenenden 5 kat fazla token harcıyor ve nedenini bulamıyorsun.

İlk adım: Her API çağrısını detaylı logla (input token, output token, timestamp, görev tipi). İkinci adım: En yüksek tüketen çağrıları izole et. Genellikle suçlu, şişirilmiş system prompt veya gereksiz tool çağrılarıdır. Üçüncü adım: A/B test yap — aynı görevi farklı prompt versiyonlarıyla çalıştır, token farkını ölç.

Bütçe Planlama Şablonu

Pratik bir başlangıç için şu formülü kullanabilirsiniz:

Aylık Bütçe = (Ortalama görev başına token) × (Günlük görev sayısı) × 30 × (Token fiyatı) × 1.3

Sondaki 1.3 çarpanı, beklenmedik spike’lar için güvenlik marjı. İlk aydan sonra gerçek verilerle bu formülü kalibre edin.

Maliyet Örneği: Günde 500 görev, görev başına ortalama 3.000 token (input+output), GPT-4o kullanımı varsayımıyla:

Günlük token: 1.5M token
Aylık token: ~45M token
Tahmini maliyet: 150-450 dolar/ay (model ve fiyatlandırma tier’ına göre değişir)

Sıkça Sorulan Sorular

Input ve output token fiyatı neden farklı?
Output token üretmek, modelin inference yapması gerektiğinden daha fazla hesaplama gücü tüketir. Bu yüzden çoğu sağlayıcıda output token 2-4 kat daha pahalıdır. Ajanınızın uzun yanıtlar üretmesini engellemek, doğrudan maliyet düşürür.

Batch API kullanmak ne kadar tasarruf sağlar?
Azure ve OpenAI’ın batch API’leri genellikle %50’ye varan indirim sunuyor. Ancak yanıt süresi uzar (saatler alabilir). Gerçek zamanlı olmayan işlemler için ideal.

Açık kaynak modeller maliyet açısından mantıklı mı?
Kendi sunucunuzda çalıştırırsanız API maliyeti sıfır, ama GPU/sunucu maliyeti devreye girer. Yüksek hacimli kullanımda (ayda milyonlarca istek) açık kaynak daha ekonomik olabilir. Düşük hacimde API genellikle daha pratik.

Özetle

AI ajan otomasyonunda maliyet bütçesi kurgulamak, reaktif değil proaktif bir süreç olmalı. Temel adımlar:

Baseline ölçümü yaparak gerçek tüketimi öğren
Hard ve soft limitler belirle, dashboard’dan aktif et
Token optimizasyonu ve akıllı model routing uygula
Fallback stratejisi ile sistemin çökmesini engelle
Düzenli raporlama ile sürprizlerden kaçın

Unutma: En pahalı ajan, kontrolsüz çalışan ajandır. Bütçe limitleri sadece para tasarrufu değil, aynı zamanda sistemin öngörülebilir ve güvenilir çalışmasının garantisidir.