Yapay Zeka - AI

Ajan otomasyonunda maliyet bütçesi cost budget nasıl kurgulanır

By Eylül

March 29, 2026

Başlamadan Önce: Maliyet Bütçesi Neden Kritik?

Bir yapay zeka ajanı geliştirdiniz, harika çalışıyor, ama ay sonunda gelen fatura sizi şoke etti. Tanıdık geldi mi? Ajan otomasyonunda maliyet bütçesi kurgulamak, projenizin sürdürülebilirliği için teknik mimari kadar önemli. Token bazlı fiyatlandırma modelleri, kontrolsüz bırakıldığında bütçenizi birkaç saat içinde eritebilir.

Kilit Çıkarım: Güncel API fiyatlandırmalarına bakıldığında, örneğin OpenAI’ın GPT-4o modeli milyon token başına 2.50-10 dolar arasında, Claude 3.5 Sonnet ise milyon input token başına yaklaşık 3 dolar civarında seyrediyor. Bir ajan döngüsü onlarca API çağrısı yapabildiğinden, maliyet hızla tırmanır.

Gerekenler ve Ön Koşullar

Gerekenler:

Ön Koşullar:

Adım Adım: Maliyet Bütçesi Kurulumu

  1. Baseline Ölçümü Yap: Ajanını 24-48 saat boyunca tipik iş yüküyle çalıştır. Her API çağrısındaki input/output token sayısını logla. Bu veri olmadan bütçe belirlemek tahmin yapmaktan öteye geçmez.
  2. Görev Bazlı Maliyet Haritası Çıkar: Her ajan görevi için ortalama token tüketimini hesapla. Örneğin: “Müşteri e-postası yanıtlama = ~2.000 token”, “Rapor özeti çıkarma = ~8.000 token” gibi. Bu harita, hangi işlemlerin bütçeyi zorladığını gösterir.
  3. Hard Limit ve Soft Limit Belirle: Soft limit (uyarı eşiği) bütçenin %70-80’inde tetiklenmeli. Hard limit ise kesin durma noktası. Çoğu API sağlayıcısı (OpenAI, Azure, Google Cloud) dashboard üzerinden bu limitleri ayarlamana izin verir.
  4. Rate Limiting Uygula: Dakika/saat başına maksimum istek sayısı koy. Bu hem maliyeti kontrol eder hem de API kotalarını aşmayı engeller. Pratikte en sık görülen hata: Rate limit koymadan production’a çıkmak.
  5. Fallback Stratejisi Kurgula: Bütçe limitine yaklaşıldığında daha ucuz bir modele (örneğin GPT-4o’dan GPT-4o-mini’ye) otomatik geçiş yapacak mantık ekle. Kalite biraz düşer ama sistem çalışmaya devam eder.
  6. Günlük/Haftalık Raporlama Kur: Otomatik maliyet raporu oluşturan bir sistem entegre et. Slack, e-posta veya dashboard bildirimleri ile ekibi bilgilendir.

Pro İpucu: Token tüketimini azaltmanın en etkili yolu prompt optimizasyonu. Gereksiz sistem promptlarını kısalt, few-shot örneklerini minimize et. Testlerde, iyi optimize edilmiş bir prompt %30-50 token tasarrufu sağlayabiliyor.

Maliyet Kontrol Stratejileri

Token Optimizasyonu

Ajanlar genellikle her döngüde tüm conversation history’yi gönderir. Bu, context window dolana kadar maliyetin katlanarak artması demek. Çözüm: Sliding window yaklaşımı kullan, sadece son N mesajı veya özetlenmiş geçmişi gönder.

Strateji Potansiyel Tasarruf Uygulama Zorluğu Risk
Prompt kısaltma %20-40 Düşük Düşük
Context window yönetimi %30-60 Orta Orta
Model downgrade (fallback) %50-80 Düşük Kalite kaybı
Caching (aynı sorgular) %10-30 Orta Düşük
Batch processing %20-50 Yüksek Gecikme

Akıllı Routing

Her görev en pahalı modeli gerektirmez. Basit sınıflandırma işleri için küçük modeller, karmaşık reasoning için büyük modeller kullan. Bu “model routing” yaklaşımı, enterprise sistemlerde standart hale geldi.

Caching Mekanizması

Sık tekrarlanan sorgular için response cache’i kur. Özellikle FAQ tarzı sorularda veya standart işlemlerde dramatik tasarruf sağlar. Redis veya basit bir in-memory cache bile işe yarar.

Yaygın Hatalar ve Kaçınılması Gerekenler

Şu Durumda Ne Yaparsın?

Senaryo: Ajan beklenenden 5 kat fazla token harcıyor ve nedenini bulamıyorsun.

İlk adım: Her API çağrısını detaylı logla (input token, output token, timestamp, görev tipi). İkinci adım: En yüksek tüketen çağrıları izole et. Genellikle suçlu, şişirilmiş system prompt veya gereksiz tool çağrılarıdır. Üçüncü adım: A/B test yap — aynı görevi farklı prompt versiyonlarıyla çalıştır, token farkını ölç.

Bütçe Planlama Şablonu

Pratik bir başlangıç için şu formülü kullanabilirsiniz:

Aylık Bütçe = (Ortalama görev başına token) × (Günlük görev sayısı) × 30 × (Token fiyatı) × 1.3

Sondaki 1.3 çarpanı, beklenmedik spike’lar için güvenlik marjı. İlk aydan sonra gerçek verilerle bu formülü kalibre edin.

Maliyet Örneği: Günde 500 görev, görev başına ortalama 3.000 token (input+output), GPT-4o kullanımı varsayımıyla:

Sıkça Sorulan Sorular

Input ve output token fiyatı neden farklı? Output token üretmek, modelin inference yapması gerektiğinden daha fazla hesaplama gücü tüketir. Bu yüzden çoğu sağlayıcıda output token 2-4 kat daha pahalıdır. Ajanınızın uzun yanıtlar üretmesini engellemek, doğrudan maliyet düşürür.

Batch API kullanmak ne kadar tasarruf sağlar? Azure ve OpenAI’ın batch API’leri genellikle %50’ye varan indirim sunuyor. Ancak yanıt süresi uzar (saatler alabilir). Gerçek zamanlı olmayan işlemler için ideal.

Açık kaynak modeller maliyet açısından mantıklı mı? Kendi sunucunuzda çalıştırırsanız API maliyeti sıfır, ama GPU/sunucu maliyeti devreye girer. Yüksek hacimli kullanımda (ayda milyonlarca istek) açık kaynak daha ekonomik olabilir. Düşük hacimde API genellikle daha pratik.

Özetle

AI ajan otomasyonunda maliyet bütçesi kurgulamak, reaktif değil proaktif bir süreç olmalı. Temel adımlar:

Unutma: En pahalı ajan, kontrolsüz çalışan ajandır. Bütçe limitleri sadece para tasarrufu değil, aynı zamanda sistemin öngörülebilir ve güvenilir çalışmasının garantisidir.