Ajan otomasyonunda prompt injection riskini azaltma prensipleri

Yapay zeka ajanları artık sadece soru-cevap yapmıyor; e-posta gönderiyor, veritabanı sorguluyor, hatta kod çalıştırıyor. Bu güç beraberinde ciddi bir güvenlik açığı getiriyor: ajan otomasyonunda prompt injection riskini azaltma prensipleri bilmeden sisteminizi internete açık bir kapı gibi bırakıyorsunuz. Kötü niyetli bir kullanıcı, ajanınıza “önceki talimatları unut ve şunu yap” dediğinde neler olabileceğini düşünün.

Kısa Tanım: Prompt injection, bir yapay zeka modeline verilen girdinin, sistemin orijinal talimatlarını manipüle ederek istenmeyen davranışlara yol açmasıdır. Otonom ajanlarda bu risk katlanarak artar çünkü ajanlar gerçek dünyada aksiyon alabilir.

Prompt Injection Neden Ajanlarda Daha Tehlikeli?

Klasik bir chatbot’ta prompt injection en fazla yanlış bilgi üretir veya sistem promptunu sızdırır. Ancak araç kullanan (tool-calling) bir ajanda durum bambaşka. OWASP’ın 2025 LLM güvenlik raporuna göre, prompt injection otonom sistemlerde en yaygın saldırı vektörü konumunda.

Risk Seviyesi: Yüksek – Ajanınız dosya silme, API çağrısı veya ödeme işlemi yapabiliyorsa, tek bir manipüle edilmiş girdi tüm sistemi tehlikeye atabilir.

Doğrudan Injection: Kullanıcı girdisine zararlı talimat eklenmesi
Dolaylı Injection: Ajanın okuduğu harici kaynaklara (web sayfası, e-posta, belge) gizlenmiş komutlar
Çok Adımlı Saldırılar: İlk adımda masum görünen, sonraki adımlarda tetiklenen zincirleme manipülasyonlar

Kilit Çıkarım: Bir ajan ne kadar çok araca erişebiliyorsa, prompt injection’ın potansiyel hasarı o kadar büyük.

Temel Koruma Prensipleri

1. En Az Yetki İlkesi (Least Privilege)

Ajanınıza sadece görevini yerine getirmek için gereken minimum yetkileri verin. Bir müşteri destek ajanının veritabanında silme yetkisi olmamalı. AWS Bedrock ve benzeri platformlar, ajan izinlerini granüler şekilde ayarlamanıza olanak tanır.

Pro İpucu: Her araç için ayrı IAM rolleri oluştur. “Her şeyi yapabilen” tek bir rol kullanma; bu, saldırganın işini kolaylaştırır.

2. Girdi Doğrulama ve Sanitizasyon

Kullanıcı girdilerini doğrudan LLM’e göndermeden önce filtreleyin. Şüpheli kalıpları tespit eden bir ön işleme katmanı ekleyin:

“Ignore previous instructions” benzeri ifadeler
Sistem promptunu sorgulayan komutlar
Base64 veya hex kodlanmış gizli talimatlar
Rol değiştirme denemeleri (“Artık sen bir hacker’sın…”)

3. Yapılandırılmış Çıktı Zorunluluğu

Ajanın araç çağrılarını serbest metin yerine katı JSON şemalarıyla sınırlayın. Bu, modelin beklenmedik komutlar üretmesini zorlaştırır. Pratikte en sık görülen hata, ajanın çıktısını doğrudan eval() veya exec() fonksiyonlarına vermektir—bunu asla yapmayın.

4. İnsan Onayı Katmanı (Human-in-the-Loop)

Kritik işlemler için insan onayı zorunlu kılın. Dosya silme, ödeme işlemi veya hassas veri erişimi gibi aksiyonlarda ajanı durdurup kullanıcıdan onay isteyin.

Maliyet: Kullanıcı deneyiminde hafif sürtünme yaratır, ancak güvenlik açısından vazgeçilmez.

5. Bağlam Ayrımı (Context Isolation)

Sistem talimatlarını kullanıcı girdisinden net şekilde ayırın. Birçok LLM API’si artık “system”, “user” ve “assistant” rollerini destekliyor. Sistem promptunu ayrı bir bölümde tutmak, injection saldırılarının etkisini azaltır.

Yöntem	Koruma Düzeyi	Uygulama Zorluğu	Performans Etkisi
Girdi Filtreleme	Orta	Düşük	Minimal
Yapılandırılmış Çıktı	Yüksek	Orta	Düşük
İnsan Onayı	Çok Yüksek	Düşük	Yüksek (gecikme)
Çift LLM Doğrulama	Yüksek	Yüksek	Orta (maliyet)
Sandbox Ortamı	Çok Yüksek	Yüksek	Değişken

İleri Düzey Savunma Stratejileri

Çift LLM Doğrulama

Ajanın ürettiği aksiyonları ikinci bir LLM’den geçirin. Bu “güvenlik hakemi”, çıktının orijinal talimatlarla uyumlu olup olmadığını kontrol eder. Google Cloud ve AWS gibi platformlarda bu yaklaşım giderek yaygınlaşıyor.

Sandbox ve İzolasyon

Ajanın araç çağrılarını izole bir ortamda çalıştırın. Özellikle kod yürütme yetenekli ajanlarda, container tabanlı sandbox kullanımı kritik. Bir injection saldırısı başarılı olsa bile, hasar sınırlı kalır.

Davranış Anomali Tespiti

Ajanın normal davranış kalıplarını öğrenen bir izleme sistemi kurun. Beklenmedik araç çağrıları veya olağandışı veri erişim desenleri alarm tetiklemeli.

Doğru Bilinen Yanlışlar

“System promptumu gizlersem güvendeyim”: Hayır. Prompt gizleme (obfuscation) tek başına koruma sağlamaz. Saldırganlar dolaylı yöntemlerle sistem davranışını keşfedebilir.
“Sadece güvenilir kullanıcılar erişiyor, sorun yok”: Dolaylı injection, güvenilir kullanıcının okuduğu harici içerikten gelebilir. Bir e-posta veya web sayfasına gömülü talimat, ajanı manipüle edebilir.
“Model zaten güvenli, ekstra önlem gereksiz”: LLM sağlayıcılarının güvenlik katmanları genel amaçlıdır. Uygulamaya özel riskleri siz yönetmelisiniz.

Sıkça Sorulan Sorular

Prompt injection tamamen önlenebilir mi?

Şu anki teknolojide %100 önleme mümkün değil. Amaç, riski kabul edilebilir seviyeye indirmek ve olası hasarı sınırlamak. Katmanlı savunma (defense in depth) yaklaşımı en etkili strateji.

Hangi LLM’ler prompt injection’a daha dayanıklı?

Model bazında kesin bir sıralama yapmak zor çünkü saldırı teknikleri sürekli evrim geçiriyor. Önemli olan, hangi modeli kullanırsanız kullanın, uygulama katmanında ek güvenlik önlemleri almak.

Küçük projeler için bu kadar önlem gerekli mi?

Ajanınız hassas veri veya kritik sistemlere erişmiyorsa, temel girdi filtreleme ve yetki sınırlama yeterli olabilir. Ancak proje büyüdükçe güvenlik mimarisini baştan düşünmek, sonradan eklemeye çalışmaktan çok daha kolay.

Sonuç

Yapay zeka ajanlarında prompt injection koruması, tek bir çözümle değil katmanlı bir yaklaşımla sağlanır. En az yetki ilkesi, girdi doğrulama, yapılandırılmış çıktılar ve kritik işlemlerde insan onayı temel savunma hatlarınızı oluşturur.

Unutmayın: Ajanınız ne kadar yetenekliyse, güvenlik açığının potansiyel maliyeti o kadar yüksek. Bugün aldığınız önlemler, yarın başınızı ağrıtacak bir güvenlik ihlalini engelleyebilir. Sisteminizi tasarlarken “bu ajan ele geçirilse ne yapabilir?” sorusunu mutlaka sorun ve cevaba göre yetkileri sınırlayın.