Bir yapay zeka ajanı geliştiriyorsun ve karşına şu soru çıkıyor: “Bu ajan bilgiyi nereden alacak?” Kaynak seçimi, ajanın doğru, güncel ve güvenilir yanıtlar üretmesi için kritik bir karar. Yanlış kaynak seçimi, ajanın halüsinasyon yapmasına, eski bilgi sunmasına veya kullanıcıyı yanlış yönlendirmesine neden olabilir. Bu yazıda, bir ajanın hangi veri kaynağını ne zaman kullanması gerektiğini, pratik örneklerle ve somut senaryolarla ele alacağız.
Yazının sonunda şu soruların cevaplarını bulacaksın: Hangi veri kaynakları mevcut? Her birinin güçlü ve zayıf yönleri neler? Ajan, kullanıcı sorgusuna göre kaynağı nasıl seçmeli? Hibrit yaklaşımlar ne zaman mantıklı?
Kısa Tanım: Ajan ve Veri Kaynağı Ne Demek?
Ajan, belirli bir görevi yerine getirmek için otonom kararlar alabilen yapay zeka sistemidir. Bir chatbot, bir otomasyon botu veya bir araştırma asistanı ajan olabilir. Ajanın “zekası”, büyük ölçüde eriştiği veri kaynaklarına ve bu kaynakları ne kadar etkili kullandığına bağlıdır.
Veri kaynağı ise ajanın bilgi çektiği herhangi bir depo veya servistir. Bu bir veritabanı, bir API, bir arama motoru, bir doküman koleksiyonu veya ajanın kendi eğitim verisi olabilir. Kaynak seçimi, ajanın hangi kaynağa ne zaman başvuracağını belirleyen mantıktır.
Başlamadan Önce: Temel Kavramlar ve Gereksinimler
Kaynak seçimi stratejisi oluşturmadan önce bazı ön koşulları netleştirmek gerekiyor. Aksi halde ajan mimarisi karmaşıklaşır ve bakımı zorlaşır.
Araçlar ve İhtiyaçlar
- Ajanın kullanacağı LLM (Large Language Model) altyapısı
- Vektör veritabanı (RAG kullanılacaksa)
- API erişim anahtarları (harici servisler için)
- Sorgu yönlendirme (routing) mekanizması
- Loglama ve izleme sistemi
Ön Koşullar
- Ajanın hangi alanlarda çalışacağı net olmalı
- Kullanıcı sorgularının tipik kalıpları analiz edilmeli
- Her veri kaynağının güncellik, doğruluk ve erişim maliyeti bilinmeli
- Gizlilik ve güvenlik gereksinimleri tanımlanmış olmalı
Veri Kaynağı Türleri ve Kullanım Alanları
Bir ajan genellikle birden fazla veri kaynağına erişebilir. Her kaynağın kendine özgü avantajları ve sınırlamaları var. Doğru kaynak seçimi için önce bu kaynakları tanımak gerekiyor.
1) Parametrik Bilgi (Model’in Eğitim Verisi)
LLM’in eğitim sürecinde öğrendiği bilgilerdir. Genel kültür, dil bilgisi, yaygın kavramlar ve tarihsel bilgiler bu kategoriye girer. Avantajı: Ek bir API çağrısı gerektirmez, hızlıdır. Dezavantajı: Güncel değildir, belirli bir tarihte kesilmiştir ve halüsinasyona açıktır.
Ne zaman kullanılmalı: Değişmeyen genel bilgiler için (örneğin “Python’da liste nasıl oluşturulur?”), kavramsal açıklamalar için, tarihsel olaylar için.
2) RAG (Retrieval-Augmented Generation)
Ajanın, bir vektör veritabanından veya doküman deposundan ilgili bilgileri çekip yanıtına dahil etmesidir. Şirket içi dokümanlar, ürün katalogları, politika belgeleri gibi özel veriler için idealdir.
Ne zaman kullanılmalı: Kurumsal bilgi tabanı sorguları için, spesifik ürün veya hizmet bilgileri için, güncel olmayan ama doğruluğu kritik veriler için.
Pratikte en sık görülen hata: RAG sisteminin çok geniş veya çok dar sonuç döndürmesi. Chunk boyutu ve embedding kalitesi bu noktada belirleyici oluyor.
3) Gerçek Zamanlı Web Araması
Ajan, bir arama motoru API’si üzerinden güncel web içeriğine erişir. Haberler, güncel fiyatlar, son dakika gelişmeleri için vazgeçilmezdir.
Ne zaman kullanılmalı: “Bugün dolar kuru kaç?”, “Son seçim sonuçları neler?” gibi güncellik gerektiren sorgular için. Ayrıca ajanın eğitim verisinde olmayan yeni konular için.
Dikkat edilmesi gereken: Web araması yavaş ve maliyetli olabilir. Her sorgu için web’e gitmek gereksiz gecikme yaratır.
4) Yapılandırılmış Veritabanları (SQL/NoSQL)
Müşteri bilgileri, sipariş geçmişi, envanter durumu gibi yapılandırılmış veriler için kullanılır. Ajan, doğal dil sorgusunu SQL’e çevirip veritabanından sonuç alabilir.
Ne zaman kullanılmalı: “Son 3 aydaki satışlarım neler?”, “Stokta kaç adet X ürünü var?” gibi spesifik, sayısal ve kişiselleştirilmiş sorgular için.
5) Harici API’ler
Hava durumu servisleri, ödeme sistemleri, sosyal medya platformları gibi üçüncü taraf servislerdir. Ajan, belirli işlemleri gerçekleştirmek veya anlık veri çekmek için bu API’leri kullanır.
Ne zaman kullanılmalı: Ajanın bir aksiyon alması gerektiğinde (e-posta gönder, randevu oluştur), gerçek zamanlı harici veri gerektiğinde (hava durumu, uçuş bilgisi).
Kaynak Seçimi Stratejileri: Ajan Nasıl Karar Vermeli?
Birden fazla kaynak varken ajan hangisine başvuracağını nasıl bilecek? İşte yaygın kullanılan stratejiler:
Intent-Based Routing (Niyet Tabanlı Yönlendirme)
Kullanıcının sorgusundaki niyet analiz edilir ve buna göre kaynak seçilir. Örneğin:
- “X nedir?” → Parametrik bilgi veya RAG
- “Bugün hava nasıl?” → Harici API
- “Siparişim nerede?” → Veritabanı sorgusu
- “En son Y haberleri” → Web araması
Bu yaklaşımda bir sınıflandırıcı model veya kural tabanlı sistem, sorguyu kategorize eder ve ilgili kaynağa yönlendirir.
Cascading (Kademeli Arama)
Ajan önce en hızlı ve ucuz kaynağa bakar. Tatmin edici sonuç bulamazsa bir sonraki kaynağa geçer. Örnek akış:
1) Önce parametrik bilgiye bak 2) Yetersizse RAG’dan çek 3) Hâlâ yetersizse web araması yap
Bu strateji maliyet optimizasyonu sağlar ama gecikme yaratabilir.
Parallel Retrieval (Paralel Çekme)
Birden fazla kaynağa aynı anda sorgu gönderilir, sonuçlar birleştirilir. Daha kapsamlı yanıtlar üretir ama kaynak tüketimi yüksektir. Kritik kararlar için veya kullanıcının kapsamlı bilgi beklediği durumlarda tercih edilir.
Confidence-Based Selection (Güven Tabanlı Seçim)
Her kaynak bir güven skoru döndürür. Ajan, en yüksek güven skoruna sahip kaynağın sonucunu kullanır veya düşük güvenli sonuçları filtreler. Bu yaklaşım halüsinasyonu azaltmada etkilidir.
Pratik Senaryo: E-Ticaret Destek Ajanı
Bir e-ticaret sitesi için müşteri destek ajanı tasarladığını düşün. Kullanıcılar farklı türde sorular soruyor:
Senaryo 1: “İade politikanız nedir?” Kaynak seçimi: RAG → Şirketin iade politikası dokümanından bilgi çekilir. Parametrik bilgi kullanılmaz çünkü şirkete özel bir politika söz konusu.
Senaryo 2: “Siparişim ne zaman gelecek?” Kaynak seçimi: Veritabanı → Kullanıcının sipariş ID’si ile kargo takip bilgisi sorgulanır. Kişiselleştirilmiş veri gerektiği için RAG yetersiz kalır.
Senaryo 3: “Bu ürün piyasadaki en ucuz mu?” Kaynak seçimi: Web araması → Güncel fiyat karşılaştırması için harici kaynaklara bakılması gerekir. Statik veriler bu soruya cevap veremez.
Senaryo 4: “Kredi kartı ile ödeme güvenli mi?” Kaynak seçimi: Parametrik bilgi + RAG → Genel güvenlik bilgisi parametrik bilgiden, şirketin güvenlik sertifikaları RAG’dan alınabilir.
Pro İpucu: Kaynak seçimi kararlarını logla. Hangi sorgu hangi kaynağa yönlendirildi, sonuç tatmin edici miydi? Bu veriler, routing mantığını iyileştirmek için altın değerinde.
Yaygın Hatalar ve Çözümleri
Kaynak seçimi implementasyonunda sıkça karşılaşılan sorunlar var. Bunları önceden bilmek, geliştirme sürecini hızlandırır.
- Her şeyi web’den çekmeye çalışmak: Gecikme ve maliyet artar. Statik bilgiler için gereksizdir. Çözüm: Sorgu tipine göre önceliklendirme yap.
- RAG’ı her sorgu için kullanmak: Basit sorularda bile vektör araması yapmak kaynak israfıdır. Çözüm: Intent detection ile filtreleme ekle.
- Kaynak çakışmalarını yönetmemek: Farklı kaynaklar çelişkili bilgi döndürebilir. Çözüm: Kaynak önceliği ve güven skorlaması belirle.
- Fallback mekanizması eksikliği: Birincil kaynak başarısız olduğunda ajan takılır. Çözüm: Her kaynak için yedek plan tanımla.
- Güncellik kontrolü yapmamak: RAG’daki dokümanlar eskimiş olabilir. Çözüm: Doküman metadata’sında tarih bilgisi tut ve kritik sorgularda kontrol et.
Sıkça Sorulan Sorular
Ajan birden fazla kaynağı aynı anda kullanabilir mi?
Evet, paralel retrieval stratejisiyle birden fazla kaynağa aynı anda sorgu gönderilebilir. Sonuçlar birleştirilerek daha kapsamlı bir yanıt oluşturulur. Ancak bu yaklaşım kaynak tüketimini artırır, bu yüzden her sorgu için değil, karmaşık veya kritik sorgular için tercih edilmeli.
Kaynak seçimi için en iyi yöntem hangisi?
Tek bir “en iyi” yöntem yok. Kullanım senaryosuna bağlı. Düşük gecikme öncelikliyse cascading, kapsamlılık öncelikliyse parallel retrieval, maliyet öncelikliyse intent-based routing daha uygun olabilir. Çoğu üretim sisteminde bu yöntemlerin kombinasyonu kullanılır.
Ajan yanlış kaynağı seçerse ne olur?
Yanlış kaynak seçimi genellikle iki sonuç doğurur: ya ajan yetersiz/yanlış bilgi verir, ya da gereksiz yere yavaşlar ve maliyet oluşturur. Bu riski azaltmak için güven skorlaması, kullanıcı geri bildirimi ve sürekli izleme mekanizmaları kurulmalı.
Küçük projeler için kaynak seçimi gerekli mi?
Basit bir chatbot için karmaşık routing sistemleri gereksiz olabilir. Ancak ajan birden fazla veri kaynağına erişiyorsa, en azından temel bir intent detection mekanizması kurulmalı. Aksi halde ajan tutarsız davranışlar sergileyebilir.
Kaynak seçimi performansı nasıl ölçülür?
Temel metrikler: doğru kaynak seçim oranı, ortalama yanıt süresi, kaynak başına maliyet, kullanıcı memnuniyeti skoru. A/B testleri ve kullanıcı geri bildirimleri, routing mantığını iyileştirmek için değerli veri sağlar.
Sonuç: Doğru Kaynak, Doğru Zamanda
Kaynak seçimi, bir yapay zeka ajanının kalitesini doğrudan etkileyen kritik bir tasarım kararıdır. Parametrik bilgi hızlı ama güncel değil, RAG özelleştirilmiş ama bakım gerektiriyor, web araması güncel ama yavaş ve maliyetli. Her kaynağın güçlü ve zayıf yönlerini bilerek, sorgu tipine göre akıllı yönlendirme yapmak ajanın hem doğruluğunu hem de verimliliğini artırır.
Kendi ajanını geliştirirken önce kullanıcı sorgularının tipik kalıplarını analiz et, sonra her kalıp için en uygun kaynağı belirle. Basit bir intent-based routing ile başla, zamanla güven skorlaması ve fallback mekanizmaları ekle. Loglama ve izleme sistemlerini ihmal etme; gerçek kullanım verileri, routing mantığını sürekli iyileştirmeni sağlar.