Müzakere Becerisi Yetmiyor: AI Ajanlarında Sonuç Kalitesi Sorunu

Giriş
AI ajanları artık sadece soru cevaplamıyor; bizim adımıza yazışıyor, randevu ayarlıyor, fiyat kırıyor. Sorun şu: Bir ajan “anlaşma sağladı” diye gerçekten bizim için iyi bir anlaşma yapmış sayılır mı? SocialReasoning-Bench tam da bu rahatsız edici boşluğu ölçmeye çalışıyor.

🧩 Ne oldu?
– SocialReasoning-Bench, AI ajanlarının sosyal müzakere ortamlarında kullanıcı çıkarını gözetme performansını değerlendiren bir benchmark olarak tanıtıldı.
– İki gerçekçi görev ailesine odaklanıyor: Takvim Koordinasyonu ve Marketplace pazarlığı.
– Performans iki skorla raporlanıyor: Sonuç Optimizasyonu (Outcome Optimality) ve Süreç Özeni (Due Diligence); ikisi de 0–1 aralığında.

🎯 Neden önemli?
Birçok değerlendirme, “görev tamamlandı mı?” sorusuna takılı kalıyor. Oysa gerçek hayatta başarı, tamamlanmış bir takvim davetinden veya kapanmış bir satıştan ibaret değil; kimin lehine, hangi bedelle kapandığı önemli.

Takvim senaryosu bunu çarpıcı biçimde somutlaştırıyor: İki tarafın da müsait olduğu zamanlar (ZOPA) var, fakat bu zamanların kullanıcı için değeri aynı değil. Ajanın işi, yalnızca ortak bir slot bulmak değil; ortak slotlar içinden kullanıcı açısından en yüksek değeri yakalamak.

Marketplace tarafında ise daha “çıplak” bir ekonomi var: Alıcıyı temsil eden ajan (kullanıcı) ile satıcının gizli rezervasyon fiyatları bulunuyor; anlaşma bölgesi bu iki değer arasındaki aralık. Bu kurulum, “pazarlık yaptı” hissiyle “kullanıcı için iyi fiyat” sonucunu birbirinden ayırıyor.

En kritik içgörü: Modeller, görüşmeyi yürütme ve sonuçlandırma konusunda güçlü görünürken kullanıcı lehine optimizasyon tarafında aynı netliği vermeyebiliyor. Defansif yönlendirme iyileştirse bile, ajanların doğal eğilimi hâlâ “uyumlu bitirici” olmaya yakın durabiliyor.

👥 Kim etkilenir?
– Takvim/planlama asistanı geliştiren ürün ekipleri (meeting scheduler, executive assistant)
– Alım-satım, teklif toplama, pazarlık otomasyonu yapan girişimler
– Kurumsal satın alma ekipleri ve tedarik pazarlığı süreçleri
– “Ajanla müşteri temsilcisi” temasını kurgulayan çağrı merkezi/CRM ekipleri
– Model güvenliği, alignment ve değerlendirme (eval) çalışan araştırmacılar

🫆 AI Sözlük görüşü
Bu benchmark’ın verdiği en değerli mesaj şu: “Ajanın sosyalliği” ile “ajanın sadakati” aynı şey değil. İnsan konuşmasına benzer akış, nazik uzlaşma ve hızlı kapanış; kullanıcı yararıyla karıştırılmaya çok müsait. SocialReasoning-Bench, bu karışıklığı iki ayrı skora ayırarak ürün ekiplerinin aynaya bakmasını sağlıyor.

Ödül tarafı açık: Eğer ajanlar gerçekten sonuç optimizasyonunu yükseltirse, ajanın değeri katlanır. Takvimde daha iyi slot seçimi küçük görünür ama bir organizasyonda yüzlerce toplantıda zaman kalitesi doğrudan verim demektir; pazarlıkta birkaç puanlık iyileşme ise doğrudan para.

Risk ise daha sinsi: “Tamamlandı” metriğiyle optimize edilmiş ajanlar, kullanıcı adına sistematik biçimde kötü anlaşmalara razı olabilir. Üstelik defansif prompt ile bile açığın kapanmaması, problemin sadece talimat metniyle çözülemeyeceğini; daha sağlam hedef fonksiyonları, karşı taraf stratejilerine dayanıklılık ve denetim mekanizmaları gerektiğini düşündürüyor.

👀 Ne izlenmeli?
– Outcome Optimality ile görev tamamlama oranı arasındaki fark: “Bitiriyor ama kötü bitiriyor” uçurumu kapanıyor mu?
– Due Diligence skorları: Ajan, kullanıcı tercihlerini/rezervasyon fiyatını korumak için yeterli sorgulama ve kontrol adımı sergiliyor mu?
– Defansif yönlendirmenin marjinal katkısı: Prompt ile gelen kazanç sınırlı mı, yoksa model nesillerinde doğal olarak artıyor mu?
– Karşı taraf ajanı sabitken (orta eforlu Gemini 3 Flash) performans: Farklı müzakere rakiplerinde sonuçlar kırılıyor mu, dayanıklı mı?

🏷️

Etiketler:

agentic AI · AI ajanları · alignment · benchmark · Claude Sonnet 🔗 · değerlendirme · Due Diligence · evals · GPT-4.1 · marketplace · müzakere · Outcome Optimality · pazarlık · prompt engineering · rezervasyon fiyatı · SocialReasoning-Bench · takvim koordinasyonu · ZOPA

Kategori(ler):

Güncel · Teknoloji · Türkçe · Yapay Zeka

Cenk Yılgör http://www.cenkyilgor.com

https://www.amazon.com.tr/s?i=stripbooks&rh=p_27%3ACenk+Y%C4%B1lg%C3%B6r&ref=dp_byline_sr_book_1

Müzakere Becerisi Yetmiyor: AI Ajanlarında Sonuç Kalitesi Sorunu

Bir yanıt yazın Yanıtı iptal et

Model güdümlü ajan döngüsü: Strands Agents ile Exa aramasını birleştirmek

Müzakere Becerisi Yetmiyor: AI Ajanlarında Sonuç Kalitesi Sorunu

İlgili Yazılar

Bir yanıt yazın Yanıtı iptal et