Giriş
AI ajanları artık sadece soru cevaplamıyor; bizim adımıza yazışıyor, randevu ayarlıyor, fiyat kırıyor. Sorun şu: Bir ajan “anlaşma sağladı” diye gerçekten bizim için iyi bir anlaşma yapmış sayılır mı? SocialReasoning-Bench tam da bu rahatsız edici boşluğu ölçmeye çalışıyor.
🧩 Ne oldu?
– SocialReasoning-Bench, AI ajanlarının sosyal müzakere ortamlarında kullanıcı çıkarını gözetme performansını değerlendiren bir benchmark olarak tanıtıldı.
– İki gerçekçi görev ailesine odaklanıyor: Takvim Koordinasyonu ve Marketplace pazarlığı.
– Performans iki skorla raporlanıyor: Sonuç Optimizasyonu (Outcome Optimality) ve Süreç Özeni (Due Diligence); ikisi de 0–1 aralığında.
🎯 Neden önemli?
Birçok değerlendirme, “görev tamamlandı mı?” sorusuna takılı kalıyor. Oysa gerçek hayatta başarı, tamamlanmış bir takvim davetinden veya kapanmış bir satıştan ibaret değil; kimin lehine, hangi bedelle kapandığı önemli.
Takvim senaryosu bunu çarpıcı biçimde somutlaştırıyor: İki tarafın da müsait olduğu zamanlar (ZOPA) var, fakat bu zamanların kullanıcı için değeri aynı değil. Ajanın işi, yalnızca ortak bir slot bulmak değil; ortak slotlar içinden kullanıcı açısından en yüksek değeri yakalamak.
Marketplace tarafında ise daha “çıplak” bir ekonomi var: Alıcıyı temsil eden ajan (kullanıcı) ile satıcının gizli rezervasyon fiyatları bulunuyor; anlaşma bölgesi bu iki değer arasındaki aralık. Bu kurulum, “pazarlık yaptı” hissiyle “kullanıcı için iyi fiyat” sonucunu birbirinden ayırıyor.
En kritik içgörü: Modeller, görüşmeyi yürütme ve sonuçlandırma konusunda güçlü görünürken kullanıcı lehine optimizasyon tarafında aynı netliği vermeyebiliyor. Defansif yönlendirme iyileştirse bile, ajanların doğal eğilimi hâlâ “uyumlu bitirici” olmaya yakın durabiliyor.
👥 Kim etkilenir?
– Takvim/planlama asistanı geliştiren ürün ekipleri (meeting scheduler, executive assistant)
– Alım-satım, teklif toplama, pazarlık otomasyonu yapan girişimler
– Kurumsal satın alma ekipleri ve tedarik pazarlığı süreçleri
– “Ajanla müşteri temsilcisi” temasını kurgulayan çağrı merkezi/CRM ekipleri
– Model güvenliği, alignment ve değerlendirme (eval) çalışan araştırmacılar
AI Sözlük görüşü
Bu benchmark’ın verdiği en değerli mesaj şu: “Ajanın sosyalliği” ile “ajanın sadakati” aynı şey değil. İnsan konuşmasına benzer akış, nazik uzlaşma ve hızlı kapanış; kullanıcı yararıyla karıştırılmaya çok müsait. SocialReasoning-Bench, bu karışıklığı iki ayrı skora ayırarak ürün ekiplerinin aynaya bakmasını sağlıyor.
Ödül tarafı açık: Eğer ajanlar gerçekten sonuç optimizasyonunu yükseltirse, ajanın değeri katlanır. Takvimde daha iyi slot seçimi küçük görünür ama bir organizasyonda yüzlerce toplantıda zaman kalitesi doğrudan verim demektir; pazarlıkta birkaç puanlık iyileşme ise doğrudan para.
Risk ise daha sinsi: “Tamamlandı” metriğiyle optimize edilmiş ajanlar, kullanıcı adına sistematik biçimde kötü anlaşmalara razı olabilir. Üstelik defansif prompt ile bile açığın kapanmaması, problemin sadece talimat metniyle çözülemeyeceğini; daha sağlam hedef fonksiyonları, karşı taraf stratejilerine dayanıklılık ve denetim mekanizmaları gerektiğini düşündürüyor.
👀 Ne izlenmeli?
– Outcome Optimality ile görev tamamlama oranı arasındaki fark: “Bitiriyor ama kötü bitiriyor” uçurumu kapanıyor mu?
– Due Diligence skorları: Ajan, kullanıcı tercihlerini/rezervasyon fiyatını korumak için yeterli sorgulama ve kontrol adımı sergiliyor mu?
– Defansif yönlendirmenin marjinal katkısı: Prompt ile gelen kazanç sınırlı mı, yoksa model nesillerinde doğal olarak artıyor mu?
– Karşı taraf ajanı sabitken (orta eforlu Gemini 3 Flash) performans: Farklı müzakere rakiplerinde sonuçlar kırılıyor mu, dayanıklı mı?
🏷️




