Benchmark Yetmiyor: AGI İçin 10 Bilişsel Yetenek Üzerinden Yeni Ölçüm Oyunu

AGI tartışmalarında en büyük problem “neye göre ilerliyoruz?” sorusu. Google DeepMind’in yeni yaklaşımı, modeli bir sınav kağıdı gibi değil, bir zihin repertuarı gibi ölçmeyi deniyor: yetenekleri ayrıştır, insanla adil kıyasla, sonra haritala.

🧩 Ne oldu?
– Google DeepMind, 17 Mart 2026 tarihli blog yazısında “Measuring Progress Toward AGI: A Cognitive Taxonomy” adlı yeni makaleyi ve bilişsel bilim temelli bir ölçüm çerçevesini duyurdu.
– Çerçeve, genel zekâ için kritik görülen 10 bilişsel yeteneği listeliyor: algı, üretim, dikkat, öğrenme, bellek, akıl yürütme, üstbiliş, yürütücü işlevler, problem çözme, sosyal biliş.
– Kaggle ile 200.000 ABD doları ödül havuzlu bir hackathon başlatıldı; başvurular 17 Mart–16 Nisan, sonuçlar 1 Haziran. Odak: ölçüm açığı en büyük görülen 5 yetenek (öğrenme, üstbiliş, dikkat, yürütücü işlevler, sosyal biliş).

🎯 Neden önemli?
Bugünkü “benchmark kültürü” çoğu zaman iki hataya düşüyor: (1) Zekâyı tek bir puana indirgemek, (2) sınavı ezberleyen modeli “genel” sanmak. Bilişsel taksonomi yaklaşımı, becerileri modüler hale getirerek hangi parçanın gerçekten geliştiğini, hangisinin PR parlatması olduğunu ayırmayı vaat ediyor.

İkinci kritik nokta, insan kıyasının nasıl yapıldığı. Bir modeli “insan seviyesinde” ilan etmek, tek bir ortalama yetişkinle kıyaslamakla bitmiyor; insanlar demografik olarak çeşitleniyor ve performans dağılımları görevden göreve değişiyor. Önerilen protokolün “insan dağılımına göre performans haritalama” vurgusu, tam da bu yüzden ölçümde sahicilik arayışı.

Üçüncüsü, ölçümün kendisi bir ürün alanına dönüşüyor. Hackathonun odağı “yeni model yapmak” değil; öğrenme, üstbiliş, dikkat gibi alanlarda değerlendirme tasarlamak. Yani yarış, model yarışından çok “ölçüm tasarımı” yarışına benziyor; bu da ekosistemde standardizasyon ve şeffaflık baskısını artırabilir.

👥 Kim etkilenir?
– Frontier model geliştiren ekipler (model iddialarını daha ayrıntılı kanıtlamak zorunda kalabilirler)
– Benchmark/Değerlendirme platformları ve araştırmacılar (yeni protokoller, yeni veri toplama ihtiyaçları)
– Kurumsal AI alıcıları (satın alma kararlarında “hangi yetenek, hangi sınırda?” sorusu öne çıkar)
– Regülasyon ve denetim tarafı (genel zekâ iddialarını daha denetlenebilir metriklere bağlama fırsatı)
– Kaggle topluluğu ve bağımsız ölçüm geliştiricileri (Community Benchmarks üzerinden doğrudan etki alanı)

🫆 AI Sözlük görüşü
Bu hamle, “AGI var mı?” tartışmasını metafizikten çıkarıp mühendisliğe yaklaştırıyor: Yeteneği bileşenlere ayırırsan, hem ilerleme daha görünür olur hem de zayıf halka daha net ortaya çıkar. Ancak tehlike de burada: 10 başlık, gerçeği sadeleştirirken yeni kör noktalar üretebilir. Bir sistem “sosyal biliş” kutusunu geçiyor diye sosyal bağlamda güvenli davranacak sanmak, ölçüm ile gerçek dünya davranışı arasındaki uçurumu büyütebilir.

Ödül tarafı net: İnsan dağılımlarına yaslanan protokoller, “ortalama puan” yerine risk odaklı konuşmayı teşvik eder (uç gruplarda çöküyor mu, belirli alt gruplarda sapıyor mu, hangi görev sınıflarında tutarlı?). Risk tarafı da net: Demografik tabanlarla kıyas yapmak, örnekleme/temsil ve etik yönetimi doğru yapılmazsa yeni tartışmalar doğurur; ayrıca modelleri “testin formatına” optimize etme döngüsü hızlanabilir.

Buradan çıkarılacak tasarım tercihi dersi şu: Daha fazla test eklemek yerine, daha iyi ayrıştıran test tasarla. “Geniş görev seti + held-out + insan dağılımı haritalama” yaklaşımı, veri yığmaktan çok ölçüm mimarisine yatırım yapmanın uzun vadede daha sağlam sinyal ürettiğini ima ediyor. Kısacası: az ama iyi kurgulanmış değerlendirme, çok ama kolay kandırılan benchmark’tan daha değerli olabilir.

👀 Ne izlenmeli?
– Yetenek bazında performans profili: 10 yetenek için ayrı skorlar ve özellikle “öğrenme/üstbiliş/dikkat” üçlüsünde model-hack dayanıklılığı (ör. held-out görevlerde düşüş yüzdesi).
– İnsan dağılımına haritalama çıktıları: Modelin performansının insan dağılımında hangi yüzdeliklere (p50/p90 gibi) denk geldiği ve görev sınıfına göre kayma.
– Hata tipleri ve “unknown” oranı: Sosyal biliş ve yürütücü işlevlerde gerekçesiz uydurma, yanlış niyet okuma, aşırı özgüven gibi hata türlerinin sınıf bazlı frekansı.
– Maliyet/başarı dengesi: Aynı yetenekte performans artışı için gereken çıkarım maliyeti (latency, $/1k görev, enerji) ve bunun frontier modeller arasında nasıl ayrıştığı.

Etiketler:

AGI ölçümü · AI evaluation · attention · benchmark tasarımı · bilişsel taksonomi · cognitive framework · Community Benchmarks · demografik temsil · executive functions · frontier models · Google DeepMind · held-out tests · human baseline · Kaggle hackathon · learning evaluation · metacognition · performance mapping · social cognition

Kategori(ler):

Teknoloji · Yapay Zeka

Cenk Yılgör http://www.cenkyilgor.com

https://www.amazon.com.tr/s?i=stripbooks&rh=p_27%3ACenk+Y%C4%B1lg%C3%B6r&ref=dp_byline_sr_book_1

Benchmark Yetmiyor: AGI İçin 10 Bilişsel Yetenek Üzerinden Yeni Ölçüm Oyunu

Bir yanıt yazın Yanıtı iptal et

Multimodal RL + verifier: AgentRx çevresinde görünen ipucu

Zinciri Saklayamıyorlar: OpenAI, “Düşünce İzini Gizleme” Testinde Frontier Modellerin Zayıf Kaldığını Söylüyor

Benchmark Yetmiyor: AGI İçin 10 Bilişsel Yetenek Üzerinden Yeni Ölçüm Oyunu

İlgili Yazılar

Bir yanıt yazın Yanıtı iptal et