Giriş
Gerçek zamanlı yapay zekâ, “çalıştığı sürece harcar” sınıfında bir lüks: kamera açık kaldıkça fatura akar. Furbo örneği, vizyon-dil modellerini (VLM) üretimde ölçeklerken asıl oyunun model seçimi kadar donanım ve mimari seçimi olduğunu gösteriyor.
🧩 Ne oldu?
– Tomofun, Furbo Pet Camera’da havlama/koşma/alışılmadık hareket gibi davranışları algılayan bilgisayarlı görü ve vision-language modelleriyle gerçek zamanlı uyarılar üretiyor.
– Sürekli açık inference maliyeti GPU tabanlı EC2’de yüksek kalınca, doğruluğu koruyup maliyeti düşürmek için Inferentia2 çipli EC2 Inf2 örneklerine geçti.
– Mimariyi iki katmanlı Auto Scaling (API katmanı + inference katmanı) ve uçtan uca gözlemlenebilirlik (CloudWatch) ile yeniden kurguladı; BLIP bileşenleri Inferentia2’ye ayrı ayrı derlenerek taşındı.
🎯 Neden önemli?
Birçok ekip VLM’leri “daha akıllı model = daha iyi ürün” refleksiyle ele alıyor; oysa sürekli çalışan sistemlerde birim maliyet, ürün deneyiminin görünmez parçası. Uyarı gecikmesi milisaniyelerle ölçülürken, sürdürülebilirlik saatlik maliyetle ölçülüyor.
Bu geçişin kritik tarafı yalnızca donanım değil: modeli “tek parça” olarak taşıma hayali yerine, görüntü kodlayıcı / metin kodlayıcı / metin çözücü gibi bileşenleri ayrıştırıp ayrı derlemek. Bu yaklaşım, hızlandırıcı uyumluluğunu pratik bir mühendislik problemine indiriyor: parçalara böl, derle, darboğazı ölç, tekrar et.
Sonuç olarak %83 gibi büyük bir düşüş, VLM’lerin ticarileşmesinde yeni bir eşik anlamına geliyor: VLM artık sadece “demo etkileyici” değil, doğru altyapıyla “ürün kârlı” da olabiliyor. Özellikle abonelik tabanlı tüketici cihazlarında bu fark, marjı ve fiyatlamayı doğrudan değiştirir.
👥 Kim etkilenir?
– Akıllı kamera/IoT üreticileri (ev, bebek, güvenlik, pet) ve sürekli çalışan video analitik ekipleri
– Gerçek zamanlı inference yapan SaaS’lar (moderasyon, retail analytics, canlı spor/etkinlik)
– MLOps ve platform ekipleri (autoscaling, maliyet optimizasyonu, gözlemlenebilirlik)
– Ürün yöneticileri (alarm kalitesi, gecikme, “uyarı başına maliyet” KPI’ı)
– GPU bütçesi şişen startup’lar ve cloud-finops ekipleri
AI Sözlük görüşü
Bu hikâyeyi “AWS hızlandırıcısı kazandı” diye okumak eksik kalır; asıl mesaj, VLM çağında mimarinin ürün stratejisine dönüşmesi. Tomofun’un yaptığı, modeli büyütmek yerine altyapıyı akıllandırmak: trafik girişini (CloudFront/ELB) disipline edip, API ve inference’ı ayırarak ölçekleme kararlarını daha temiz metriklere bağlamak.
Ödül tarafı net: maliyet düşerse daha fazla kullanıcıya aynı kaliteyi götürürsün; hatta kaliteyi artırmak için bütçe açılır (daha sık kare örnekleme, daha iyi eşikleme, daha çok davranış sınıfı). Risk tarafı ise hızlandırıcıya uyum ve operasyonel karmaşıklık: bileşen bazlı derleme, sürümleme ve performans regresyonlarını yönetmek yeni bir uzmanlık ister. GPU “genel amaçlı rahatlık” sunarken, Inferentia2 “tasarruf için disiplin” talep eder.
En sağlıklı okuma şu: VLM inference’ında rekabet avantajı, model kartından çok “birim alarm maliyeti + güvenilirlik” çiftinde kurulacak. Bu da yalnızca ML ekibinin değil, platform ve finops’un da ürünün parçası olduğu yeni bir düzen demek.
👀 Ne izlenmeli?
– Gecikme dağılımı: P50/P95/P99 inference latency (özellikle P99)
– Birim ekonomi: “uyarı başına maliyet” veya “dakika başına maliyet” gibi ürünle ilişkilendirilen KPI
– Derleme ve sürümleme sağlığı: torch_neuronx derleme süreleri, derleme başarısızlık oranı, model güncelleme sıklığı
– Ölçekleme sinyalleri: istek sayısı/queue derinliği ile autoscaling kararlarının tutarlılığı; peak anlarda hata oranı
🏷️




