Google Gemma 4 3 Kat Hızlandı

hepsigundem · Bugün 11:02

Google, bu bahar aylarında kullanıma sunduğu Gemma 4 açık kaynaklı modelleri için performans odaklı yeni bir adım attı. Şirket, lokal yapay zeka süreçlerini hızlandırmayı hedefleyen Multi-Token Prediction (MTP) drafter modellerini geliştiricilerin kullanımına açtı.

Bu deneysel modeller, kestirim yürütme sistemi olan spekülatif kod çözme teknolojisinden yararlanıyor. Bu sayede modeller, kendi başlarına ürettikleri standart süreçlere kıyasla metin oluşturma suratlarını kıymetli ölçüde artırabiliyor.

Yerel Donanımlarda Yüksek Performans Hedefi

Gemma 4 modelleri, Google’ın gelişmiş Gemini yapay zeka teknolojisinin temelini oluşturan altyapı ile emsal bir mimariyi paylaşıyor. Gemini modelleri, Google’ın devasa bilgi merkezlerinde bulunan özel TPU çiplerinde çalışacak biçimde optimize edilmiş durumda.

Yükleniyor…

ares.shiftdelete.net

Gemma ise kullanıcıların bu teknolojiyi kendi mahallî donanımlarında, bilgilerini bulut sistemlerine aktarmadan çalıştırmalarına imkan tanıyor.

Google, Gemma 4 ile birlikte lisans siyasetinde da değişikliğe giderek Apache 2.0 lisansına geçiş yaptı. Bu yeni lisans yapısı, evvelki sürümlerde kullanılan özel lisanslara nazaran çok daha geniş bir kullanım alanı ve esneklik sunuyor.

Ancak lokal sistemlerde çalışan modeller, kurumsal donanımların sunduğu yüksek bant genişlikli bellek (HBM) avantajına sahip değil. Bu durum, işlemcilerin parametreleri VRAM’den hesaplama ünitelerine taşırken vakit kaybetmesine ve süreç döngülerinin verimsiz kullanılmasına yol açıyor.

MTP Teknolojisi Nasıl Çalışıyor?

Geleneksel büyük lisan modelleri, token ismi verilen üniteleri otoregresif bir yapıda, yani her seferinde bir tane olacak halde üretiyor. Her bir token, içerik ne olursa olsun birebir ölçüde hesaplama gücü gerektiriyor.

MTP teknolojisi, bu noktada devreye girerek ağır modelin yükünü hafifletiyor ve daha hafif bir drafter modeli aracılığıyla spekülatif tokenlar oluşturuyor.

Gemma 4 E2B üzere yalnızca 74 milyon parametreye sahip olan bu küçük modeller, spekülatif token üretimini hızlandırmak için özel olarak optimize edildi. Drafter modelleri, ana modelin halihazırda üzerinde çalıştığı bağlamı tekrar hesaplamamak için ana modelle tıpkı anahtar-değer önbelleğini paylaşıyor.

Ayrıca E2B ve E4B drafter modelleri, muhtemel token kümelerini daraltmak maksadıyla seyrek kod çözme tekniğini kullanıyor. Bu teknikler sayesinde, NVIDIA RTX PRO 6000 üzere donanımlarda yapılan testlerde, çıktı kalitesinden ödün vermeden bekleme mühletinin yarıya indirildiği gözlemleniyor.

Sizce lokal donanımlarda bu çeşit sürat artışları, yapay zeka kullanım alışkanlıklarımızı nasıl değiştirecek?

Shiftdelete

The post Google Gemma 4 3 Kat Hızlandı first appeared on HepsiGündem.COM " Gündem,Güncel Haberler Burada ".

Okumaya devam et...

Google Gemma 4 3 Kat Hızlandı

hepsigundem

Administrator

Yükleniyor…

Forum istatistikleri

Online istatistikleri

Forum istatistikleri