Mistral AI, yapay zeka alanındaki yeniliklerine devam ederek üç yeni açık ağırlıklı dil modelini tanıttı: Mistral NeMo, Codestral Mamba ve Mathstral. Tüm bu modeller Apache 2.0 lisansı altında sunuluyor.
YENİ DÖNEMİN KÜÇÜK AMA GÜÇLÜ MODELİ
Mistral NeMo, 12 milyar parametreye sahip genel amaçlı bir LLM olarak tanımlanıyor ve 128k tokenlık geniş bir bağlam penceresi sunuyor. Hem temel hem de talimatlarla eğitilmiş versiyonları mevcut olan bu model, Çince, Japonca, Arapça ve Hintçe gibi 11 dilde güçlü performans sergiliyor. Tekken adlı yeni bir tokenizer geliştiren Mistral, bu modelin kaynak kodu ve doğal dili daha verimli bir şekilde sıkıştırabildiğini belirtiyor. NeMo, LLM benchmarklarında, benzer boyuttaki Gemma 2 9B ve Llama 3 8B gibi modellere göre üstün sonuçlar elde ediyor.
YENİ MAMBA MİMARİSİYLE HIZLI VE GÜVENİLİR
Codestral Mamba, Transformer mimarisine alternatif olarak geliştirilen Mamba mimarisine dayanıyor. Mamba modelleri, Transformers’dan daha hızlı çıkarım sağlıyor ve teorik olarak sonsuz bağlam uzunluğuna sahip. Mistral, bu modelin kullanıcılarına “giriş uzunluğuna bakılmaksızın hızlı yanıtlar” sunma yeteneğini vurguluyor ve büyük Transformer tabanlı modellerle “eşdeğer” performans sağladığını belirtiyor.
‘MATEMATİK VE AKIL YÜRÜTMEDE DEVREYE GİRİYOR’
Mathstral, STEM konularında performansı artırmak amacıyla Project Numina işbirliğiyle geliştirildi. Mistral 7B modeline dayanan Mathstral, birçok benchmarkta “gelişmiş akıl yürütme kapasitesi” sağlıyor. MMLU üzerinde %63.47 ve MATH üzerinde %56.6 sonuçlar elde ettiğini belirten Mistral AI, bu modelin küçük boyutundaki en yüksek performansı sunduğunu ifade ediyor.
HACKER NEWS’TE KULLANICI YORUMLARI: NEMO’NUN YENİLİKLERİ
Hacker News’te Mistral NeMo hakkında yapılan tartışmalarda, modelin ne kadar VRAM/RAM gerektirdiği konusunda belirsizlikler olduğu belirtildi. Diğer kullanıcılar, NeMo’nun yeni tokenizer’ı nedeniyle popüler Ollama çerçevesi tarafından desteklenmediğini, ancak Ollama geliştiricilerinin bir hafta içinde destek eklediğini ifade ettiler.
CODESRAL MAMBA VE YEREL KODLAMA ASİSTANLARI ÜZERİNE TARTIŞMALAR
Codestral Mamba’nın, “offline” veya yerel olarak barındırılan kodlama asistanı olarak iyi bir çözüm olup olamayacağı tartışıldı. Bir kullanıcı, yerel modellerin profesyonel bağlamda kullanımı sırasında telif hakkı kodlarının yeniden üretilme riski taşıdığını belirtti.
Yeni modeller, Huggingface üzerinden veya Mistral’in mistral-inference SDK’sı aracılığıyla indirilebilir. Mistral NeMo ve Codestral Mamba, Mistral AI’nın la Plateforme API’si aracılığıyla kullanılabilirken, NeMo ayrıca NVIDIA’nın NIM inference mikroservisi üzerinden, Mamba ise TensorRT-LLM kullanılarak dağıtılabilir.