Mistral AI 3 yeni modelle yapay zeka alanında devrim yaratmayı hedefliyor

Mistral AI, yapay zeka alanında devrim yaratacak üç yeni dil modelini tanıttı: Mistral NeMo, Codestral Mamba ve Mathstral. Mistral NeMo, 12 milyar parametreli genel amaçlı bir LLM olarak geniş bir bağlam penceresi sunarken, Codestral Mamba, hız ve performans avantajı sağlayan yeni Mamba mimarisiyle dikkat çekiyor. Mathstral ise matematik ve STEM konularında üstün akıl yürütme kapasitesi sunuyor. Tüm modeller, Apache 2.0 lisansı altında açık kaynak olarak sunuluyor ve Huggingface ile Mistral'in SDK'sı aracılığıyla erişilebilir.

8 Ağustos 2024, 14:05 yayınlandı 8 Ağustos 2024, 14:08 güncellendi

Mistral AI, yapay zeka alanındaki yeniliklerine devam ederek üç yeni açık ağırlıklı dil modelini tanıttı: Mistral NeMo, Codestral Mamba ve Mathstral. Tüm bu modeller Apache 2.0 lisansı altında sunuluyor.

YENİ DÖNEMİN KÜÇÜK AMA GÜÇLÜ MODELİ

Mistral NeMo, 12 milyar parametreye sahip genel amaçlı bir LLM olarak tanımlanıyor ve 128k tokenlık geniş bir bağlam penceresi sunuyor. Hem temel hem de talimatlarla eğitilmiş versiyonları mevcut olan bu model, Çince, Japonca, Arapça ve Hintçe gibi 11 dilde güçlü performans sergiliyor. Tekken adlı yeni bir tokenizer geliştiren Mistral, bu modelin kaynak kodu ve doğal dili daha verimli bir şekilde sıkıştırabildiğini belirtiyor. NeMo, LLM benchmarklarında, benzer boyuttaki Gemma 2 9B ve Llama 3 8B gibi modellere göre üstün sonuçlar elde ediyor.

YENİ MAMBA MİMARİSİYLE HIZLI VE GÜVENİLİR

Codestral Mamba, Transformer mimarisine alternatif olarak geliştirilen Mamba mimarisine dayanıyor. Mamba modelleri, Transformers’dan daha hızlı çıkarım sağlıyor ve teorik olarak sonsuz bağlam uzunluğuna sahip. Mistral, bu modelin kullanıcılarına “giriş uzunluğuna bakılmaksızın hızlı yanıtlar” sunma yeteneğini vurguluyor ve büyük Transformer tabanlı modellerle “eşdeğer” performans sağladığını belirtiyor.

‘MATEMATİK VE AKIL YÜRÜTMEDE DEVREYE GİRİYOR’

Mathstral, STEM konularında performansı artırmak amacıyla Project Numina işbirliğiyle geliştirildi. Mistral 7B modeline dayanan Mathstral, birçok benchmarkta “gelişmiş akıl yürütme kapasitesi” sağlıyor. MMLU üzerinde %63.47 ve MATH üzerinde %56.6 sonuçlar elde ettiğini belirten Mistral AI, bu modelin küçük boyutundaki en yüksek performansı sunduğunu ifade ediyor.

HACKER NEWS’TE KULLANICI YORUMLARI: NEMO’NUN YENİLİKLERİ

Hacker News’te Mistral NeMo hakkında yapılan tartışmalarda, modelin ne kadar VRAM/RAM gerektirdiği konusunda belirsizlikler olduğu belirtildi. Diğer kullanıcılar, NeMo’nun yeni tokenizer’ı nedeniyle popüler Ollama çerçevesi tarafından desteklenmediğini, ancak Ollama geliştiricilerinin bir hafta içinde destek eklediğini ifade ettiler.

CODESRAL MAMBA VE YEREL KODLAMA ASİSTANLARI ÜZERİNE TARTIŞMALAR

Codestral Mamba’nın, “offline” veya yerel olarak barındırılan kodlama asistanı olarak iyi bir çözüm olup olamayacağı tartışıldı. Bir kullanıcı, yerel modellerin profesyonel bağlamda kullanımı sırasında telif hakkı kodlarının yeniden üretilme riski taşıdığını belirtti.

Yeni modeller, Huggingface üzerinden veya Mistral’in mistral-inference SDK’sı aracılığıyla indirilebilir. Mistral NeMo ve Codestral Mamba, Mistral AI’nın la Plateforme API’si aracılığıyla kullanılabilirken, NeMo ayrıca NVIDIA’nın NIM inference mikroservisi üzerinden, Mamba ise TensorRT-LLM kullanılarak dağıtılabilir.

Mistral AI 3 yeni modelle yapay zeka alanında devrim yaratmayı hedefliyor

Yorum Yap