Meta zaprezentowała MobileLLM-R1 – rodzinę otwartych modeli językowych do zadań matematycznych, naukowych i programistycznych, które przewyższają większe systemy pod względem skuteczności.
Meta AI ogłosiła premierę nowej rodziny modeli językowych MobileLLM-R1, zaprojektowanych specjalnie z myślą o urządzeniach o ograniczonych zasobach, takich jak telefony czy tablety. Modele te określane są mianem „edge reasoning”, co oznacza, iż potrafią wykonywać zaawansowane zadania obliczeniowe bezpośrednio na urządzeniu końcowym. Największy wariant liczy 950 milionów parametrów, co stanowi mniej niż miliard – a mimo to osiąga wyniki, które przewyższają znacznie większe systemy konkurencji.
MobileLLM-R1 dostępny jest w trzech wersjach: około 140M, 360M oraz 950M parametrów. Największy model – MobileLLM-R1-950M – osiąga około pięciokrotnie wyższą dokładność w benchmarku MATH w porównaniu z modelem Olmo-1.24B i dwukrotnie lepsze wyniki niż SmolLM2-1.7B, mimo iż jest od nich mniejszy. Podobną przewagę odnotowano w testach związanych z programowaniem i zadaniami naukowymi, co czyni go nowym punktem odniesienia dla tego typu zastosowań.

Co istotne, MobileLLM-R1 nie jest uniwersalnym chatbotem przeznaczonym do swobodnej konwersacji. Modele zostały dostrojone do ściśle określonych zadań: rozwiązywania problemów matematycznych, generowania i analizy kodu (Python, C++) oraz zadań naukowych. Dzięki temu udało się znacząco zoptymalizować ich działanie pod kątem rozumowania.
Meta podkreśla również efektywność procesu treningowego. Model 950M wytrenowano na mniej niż 5 bilionach tokenów, z czego około 2 miliardy stanowiły dane wysokiej jakości. Dla porównania, model Qwen3-0.6B wymagał aż 36 miliardów tokenów, aby osiągnąć porównywalne wyniki. To pokazuje, iż w przypadku MobileLLM-R1 kluczową rolę odegrała nie tyle ilość, co jakość danych.
Zgodnie z filozofią transparentności Meta udostępniła nie tylko same modele, ale również pełne receptury treningowe i dane, co pozwala społeczności badawczej na ich analizę i dalsze eksperymenty. Należy jednak podkreślić, iż obowiązuje licencja FAIR NC (non-commercial), która ogranicza wykorzystanie modeli wyłącznie do celów badawczych i niekomercyjnych.