Dlaczego Siri z Gemini to niekoniecznie dobra wiadomość dla Polaków? Oto jak to ma działać

4 godzin temu

Ostatnie doniesienia Bloomberga o tym, iż Apple jest o krok od podpisania umowy z Google na zasilenie Siri modelem Gemini, wywołały nad Wisłą falę entuzjazmu. W serca polskich użytkowników Apple wstąpiła nadzieja: „Skoro Gemini tak świetnie mówi po polsku, to jest niemal pewne, iż w końcu dostaniemy Siri w naszym języku!”.

Jestem tu, by wylać na te rozgrzane głowy kubeł bardzo zimnej wody. Uważam, iż ten sojusz to, paradoksalnie, niemal gwarancja, iż na polską Siri poczekamy jeszcze dłużej. Oto dlaczego.

Piekło niespójnego doświadczenia

Moja argumentacja jest prosta i opiera się na jednej rzeczy, którą Apple ceni bardziej niż innowacyjność, pieniądze i (teraz już widać) prywatność: obsesyjną dbałość o spójne doświadczenie użytkownika (UX).

Musimy zrozumieć, iż nowa Siri nie będzie po prostu „nakładką” Gemini na iOS czy iPadOS. Nie będzie to również Gemini wbudowany w najgłębsze rdzenie ekosystemu Apple’a, na to gigant z Cupertino nigdy nie pójdzie. Nowa Siri z Gemini będzie rozwiązaniem hybrydowym.

Mózg „cloud” (Gemini): zaawansowany model Gemini, spersonalizowany i wytrenowany na potrzeby Apple, uruchamiany na serwerach Apple Private Cloud Compute, będzie odpowiadał za całą „magię” generatywnej AI: konwersacje, odpowiadanie na złożone pytania, rozumienie kontekstu, pisanie e-maili i streszczanie artykułów.

Mózg „core” (Apple): absolutny rdzeń asystenta – czyli głęboka integracja systemowa – pozostanie w 100% w rękach Apple. Ustawianie timerów, włączanie trybu skupienia, otwieranie aplikacji, sterowanie HomeKit, dodawanie przypomnień. Tego Apple nie odda nikomu.

I tu jest pies pogrzebany. Ten „core” od Apple nie mówi i nie rozumie po polsku.

Wyobraźmy sobie teraz ten „idealny” scenariusz, na który liczą Polacy. Apple włącza polski w Gemini, ale „core” pozostaje po angielsku. Doświadczenie użytkownika wyglądałoby tak:

Użytkownik: „Cześć Siri, opowiedz mi o historii dynastii Jagiellonów”. Siri (głosem Gemini, po polsku): „Oczywiście. Dynastia Jagiellonów panowała w Polsce w latach...” (piękna, płynna odpowiedź). Użytkownik: „Dzięki. A teraz ustaw minutnik na 10 minut”. Siri (głosem Apple Core, po angielsku): „Sorry, I didn't get that. Can you please repeat?”

To jest scenariusz rodem z koszmaru projektanta UX w Cupertino. To jest niespójne, toporne i psuje całą iluzję inteligentnego asystenta. Apple nigdy na to nie pozwoli.

Dlatego, moim zdaniem, stanie się coś odwrotnego. To nie Gemini magicznie nauczy „core” polskiego. To Apple „wytnie” nasz język z Gemini, aby zachować spójność doświadczenia na maksymalnym poziomie. Dopóki Apple samo nie opracuje i nie przetrenuje swojego systemowego „core” w naszym języku (nie zrobili tego przez ponad dekadę, nie zanosi się na zmianę w tej materii), dopóty cała reszta asystenta – choćby jeżeli jest „wypożyczona” od Google – pozostanie dla nas niedostępna.

Jak oni w ogóle chcą to uruchomić?

Abstrahując od naszych lokalnych problemów, pozostaje pytanie: jak Apple zamierza uruchomić model o skali 1,2 biliona parametrów dla setek milionów użytkowników Siri, nie topiąc przy tym swoich serwerów i nie bankrutując na kosztach inferencji?

Dla porównania, obecny model Apple Intelligence w chmurze ma mieć „zaledwie” 150 miliardów parametrów. Uruchomienie modelu 1,2 biliona dla wszystkich zapytania byłoby obliczeniowym koszmarem.

Odpowiedzią jest architektura, którą ten model niemal na pewno wykorzystuje: Mixture of Experts (MoE), czyli „Mieszanka Ekspertów”. Zamiast jednego, gigantycznego „mózgu” (modelu), który musi analizować każde zapytanie w całości, architektura MoE działa jak wyspecjalizowany zespół.

Model o wielkości 1,2 biliona parametrów jest podzielony na dziesiątki mniejszych „ekspertów” (podsieci neuronowych). Każdy jest wyspecjalizowany w czymś innym – jeden w gramatyce, inny w matematyce, kolejny w analizie kontekstu, a jeszcze inny w kodowaniu.

Gdy zadajesz pytanie, trafia ono najpierw do „menedżera” (tzw. sieci bramkującej, z ang. gating network). Menedżer błyskawicznie analizuje Twoje zapytanie i aktywuje tylko tę niewielką grupę ekspertów, która jest najlepsza do udzielenia odpowiedzi. Reszta pozostaje uśpiona.

Zdolność giganta, koszt malucha

Tu leży sedno geniuszu tego rozwiązania. Chociaż całkowita „wiedza” modelu jest gigantyczna (1,2 biliona parametrów), do obsłużenia pojedynczego zapytania aktywowana jest tylko niewielka jej część – na przykład kilkadziesiąt miliardów parametrów (wciąż sporo, ale do udźwignięcia dla takiego potentata jak Apple).

W praktyce Apple otrzymuje zdolności ogromnego modelu AI, ale ponosi koszty obliczeniowe zbliżone do uruchomienia znacznie mniejszego modelu. To właśnie ta architektura sprawia, iż umowa z Google jest technicznie i finansowo wykonalna.

Pozwala to Apple „wynająć” super-mózg, uruchomić go na własnej infrastrukturze Private Cloud i kupić sobie czas na rozwój własnych modeli. Niestety, ta techniczna elegancja w żaden sposób nie rozwiązuje naszego polskiego problemu. Rdzeń pozostaje w Cupertino. I przez cały czas milczy.

Jeśli artykuł Dlaczego Siri z Gemini to niekoniecznie dobra wiadomość dla Polaków? Oto jak to ma działać nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.

Idź do oryginalnego materiału