10 lat Alexy – historia asystentki Amazona

1 tydzień temu

Z Alexą jestem od jej samych początków. „Nasz związek” jest oczywiście czysto platoniczny (a adekwatnie mocno neutralny). Swoją asystentkę poznałem raczej pobieżnie. Jej pracę oceniam dobrze, ale nie bardzo dobrze. Póki co, zatrudniam ją do prostych zadań, ale liczę, iż w najbliższym czasie się poprawi. Dział HR obiecywał, iż właśnie przechodzi szkolenia i będzie wydajniejsza.

Alexa na pokładzie zegarków Fitbit.

Ten nietypowy wstęp nawiązuje oczywiście do wirtualnej asystentki głosowej Amazona, która skończyła w tym roku dziesięć lat. Już od dekady monitoruję efekty Alexy, a część z jej skillów (tak określane są umiejętności) również w swoim smart domu. Jak ewoluowała Alexa? Co czeka ją w 2025 roku? Czy w końcu przemówi po Polsku? Zapraszam na krótkie podsumowanie dziesięciu lat istnienia Alexy.


10 lat Alexy – a zaczęło się od polskiej IVONY

Oglądaliście film Her (Ona) z Joaquinem Phoenixem w roli głównej? Oglądałem go zaraz po premierze, a więc w 2013 roku. Film science fiction opowiada o samotnym pisarzu, który zapoznaje się z nowym OS interesującego gadżetu do ucha. W środku wyglądającej jak słuchawka True Wireless Stereo (tak określamy dziś bezprzewodowe „pchełki”) znalazła się Sztuczna Inteligencja przypominająca w działaniu dzisiejsze chatboty AI. Główny bohater tak wsiąkł w relację z asystentką, iż praktycznie zatracił dla niej głowę.

Niezależnie od prezentowanych tam technologii, całkiem niezłe kino! Raz, iż już wtedy poruszało temat niedalekiej przyszłości, a dwa, dość trafnie przewidziało, co czeka niebawem ludzkość. W tym samym co premiera filmu Her Amazon przejął polską firmę IVONA zajmującą się generowaniem mowy na podstawie tekstu. Tym syntezatorem dostępnym w sieci bawiłem się już kilka lat wcześniej. Amerykański gigant kupując firmę z naszego kraju zasygnalizował zainteresowanie bardzo konkretnym segmentem rynku. W następnym roku zademonstrowano gadżet przyszłości – smart głośnik Echo z Alexą na pokładzie. Asystentką głosową, która miała zmienić podejście do interakcji z elektroniką, aplikacjami i wieloma innymi rozwiązaniami.

Przykładowe komendy (i jednocześnie skille) Alexy:

  • „Alexa, set the alarm at…” (do ustawiania budzika)
  • „Alexa, turn on lights in the kitchen” (zapalanie świateł w kuchni)
  • „Alexa, what will the weather be like Tomorrow?” (pytanie o jutrzejszą pogodę)
  • „Alexa, play Madonna playlist od Spotify” (uruchamiania playlisty muzycznej w serwisie streamingowym)

Na wybranych rynkach Alexa integruje się z różnymi aplikacjami. Możemy na przykład poprosić asystentkę o zamówienie pizzy w restauracjach Domino’s lub Pizza Hut. Generatywne odmiany chatbotów pozwalają na zlecenie tego głosem pomocnika, ale tego Alexa jeszcze nie potrafi.


Alexa w telefonie, głośniku, okularach, czy słuchawkach

Amazon Echo Plus (foto: Amazon)

Alexa w 2014 roku była innowacją. Pokazała się na rynku jeszcze przed Asystentem Google, a potem razem z nim zdominowała segment wirtualnych pomocników i wyznaczała trendy. Trendy, które ciekawiły, zwłaszcza w regionach kompatybilnych językowo z możliwościami asystentki. Alexę zaproponowano w całkowicie nowej kategorii smart urządzeń, a mianowicie w inteligentnych głośnikach. Urządzenia serii Echo mają dziś mnóstwo odmian, a sam pomocnik odpowiadający na pytania i reagujący na komendy głosowe dotarł też do urządzeń obsługujących telewizory (Fire TV), słuchawek (Echo Buds), czy okularów (Echo Frames). Alexa oferowała też swoje usługi w interfejsach graficznych, tj. Echo Show, a więc smart ekranach.

Każde z wymienionych urządzeń mogło do tego liczyć na dodatkowe, bardziej unikatowe skille, czyli możliwości interakcji i zwracania wyników. Generalnie Alexa potrafiła odpowiadać na pytania, wykonać jakieś zadanie w obrębie wspieranych aplikacji/serwisów, czy uruchomić sceny lub akcje w inteligentnym domu. w tej chwili poziom złożoności fraz jest znacznie wyższy, a asystentka potrafi zrozumieć kontekst i prowadzić rodzaj konwersacji z użytkownikiem, ale odkąd świat poznał chatboty z generatywnymi możliwościami, Alexa okazała się ułomna. Jak się pewnie domyślacie, Amazon we właściwym czasie rozpoczął integrację z dużymi modelami językowymi (LLM), ale na efekty przyjdzie nam jeszcze poczekać. O tym konkrecie szerzej, ale za moment.

Amazon Echo Show 10 z obrotowym ekranem i podążającą za sylwetką kamerką.
Pierścień Amazon Echo Loop
Amazon Echo Dot with Clock

Dekada z Alexą, a po polsku ani me, ani be, ani kukuryku!

Zanim przejdę do najnowszego etapu w rozwoju Alexy, nie mogę przejść obojętnie obok braku wsparcie naszego języka. W 2014 roku, gdy zacząłem łączyć kropki, liczyłem, iż zakup polskiego syntezatora to szansa na rychłą premierę asystentki porozumiewającej się w naszym języku. Gdzie tam! Szybciej po polsku przemówił Asystent Google, z którego opcji korzystam w telefonie, czy w smartwatchu (ale nie w smart domu, bo tu od wielu lat brak większych postępów). Daleko asystentowi do ideału, ale potrafi sporo. Do tego pojawił się Gemini Live, więc Google działa znacznie szybciej od Amazona. Jest szansa, iż narzędzie Google przemówi niedługo po polsku. Tymczasem Alexa nie potrafi powiedzieć w naszym języku prawie żadnego słowa (nie licząc pojedynczych powiązanych z jakimiś ciekawostkami).

W 2023 roku podano, iż Alexa ma już ponad 130 tysięcy skillów (ten wynik w 2025 na pewno się podniesie przy okazji wdrożenia generatywnych usprawnień.

Najwyraźniej konstrukcje zdaniowe naszego dość skomplikowanego języka są zbyt skomplikowane (a tak naprawdę nasz rynek mało dla Alexy atrakcyjny, mimo, iż sam Amazon już ze swoim sklepem i własnymi produktami pojawił się w Polsce). W krajach, gdzie Amazon oferuje pełen zakres swoich usług, czyli duże kraje z najpopularniejszymi globalnie językami, Alexa była proponowana z głosami znanych osobowości. Obsługa i wybrane odpowiedzi Alexy głosami Samuela L. Jacksona, Shaquille’a O’Neala, czy Melisssy McCarthy kosztowały parę dolców. W 2023 roku program jednak wycofano. Szkoda.


Nasłuch Near Field i Alexa jako szpieg!

Jak to bywa przy nowych rozwiązaniach, również Amazon i Alexa nie ustrzegli się kontrowersyjnych początków. Urządzenia Echo wkroczyły z impetem, gwałtownie przyciągając do swoich możliwości uwagę. Opcja stworzenia listy zakupowej i pytanie o produkty w trakcie zakupów, zapisywanie ważnych notatek i organizacja kalendarza, szybkie uzyskiwanie odpowiedzi na konkretne pytania, czy po prostu polecenia sterowania domowymi urządzeniami – to robiło wrażenie. Alexa potrafiła zrozumieć komendę choćby w tłumie rozmów. W jaki sposób? Dzięki naprawdę czułym mikrofonom klasy near field. Do tego z rozpoznawaniem głosu właściciela.

Echo Dot w moim domu.

Pierwszą, stosunkowo bardzo wczesną, kontrowersją związaną z urządzeniami Echo oraz Alexą było podejrzenie o podsłuchiwanie domowników. Były choćby przypadki, iż pracownicy mieli dostęp do komend, ale dość gwałtownie przekształcono cały system nauki konwersacji w automat, do którego dostęp po stronie serwera był ograniczony. Już nie do końca kojarzę całej sytuacji, ale gwałtownie „rozeszło się po kościach”. Mimo wszystko, co bardziej ogarnięci w technologiach dostrzegli problem i do asystentów podchodzą z ograniczonym zaufaniem. Ja również, choć zdaję sobie sprawę, iż równie dobrze podsłuchać nas bardzo łatwo przez telefon. Amazon już od drugiej generacji (dziś już w każdym modelu) urządzeń Echo oferuje fizyczny pstryczek do odcięcia nasłuchu i podglądu (jeśli posiadamy odmianę z kamerką).

Myślę, iż warto w tym momencie zaznaczyć, iż współcześni asystenci głosowi idą w kierunku usunięcia frazy wybudzającej, która dotąd utrzymuje nas w przekonaniu, iż nasłuch odbywa się dopiero po wypowiedzenia imienia wirtualnego pomocnika. Czy to Alexy, czy Asystenta Google, czy Siri od Apple.

Paradoksalnie poważniejszym zagrożeniem ze strony Alexy okazała się jej łatwa obsługa i dostępność, co rodziło pytania w obrębie użytkowania jej przez najmłodszych. Rodzice zaczęli dostrzegać niebezpieczeństwa związane z zakresem informacji, do których może mieć dostęp asystentka. Po pewnym czasie Amazon zareagował i uruchomił dziecięcą, ograniczoną wersję Alexy. Przy okazji oferując głośniczki w specjalnym wydaniu Kids. Gigant zapewnił też, iż nie ma mowy o żadnym nasłuchu, a dane najmłodszych nie są zagrożone. Alexa oferuje w tej formie przyjazne odpowiedzi, odpowiedni język, pomoc w nauce, no i edukacji ogółem.

Na przestrzeni ostatnich lat czytałem sporo doniesień o skilla naruszających prywatność użytkowników. Głównie w obrębie tych third-party, które dostarczali do biblioteki partnerzy Amazona (produkujący urządzenia, ale i aplikacje korzystające z asystentki głosowej przez API. Ryzykowne umiejętność Alexy, te które naruszały zasady twórców, były blokowane podczas certyfikacji lub ewentualnie dezaktywowane po ich publikacji.


„Alexa, Let’s Chat!” – asystentka z generatywną AI

Algorytmy generatywnej AI wkroczyły na rynek pod koniec 2022 roku, gdy OpenAI przedstawił ChatGPT. Okres ten okazał się przełomowy dla całego rynku. Nie tylko segmentu technologii, ale wielu, naprawdę wielu pochodnych, a choćby nie związanych bezpośrednio ze Sztuczną Inteligencją branż. Duże modele językowe i nowe silniki zmieniły podejście do tematu generowania treści, tworzenia cyfrowych materiałów, a tym samym pracy w niemal każdym środowisku. Niemal każda marka zaczęła integrować swoje aplikacje z AI, a te bardziej znane modelować własne rozwiązania. Uczenie od podstaw jest zbyt czasochłonne i kosztowne, a rezultaty ciężkie do przewidzenia. Dobrym przykładem jest tu Amazon, który już jesienią 2023 roku (czyli rok po starcie nowej ery) zapowiedział nowy etap Alexy. Amerykański gigant obiecał bardziej inteligentną asystentkę.

Niestety, tylko zapowiedział. Tryb „Alexa, Let’s Chat” nie doczekał się premiery, a coroczną prezentację produktową (jesienną) przełożono na 2025 rok. Alexa z generatywnymi skillami na dziesięciolecie istnienia rozwiązania byłaby w sam raz, ale temat się nie udało. Prezentacja nowych możliwości Alexy potwierdza podniesienie potencjału asystentki przypominając rozwiązaniami chatboty AI nowej generacji, ale z głosem. Amazon obiecuje bardziej rozbudowane konstrukcje zapytań i poleceń, łączenie wielu wątków w jeden (który Alexa zrozumie), a także bardziej naturalne rozmowy i uzyskiwanie odpowiedzi. Rozumienie skomplikowanych promptów, głębsze i trafniejsze odpowiedzi – to wszystko okazało się dla Amazona większym wyzwaniem, niż początkowo przewidywano. Miejmy nadzieję, iż Alexa zyska te umiejętności lada moment. Może również w języku polskim?


Alexa stanie się inteligentniejsza, ale… płatna?

Nie da się ukryć, iż wyraźne ulepszenia rozwiązań dzięki algorytmom AI kuszą ich monetyzacji. w tej chwili rynek dopiero uczy się wykorzystywania nowych modeli językowych również w zakresie usług. Sztuczna Inteligencja podnosi jakość obsługi, a to kusi twórców do podzielenia swoich usług na podstawowe i płatne. W tej chwili wysoka konkurencja i świeże rozwiązania utrudniają ich wdrożenie, ale bądźcie pewni – AI, prędzej czy później, będzie kosiło na nas szmal. W jakim formacie pobierania kasy? Zobaczymy. Przez cały 2024 rok po sieci krążyły przecieki na temat płatnej Alexy. Bardzo możliwe, iż część jej usług zostanie zaoferowana w jakimś pakiecie premium. Na ten moment wiadomo, iż Alexa będzie korzystać z Claude AI od Anthropic, a to może wymusić płatne subskrypcje w bardziej skomplikowanych modelach usług.

Myślę, iż pojawienie się płatnej Alexy może mieć też związek z problemami finansowymi działu Amazon.com Inc. poświęconego głosowej asystentce. Alexa nie generowała wystarczających zysków, a to wymuszało redukcje stanowisk w amerykańskiej firmie. W sieci widziałem informacje o setkach pracowników sekcji związanej z asystentką. Amerykański gigant utrzymuje jednak projekt przy życiu, bo najnowsze elementy AI mogą tchnąć w całość nowe życie. Weźmy przykład inteligentnych okularów, choćby niekoniecznie tych z wyświetlaczami. Echo Frames trzeciej generacji pozwalają korzystać z asysty Alexy, a wraz z generatywną jej postacią cały zestaw może sporo zyskać.


Amazon Astro, czyli eksperyment z Alexą na kółkach

Alexa w Echo Glow z lapmką LED (foto: Amazon).

Amazon ma już swoje lata, ale jest jednym z gigantów świata technologii z krótszą historią. Firma ma już trzydzieści lat, co jak na swoją pozycję i udziały, jest wiekiem młodym. Podobnie zresztą do Google. Obie firmy (obie z asystentami głosowymi) zbudowały swój brand na chęci udziału w eksperymentach. Przecież już sama Alexa była odważnym, choć na pewno przemyślanym krokiem na przód. Przez dekadę istnienia asystentki Amazon pokazał wiele nietypowych urządzeń. Były choćby takie lata, iż dział R&D demonstrował po kilka oryginalnych produktów, jak np. pierścień z mikrofonem, czy lampka LED. Nic jednak nie przebiło Astro, czyli robota na kółkach, który działał nie tylko jak asystent, ale też strażnik domu.

Amazon Astro był na tyle nietypowy, iż ledwie po 10 miesiącach istnienia na rynku zakończono jego wsparcie. Generalnie propozycja była interesującym i logicznym rozwinięciem Alexy, ale (podobnie jak niegdyś okulary Google Glass) nie gotowy na erę, w której zadebiutowały. Astro potrafił reagować na komendy w sposób bardziej interaktywny. Miał swój ekran i był zdolny do przemieszania się po mieszkaniu. Koncepcja była prosta: robot miał oferować swoje usług w ramach bardziej bezpośredniej asysty. Przy okazji pilnował domu i to w sposób aktywny, bo poruszając się po całym budynku. Wydaje się, iż urządzenie z racji pewnych ograniczeń nie miało większego zainteresowania, choć zakresem funkcji kusiło pewnie niejednego.


10 lat Alexy – podsumowanie asystentki Amazona

Pozostaje tylko podsumować minioną dekadę Alexy na rynku. Amazon był w temacie pionierem, podobnie jak wcześniej z Kindle’ami. Asystentka głosowa dysponuje ogromnym, wciąż jeszcze niewykorzystanym potencjałem. Przechodziła swoje wzloty i upadki, ale przez cały czas trzyma się na nogach. Przechodzi właśnie metamorfozę w integracji z AI, co może pokazać, jak Amazon widzi kolejne dziesięć lat istnienia całego projektu. Ma tu do zaoferowania bardzo wiele. Byle pomysłowo, bezpiecznie i… niedrogo. Liczyłem, iż ten materiał przygotuje bezpośrednio po jesiennej prezentacji produktowej, ale marka wyjątkowo jej nie zorganizowała. Wszyscy uważają, iż z powodu opóźnień z rozwiązaniami Sztucznej Inteligencji. Temat zatem przesunięto na 2025 rok i dopiero wtedy dowiemy się, co interesujące (i kiedy) będzie proponować Alexa 2.0.

Mój Amazon Echo Show 15, czyli jeden z większych smart ekranów z Alexą na pokładzie (najnowszy model ma 21″).

Na koniec pozwoliłem sobie przyszykować mały kącik ciekawostek dot. Amazon Alexy.

  • Alexa zadebiutowała 6 listopada 2014 roku (w głośniki Amazon Echo)
  • posiadając aktywne Alexa Calling można porozumiewać się między urządzeniami, np. rozstawianymi po domu (w ramach tzw. intercomu) lub poprosić asystentkę o odszukanie telefonu („Alexa, find my phone”)
  • „Alexa, let’s play a game” – tak, na ekranowe modele głośników są gry!
  • Alexa potrafi opowiadać żarty (są też suchary)
  • asystentka potrafi szeptać, by nie hałasować, gdy potrzebujemy ciszy
  • użytkownicy mogą ustawić szybkość mowy wirtualnej asysty
  • im więcej smart urządzeń w naszym domu, tym ciekawsze rutyny można stworzyć
  • na start Alexa oferowała 80 000 umiejętności (dziś wynik zbliża się gdzieś do 150 tys.)
  • w 2019 roku Amazon miał sprzedanych już ponad 100 milionów urządzeń z Alexą (był liderem segmentu)
  • Alexa obsługuje sporo serwisów streamingowych, nie tylko własny (Amazon Music Unlimited)
  • głośniki z Alexą mogą pracować w multi-roomowych sieciach (Amazon ma choćby subwoofery)
  • Amazon zaproponował swoje głośniczki i smart ekrany z Alexą w formie kontrolerów Matter (standardu, który pozwala na szybsze integrować inteligentnych modułów z innymi platformami smart home
  • Aleksie przygotowano sporo tzw. Easter Eggów (zarówno muzycznych, jak i filmowych)

Idź do oryginalnego materiału