Konkurencja dla ElevenLabs — otwarty model, nowość od Google

6 godzin temu

Do niedawna ElevenLabs, startup dwóch Polaków, wydawał się niekwestionowanym liderem generowania głosu przez AI. To zaczęło się zmieniać wraz z pojawieniem się Advanced Voice Mode, a teraz konkurencja dla ElevenLabs jeszcze się zagęszcza — pojawił się Dia, chwalony za jakość otwarty model generowania głosu, a podsumowania głosowe w NotebookLM są w końcu dostępne w 50 językach, w tym po polsku, a nie jak dotąd jedynie po angielsku.

Konkurencja dla ElevenLabs. Za darmo

Dosłownie kilka dni temu pojawiła się Dia — niewielki, bo liczący zaledwie 1,8 mld parametrów model syntezy mowy (ang. text-to-speech) od startupu Nari Labs. Na tyle mały, by uruchomić go na domowym pececie z sensowną kartą graficzną Nvidii.

Dia, nie dość, iż jest darmowy, to daje jeszcze większą kontrolę nad generowaną mową niż dotychczasowe modele generowania mowy. Użytkownicy mogą oznaczać zmiany mówców dzięki tagów takich jak [S1] i [S2], oraz dodawać wskazówki typu (śmiech), (kaszel) lub (odchrząknięcie), aby wzbogacić generowaną mowę o zachowania niewerbalne.

Jak to się udaje modelowi od Nari Labs i jak wypada porównanie z mową generowaną przez ElevenLabs? Możecie sprawdzić sami na tej stronie. Spoiler alert: ElevenLabs ma się czym martwić.

Podstawową wadą modelu Dia jest to, iż generuje mowę tylko w jednym języku — po angielsku.

Darmowe Text To Speech nadciągają!

Kolejną darmową usługą, która będzie konkurować z produktami ElevenLabs, są podsumowania audio w NotebookLM od Google. Jak dotąd, podobne podsumowania od jednorożca Polaków miały podstawową przewagę nad produktem Google w postaci tego, iż były dostępne w 30 językach. Teraz ta przewaga znika — podsumowania audio w Google mogą być generowane w aż 50 językach.

Google znacznie ułatwił zmianę języka, w jakim generowane są treści — zarówno audio jak i tekstowe — przez NotebookLM. Wcześniej, by zmienić język, musieliśmy zmienić ustawienie dla całego naszego konta Google. Zdecydowanie nie było to wygodne. Teraz po prostu idzie się do ustawień NotebookLM, wybiera się pozycję Język generowanych treści i voilà — notatnik Google zaczyna do nas przemawiać w jednym z 50 języków, w tym tak egzotycznych jak kreolski haitański.

Dotychczasowe podsumowania audio w NotebookLM — te po angielsku — były chwalone za to, iż głosy brzmiały bardzo naturalnie i były wciągające. Słuchało się ich jak podcastów dwójki doświadczonych dziennikarzy radiowych lub telewizyjnych. Po polsku aż tak dobrze nie jest. Głosy brzmią bardziej sztucznie i są mniej wciągające. Dla osób dobrze znających angielski, słuchanie podsumowań audio w tym właśnie języku prawdopodobnie pozostanie preferowaną opcją.

Startup Polaków zagrożony?

Czy pojawienie się nowych darmowych produktów od konkurencji jest zagrożeniem dla ElevenLabs? Na pewno wyzwaniem. Synteza mowy przez model Dia faktycznie brzmi bardziej naturalnie, a zachowania niewerbalne dodają wytwarzanej przez niego mowie autentyczności. Jednorożec Polaków ma więc pracę do odrobienia.

Musimy jednak pamiętać, iż ElevenLabs to nie jeden model, ale cały ekosystem produktów związanych z generowaniem mowy, a choćby dźwięków niewerbalnych. Mamy więc model speech-to-speech, pozwalający na transformację jednego głosu w inny, zachowując przy tym oryginalną intonację i emocje, mamy klonowanie głosu, mamy automatyczne tłumaczenie i dubbing materiałów wideo na różne języki, z zachowaniem charakterystyki głosu oryginalnego mówcy. ElevenLabs oferuje również model generujący dźwięki do klipów wideo.

Nie należy się więc raczej spodziewać, iż temu bogatemu ekosystemowi zagrozi darmowy model oferujący tylko ułamek usług z repertuaru ElevenLabs. Ale Piotr Dąbkowski i Mateusz Staniszewski, założyciele spółki, muszą pozostać czujni. Konkurencja nie śpi.

Źródło grafiki: DallE 3

Idź do oryginalnego materiału