Kanadyjski startup Taalas wyszedł z ukrycia z radykalnym podejściem do akceleracji AI. Zamiast budować kolejną elastyczną platformę obliczeniową, firma dosłownie wytrawiła parametry modeli językowych w strukturze krzemowego układu. Efekt? ponad 16 000 tokenów na sekundę dla Llama 3.1 8B. To dziesięć razy więcej niż potrafią najpotężniejsze systemy konkurencji, przy jednoczesnym dziesięciokrotnym obniżeniu kosztów eksploatacji.