w dzisiejszy wpis na bloguInżynierowie Apple podzielili się nowymi szczegółami dotyczącymi współpracy z firmą NVIDIA w celu wdrożenia szybszego generowania tekstu w modelach z dużymi językami.
Jabłko opublikowany I open source zastosowaną na początku tego roku technikę Recurrent Drafter (ReDrafter). Stanowi nową metodę generowania tekstu dzięki LLM, która jest znacznie szybsza i „osiąga najnowocześniejszą wydajność”. Łączy w sobie dwie techniki: przeszukiwanie wiązki (w celu zbadania wielu możliwości) i dynamiczną uwagę drzewa (w celu skutecznego radzenia sobie z wyborami).
Chociaż badania wykazały dobre wyniki, Apple współpracował z firmą NVIDIA w celu zastosowania ReDrafter w środowisku produkcyjnym. W ramach tej współpracy narzędzie ReDrafter zostało zintegrowane z NVIDIA TensorRT-LLM, narzędziem pomagającym szybciej uruchamiać LLM na procesorach graficznych NVIDIA.
Oto wyniki:
Aby umożliwić integrację ReDrafter, NVIDIA dodała nowych operatorów lub udostępniła istniejące, co znacznie poprawiło możliwości TensorRT-LLM w zakresie obsługi wyrafinowanych modeli i metod dekodowania. Programiści ML korzystający z procesorów graficznych NVIDIA mogą teraz z łatwością korzystać z przyspieszonego generowania tokenów ReDrafter dla swoich produkcyjnych aplikacji LLM dzięki TensorRT-LLM.
Podczas testów porównawczych modelu produkcji dziesiątek miliardów parametrów na procesorach graficznych NVIDIA, przy użyciu platformy akceleracji wnioskowania NVIDIA TensorRT-LLM w programie ReDrafter, zaobserwowaliśmy 2,7-krotne przyspieszenie generowanych tokenów na sekundę w przypadku zachłannego dekodowania. Te wyniki testów porównawczych wskazują, iż ta technologia może znacznie zmniejszyć opóźnienia, których mogą doświadczać użytkownicy, jednocześnie wykorzystując mniej procesorów graficznych i zużywając mniej energii.
„Układy LLM są coraz częściej wykorzystywane do zasilania aplikacji produkcyjnych, a poprawa wydajności wnioskowania może zarówno wpłynąć na koszty obliczeń, jak i zmniejszyć opóźnienia dla użytkowników” – podsumowują badacze Apple zajmujący się uczeniem maszynowym. „Dzięki nowatorskiemu podejściu ReDrafter do dekodowania spekulatywnego zintegrowanemu ze strukturą NVIDIA TensorRT-LLM, programiści mogą teraz korzystać z szybszego generowania tokenów na procesorach graficznych NVIDIA dla swoich produkcyjnych aplikacji LLM.”
Więcej informacji na temat tej pracy można znaleźć na stronie internetowej Apple oraz w poście na blogu w witrynie NVIDIA:
Podążaj za Chancem: Wątki, Błękitny,
I Mastodont.
FTC: Korzystamy z automatycznych linków partnerskich generujących dochód. Więcej.