Apple współpracuje z firmą NVIDIA w celu zbadania większej wydajności LLM

cyberfeed.pl 2 miesięcy temu

w dzisiejszy wpis na bloguInżynierowie Apple podzielili się nowymi szczegółami dotyczącymi współpracy z firmą NVIDIA w celu wdrożenia szybszego generowania tekstu w modelach z dużymi językami.

Jabłko opublikowany I open source zastosowaną na początku tego roku technikę Recurrent Drafter (ReDrafter). Stanowi nową metodę generowania tekstu dzięki LLM, która jest znacznie szybsza i „osiąga najnowocześniejszą wydajność”. Łączy w sobie dwie techniki: przeszukiwanie wiązki (w celu zbadania wielu możliwości) i dynamiczną uwagę drzewa (w celu skutecznego radzenia sobie z wyborami).

Chociaż badania wykazały dobre wyniki, Apple współpracował z firmą NVIDIA w celu zastosowania ReDrafter w środowisku produkcyjnym. W ramach tej współpracy narzędzie ReDrafter zostało zintegrowane z NVIDIA TensorRT-LLM, narzędziem pomagającym szybciej uruchamiać LLM na procesorach graficznych NVIDIA.

Oto wyniki:

Aby umożliwić integrację ReDrafter, NVIDIA dodała nowych operatorów lub udostępniła istniejące, co znacznie poprawiło możliwości TensorRT-LLM w zakresie obsługi wyrafinowanych modeli i metod dekodowania. Programiści ML korzystający z procesorów graficznych NVIDIA mogą teraz z łatwością korzystać z przyspieszonego generowania tokenów ReDrafter dla swoich produkcyjnych aplikacji LLM dzięki TensorRT-LLM.

Podczas testów porównawczych modelu produkcji dziesiątek miliardów parametrów na procesorach graficznych NVIDIA, przy użyciu platformy akceleracji wnioskowania NVIDIA TensorRT-LLM w programie ReDrafter, zaobserwowaliśmy 2,7-krotne przyspieszenie generowanych tokenów na sekundę w przypadku zachłannego dekodowania. Te wyniki testów porównawczych wskazują, iż ta technologia może znacznie zmniejszyć opóźnienia, których mogą doświadczać użytkownicy, jednocześnie wykorzystując mniej procesorów graficznych i zużywając mniej energii.

„Układy LLM są coraz częściej wykorzystywane do zasilania aplikacji produkcyjnych, a poprawa wydajności wnioskowania może zarówno wpłynąć na koszty obliczeń, jak i zmniejszyć opóźnienia dla użytkowników” – podsumowują badacze Apple zajmujący się uczeniem maszynowym. „Dzięki nowatorskiemu podejściu ReDrafter do dekodowania spekulatywnego zintegrowanemu ze strukturą NVIDIA TensorRT-LLM, programiści mogą teraz korzystać z szybszego generowania tokenów na procesorach graficznych NVIDIA dla swoich produkcyjnych aplikacji LLM.”

Więcej informacji na temat tej pracy można znaleźć na stronie internetowej Apple oraz w poście na blogu w witrynie NVIDIA:

Podążaj za Chancem: Wątki, Błękitny,