Problemem AMD jest oprogramowanie ROCm. Oprogramowanie CUDA firmy NVIDIA jest przez cały czas doskonałe w rozwoju sztucznej inteligencji: raport

cyberfeed.pl 1 miesiąc temu

Bitwa o akcelerację sztucznej inteligencji w centrum danych jest, jak wie większość czytelników, szalenie konkurencyjna, a firma NVIDIA oferuje najwyższej klasy stos oprogramowania. Jednak w ostatnich latach firma AMD próbowała przejąć część przychodów, które hiperskalowerzy i producenci OEM są skłonni przeznaczyć na gamę akceleratorów Instinct MI300X dla sztucznej inteligencji i HPC. Pomimo posiadania przyzwoitego sprzętu, firma nie jest bliska wypełnienia luki w zakresie systemu w stosunku do swojej konkurentki, firmy NVIDIA. Według najnowszego raportu z Półanalizafirma badawczo-doradcza, przeprowadziła pięciomiesięczny eksperyment, używając Instinct MI300X do celów szkoleniowych i porównawczych. Odkrycia były zaskakujące: choćby przy lepszym sprzęcie stos systemu AMD, w tym ROCm, znacznie obniżył wydajność AMD.

„Porównując procesory graficzne NVIDIA z MI300X AMD, odkryliśmy, iż potencjał MI300X na papierze nie został wykorzystany ze względu na braki w stosie systemu AMD w publicznej wersji oraz brak testów ze strony AMD” – zauważyła SemiAnalytics, przełamując argumenty w zgłoś dalej, dodając, iż „Oprogramowanie AMD jest pełne błędów, przez co renderowanie od razu po wyjęciu z pudełka szkolenia z AMD jest niemożliwe. Mieliśmy nadzieję, iż AMD może wyłonić się jako silny konkurent firmy NVIDIA w zakresie szkoleń obciążeń, ale na dzień dzisiejszy AMD nie przekroczyło jeszcze fosy CUDA ze względu na słabszą niż oczekiwano kulturę zapewniania jakości systemu (QA) firmy AMD i jej gotowe rozwiązania. doświadczenie.”

NVIDIA ma ogromną przewagę w tym, iż oprogramowanie jest w pełni funkcjonalne. „Tak szybko, jak AMD próbuje zapełnić fosę CUDA, inżynierowie NVIDIA pracują w nadgodzinach, aby pogłębić tę fosę o nowe funkcje, biblioteki i aktualizacje wydajności” – zauważono w raporcie SemiAnalytics. Twórca Tinybox i Tinybox Pro Tinygrad również potwierdzili to wielokrotnie na swoim profilu X, który w przeszłości również miał ogromny problem z oprogramowaniem AMD.

Patrząc na chipy AMD Instinct MI300X i NVIDIA H100/H200 z 2023 roku, MI300X okazuje się wyraźnym zwycięzcą pod względem wydajności. Osiąga 1307 TFLOP/s dla obliczeń FP16, przewyższając H100 firmy NVIDIA, który zapewnia 989 TFLOP/s. MI300X ma 192 GB pamięci HBM3 i przepustowość pamięci 5,3 TB/s. Te specyfikacje są choćby korzystne dla NVIDII H200, która oferuje 141 GB pamięci HBM3e i przepustowość pamięci 4,8 TB/s. Chip AMD charakteryzuje się także niższym całkowitym kosztem posiadania, co oznacza, iż sama obsługa sieci jest o 40% tańsza. Na papierze chip AMD wygląda lepiej niż oferta Hopper firmy NVIDIA, ale w rzeczywistości nie tak bardzo.

Wewnętrzne zespoły AMD mają niewielki dostęp do procesorów graficznych, aby opracowywać i udoskonalać stos systemu ROCm. Tensorwave, który jest jednym z największych dostawców procesorów graficznych AMD w chmurze, przejął własne procesory graficzne i bezpłatnie udostępniał inżynierom AMD sprzęt na żądanie, aby można było naprawić oprogramowanie. To wszystko podczas gdy Tensorwave płacił za procesory graficzne AMD, wynajmując własne procesory graficzne AMD bezpłatnie. Wreszcie SemiAnalytics zauważyło, iż stos systemu AMD został ulepszony w oparciu o ich sugestie. Wciąż jednak pozostaje jeszcze długa droga, zanim firma osiągnie poziom stabilności i wydajności NVIDIA CUDA. Szczegółową analizę można znaleźć w raporcie SemiAnalytics Tutaj.

Source link

Idź do oryginalnego materiału