19.08.2025/ 20.08.4723 Sztuczna Inteligencja AI: Przemówienie inauguracyjne Erica Xu na konferencji Huawei Connect 2025- 18 września 2025 r.

https://www.huawei.com/en/news/2025/9/hc-xu-keynote-speech

Przemówienie inauguracyjne Erica Xu na konferencji Huawei Connect 2025
18 września 2025 r.

 

Panie i Panowie, dzień dobry. Witamy na Huawei Connect 2025. Miło Państwa widzieć tutaj, w Szanghaju.

Miniony rok był niezapomniany dla nas wszystkich, a szczególnie dla tych, którzy pracują nad sztuczną inteligencją lub się nią szczególnie interesują. Niespodziewany debiut DeepSeek-R1 w styczniu dał nam wszystkim przedsmak sztucznej inteligencji podczas Chińskiego Święta Wiosny. Wielu specjalistów od trenowania modeli zarywało noce, pracując nad dostosowaniem swoich metod trenowania i odtworzeniem wyników DeepSeek. W Huawei również odczuliśmy ten wpływ. Od premiery DeepSeek-R1 w styczniu do 30 kwietnia nasze zespoły ściśle współpracowały, aby upewnić się, że możliwości wnioskowania naszych układów Ascend 910B i 910C nadążają za potrzebami klientów.

Zanim zaczniemy, chciałbym powrócić do pięciu najważniejszych kwestii, które omówiłem na zeszłorocznym Huawei Connect.

  1. Zrównoważona moc obliczeniowa jest podstawą ciągłego rozwoju sztucznej inteligencji.
  2. Chiny kontynentalne przez długi czas będą pozostawać w tyle, jeśli chodzi o procesy produkcyjne półprzewodników.
  3. Zrównoważoną moc obliczeniową można uzyskać wyłącznie przy użyciu węzłów procesowych, które są praktycznie dostępne.
  4. Sztuczna inteligencja stała się dominującym źródłem zapotrzebowania na moc obliczeniową, a trend ten napędza zmiany strukturalne w systemach komputerowych.
  5. Naszą strategią jest stworzenie nowej architektury obliczeniowej oraz rozwój obliczeniowych SuperPoD i SuperCluster, aby w sposób zrównoważony sprostać długoterminowemu zapotrzebowaniu na moc obliczeniową.

W zeszłym roku chciałem rozwinąć ten ostatni punkt, ale mój zespół się nie zgodził. Dlatego dziś chciałbym skorzystać z okazji i kontynuować tam, gdzie skończyłem.

To prowadzi mnie do tematu dzisiejszego wystąpienia: Przełomowe połączenie SuperPoD: Przewodzenie nowemu paradygmatowi dla infrastruktury AI. Temat ten nawiązuje do mojego piątego punktu z zeszłego roku, który dotyczył tego, jak pracowaliśmy nad stworzeniem nowej architektury obliczeniowej i rozwojem zarówno SuperPoD, jak i SuperClusterów, które mogłyby w zrównoważony sposób zaspokoić długoterminowe zapotrzebowanie na moc obliczeniową.

Zanim przejdę do głównego tematu dzisiejszego dnia, chciałbym krótko powrócić do wpływu, jaki DeepSeek wywarł na branżę – a w szczególności na Huawei. Po udostępnieniu DeepSeek jako oprogramowania open source, nasi klienci zaczęli się z nami kontaktować, wskazując na najróżniejsze problemy z Ascendem, a także wyrażając swoje nadzieje na przyszłość. Otrzymywaliśmy mnóstwo sugestii.

Nasz zespół wziął sobie tę opinię do serca, szczegółowo ją omówił i osiągnął konsensus. 5 sierpnia 2025 roku zorganizowaliśmy w Pekinie szczyt Ascend Computing Industry Development Summit, na którym przedstawiłem oficjalną odpowiedź firmy. Niektórzy z Państwa byli obecni na tym szczycie, ale inni nie.

Chciałbym więc skorzystać z okazji i podzielić się z wami naszą odpowiedzią. Oto cztery główne wnioski:

  1. Nasza strategia monetyzacji sztucznej inteligencji (AI) skupia się na sprzęcie.
  2. W przypadku CANN udostępnimy interfejsy dla kompilatora i wirtualnego zestawu instrukcji, a także w pełni otwarte oprogramowanie. Do 31 grudnia 2025 roku udostępnimy oprogramowanie CANN w modelu open source i otwartym dostępie (oparte na istniejącej konstrukcji Ascend 910B/910C). Zsynchronizujemy plany open source i otwartego dostępu dla przyszłych wersji z premierą produktu.
  3. W przypadku naszych zestawów narzędzi i zestawów narzędzi do obsługi aplikacji serii Mind kod źródłowy zostanie w pełni udostępniony jako open source do 31 grudnia 2025 r.
  4. Udostępnimy również w pełni kod źródłowy naszych modeli fundacji openPangu.

A teraz wróćmy do dzisiejszego tematu.

DeepSeek opracował nowe metody trenowania modeli, wykorzystując znacznie mniejszą moc obliczeniową. Jednak sztuczna inteligencja ogólna (AGI) i fizyczna SI nadal będą wymagać ogromnej mocy obliczeniowej. Dlatego uważamy, że moc obliczeniowa jest – i nadal będzie – kluczowa dla SI. Dotyczy to zwłaszcza Chin.

Chipy to fundamenty mocy obliczeniowej. W Huawei chipy Ascend stanowią fundament naszej strategii obliczeniowej w zakresie sztucznej inteligencji.

Wprowadziliśmy na rynek układ Ascend 310 w 2018 roku, a układ Ascend 910 w 2019 roku. W 2025 roku układ Ascend 910C stanie się bardziej znany w branży, ponieważ zwiększyliśmy skalę wdrażania naszego systemu Atlas 900 A3 SuperPoD.

W ciągu ostatnich kilku lat nasi klienci i partnerzy zgłaszali nam sporo wymagań i nadziei dotyczących układów Ascend.

Patrząc w przyszłość, niektórzy z Was mogą zastanawiać się nad planem rozwoju chipów Huawei. To temat budzący powszechne zainteresowanie, jeśli nie największe zainteresowanie.

Pokażę wam, co dla was przygotowaliśmy. I zapewnię was: będziemy stale rozwijać procesory Ascend, aby wzmocnić fundamenty mocy obliczeniowej AI, zarówno w Chinach, jak i na całym świecie.

Przez kolejne trzy lata będziemy pracować nad trzema nowymi seriami układów Ascend: serią Ascend 950, serią Ascend 960 i serią Ascend 970 .

Seria Ascend 950 obejmuje Ascend 950PR (zoptymalizowany pod kątem prefill i rekomendacji) oraz Ascend 950DT (zoptymalizowany pod kątem dekodowania i trenowania). Oczywiście, wciąż pracujemy nad innymi układami. Teraz pokażę Wam cztery układy Ascend, które są w fazie rozwoju, a niektóre z nich wkrótce trafią na rynek.

Obecnie pracujemy nad serią Ascend 950. Procesory Ascend 950PR i Ascend 950DT będą wykorzystywać ten sam układ Ascend 950. W porównaniu do swoich poprzedników, procesory Ascend 950 będą zasadniczo mocniejsze pod wieloma względami.

Po pierwsze, układy scalone zapewnią dodatkowe wsparcie dla formatów danych o niskiej precyzji, w tym FP8, MXFP8 i MXFP4. Będą one w stanie dostarczyć 1 PFLOPS w FP8, MXFP8 i HiF8 oraz 2 PFLOPS w MXFP4. Rezultatem jest znacznie wyższa efektywność treningu i wnioskowania w całym procesie. W szczególności układy scalone będą obsługiwać opatentowany przez Huawei format danych HiF8, zapewniając poziom precyzji zbliżony do FP16 i poziom wydajności porównywalny z FP8.

Po drugie, układy Ascend 950 zapewnią mocniejsze przetwarzanie wektorowe. Osiągniemy to na trzy sposoby:

  • Przydzielenie większej ilości mocy obliczeniowej do przetwarzania wektorowego
  • Zastosowanie innowacyjnego projektu łączącego SIMD i SIMT. SIMD, skrót od „Single Instruction, Multiple Data”, umożliwia obsługę bloków wektorów w trybie potokowym. SIMT, skrót od „Single Instruction, Multiple Threads”, wspiera elastyczne przetwarzanie bardziej pofragmentowanych danych.
  • Zmniejszenie granularności dostępu do pamięci z 512 bajtów do 128 bajtów. Bardziej precyzyjna granularność jest niezbędna w przypadku dyskretnego i nieciągłego dostępu do pamięci.

Po trzecie, procesory Ascend 950 zapewnią przepustowość połączeń międzysystemowych na poziomie 2 TB/s, co jest wartością 2,5-krotnie wyższą niż w przypadku procesorów Ascend 910C.

Po czwarte, różne etapy wnioskowania mają zróżnicowane zapotrzebowanie na moc obliczeniową, pojemność pamięci i przepustowość dostępu do pamięci. Potrzeby systemów rekomendacji i trenowania modeli również są zróżnicowane. Aby sprostać tym zróżnicowanym potrzebom, zaoferujemy dwa autorskie układy HBM dla układów Ascend 950: HiBL 1.0 i HiZQ 2.0. Układy te będą sprzedawane oddzielnie z układem Ascend 950. W rezultacie układ Ascend 950PR będzie służył do wstępnego wypełniania i rekomendacji, a układ Ascend 950DT do dekodowania i trenowania.

Pozwól, że przedstawię ci szczegóły.

Pierwszym układem jest Ascend 950PR, zoptymalizowany pod kątem etapu wstępnego wypełniania wniosków oraz systemów rekomendacji.

Wraz ze wzrostem popularności aplikacji opartych na agentach, rośnie również długość kontekstu, co powoduje, że generowanie pierwszych tokenów wymaga coraz większej mocy obliczeniowej. Algorytmy rekomendacji dla aplikacji e-commerce, content i mediów społecznościowych również podnoszą poprzeczkę w zakresie dokładności, opóźnień i mocy obliczeniowej.

Zarówno etap wstępnego wypełniania (prefill) w algorytmach wnioskowania, jak i algorytmy rekomendacji są obliczeniowo intensywne, z większym zapotrzebowaniem na obliczenia równoległe i mniejszym na przepustowość dostępu do pamięci. Dlatego oferujemy warstwowe rozwiązanie HBM, aby sprostać tym potrzebom. Ponieważ algorytmy wstępnego wypełniania i rekomendacji niekoniecznie wymagają ogromnych ilości pamięci, nasz układ Ascend 950PR został zaprojektowany z myślą o obsłudze tych dwóch scenariuszy dzięki HiBL 1.0, naszemu opatentowanemu, niedrogiemu HBM. HiBL 1.0 jest bardziej ekonomiczny niż bardziej wydajne HBM3E i HBM4E i pomoże naszym klientom utrzymać odpowiedni poziom wydajności, jednocześnie znacznie zmniejszając ich inwestycje w sprzęt potrzebny do systemów wstępnego wypełniania i rekomendacji.

Układ Ascend 950PR będzie dostępny w pierwszym kwartale 2026 roku. Na początku będzie obsługiwał dwa formaty produktów: karty i serwery SuperPoD.

Kolejnym układem jest Ascend 950DT, zoptymalizowany zarówno pod kątem etapu dekodowania wnioskowania, jak i szkolenia modelu.

Te dwa scenariusze mają wysokie wymagania dotyczące przepustowości połączeń i dostępu do pamięci. Właśnie tutaj pojawia się nasz HiZQ 2.0 HBM, oferujący 144 GB pamięci i przepustowość dostępu do pamięci 4 TB/s. Całkowita przepustowość połączeń tego układu osiągnie 2 TB/s.

Dodatkowe formaty danych obsługiwane przez ten układ to FP8, MXFP8, XMFP4 i HiF8.

Procesor Ascend 950DT będzie dostępny w czwartym kwartale 2026 roku.

Ascend 960 to trzeci układ w naszym portfolio.

W porównaniu z układami Ascend 950, Ascend 960 będzie miał dwukrotnie większą moc obliczeniową, przepustowość dostępu do pamięci, pojemność pamięci i liczbę portów połączeniowych. Został zaprojektowany z myślą o znacznym zwiększeniu wydajności uczenia i wnioskowania.

Ascend 960 będzie również obsługiwał opatentowany przez Huawei format danych HiF4, zoptymalizowany pod kątem 4-bitowej precyzji – zapewniając jeszcze większą precyzję niż inne rozwiązania FP4 dostępne na rynku. Ten układ przeniesie przepustowość wnioskowania na nowy poziom.

Procesor Ascend 960 będzie dostępny w czwartym kwartale 2027 roku.

Ostatnim procesorem na naszej liście jest Ascend 970, a wciąż pracujemy nad niektórymi jego specyfikacjami.

Jednak naszym ogólnym celem jest znaczne podniesienie wszystkich jego specyfikacji, co stanowi kolejny krok naprzód w wydajności uczenia i wnioskowania.

Na chwilę obecną plan zakłada podwojenie mocy obliczeniowej procesora w FP4 i FP8, podwojenie przepustowości połączeń międzysystemowych w porównaniu z procesorem Ascend 960 oraz zwiększenie przepustowości dostępu do pamięci co najmniej 1,5-krotnie.

Plan zakłada wprowadzenie na rynek modelu Ascend 970 w czwartym kwartale 2028 roku. Jestem pewien, że wydajność będzie warta czekania.

To tyle, jeśli chodzi o główne specyfikacje i plan rozwoju naszych układów Ascend. Zasadniczo będziemy przestrzegać rocznego cyklu wydawniczego i podwajać moc obliczeniową przy każdym wydaniu. W trakcie tego procesu będziemy stale rozwijać nasze układy Ascend, ułatwiając ich obsługę, obsługując więcej formatów danych i zwiększając ich przepustowość. Celem jest nadążanie za stale rosnącym zapotrzebowaniem na moc obliczeniową AI.

W porównaniu z modelami Ascend 910B i Ascend 910C nasze nowsze układy – począwszy od układów Ascend 950 – cechują się kilkoma istotnymi zmianami.

  • Zastosujemy innowacyjny projekt łączący SIMD i SIMT, dzięki czemu cały proces rozwoju stanie się bardziej przyjazny dla użytkownika.
  • Układy będą obsługiwać więcej formatów danych, w tym FP32, HF32, FP16, BF16, FP8, MXFP8, HiF8, MXFP4 i HiF4.
  • Będą one miały również większą przepustowość połączeń międzysystemowych: seria Ascend 950 zapewni 2 TB/s, a seria Ascend 970 – 4 TB/s.
  • Zapewnią również większą moc obliczeniową. Seria Ascend 950 zapewni 1 PFLOPS w FP8 i 2 PFLOPS w FP4. Ascend 960 zapewni 2 PFLOPS w FP8 i 4 PFLOPS w FP4. Ascend 970 zaoferuje 4 PFLOPS w FP8 i 8 PFLOPS w FP4.
  • Wszystkie układy będą miały większą pojemność pamięci i dwukrotnie większą przepustowość dostępu do pamięci w porównaniu do swoich poprzedników.

Układy scalone Ascend stanowią podstawę do tworzenia rozwiązań komputerowych, które spełniają potrzeby naszych klientów.

SuperPoD-y stały się głównym formatem produktów dla infrastruktury AI na dużą skalę. Stają się nową normą.

SuperPoD to pojedyncza maszyna logiczna składająca się z wielu maszyn fizycznych, które mogą się uczyć, myśleć i rozumować jako jedna całość.

W miarę jak zapotrzebowanie na moc obliczeniową będzie rosło, będzie rosła również liczba SuperPoDów.

W marcu 2025 roku Huawei oficjalnie wprowadził na rynek platformę Atlas 900 A3 SuperPoD, która zawiera do 384 procesorów Ascend 910C. Dzięki połączeniu tych wszystkich procesorów, SuperPoD działa jak pojedynczy komputer, dostarczając do 300 PFLOPS mocy obliczeniowej. Do dziś Atlas 900 A3 SuperPoD pozostaje największą platformą SuperPoD na świecie. Być może słyszeliście o CloudMatrix384. To instancja usługi chmurowej, którą Huawei Cloud zbudował na bazie naszych platform Atlas 900 A3 SuperPoD.

Od momentu premiery wdrożyliśmy ponad 300 stacji Atlas 900 A3 SuperPoD, aby obsłużyć ponad 20 klientów z sektorów takich jak dostawcy usług internetowych, telekomunikacja i produkcja. Można śmiało powiedzieć, że ta stacja SuperPoD, której premiera zaplanowana jest na 2025 rok, stanowi pierwszy kamień milowy w rozwoju platformy Huawei AI SuperPoD.

Dzisiaj chciałbym zaprezentować Wam więcej urządzeń SuperPoD i SuperClusterów opartych na układach Ascend, które są już dostępne na rynku lub wciąż znajdują się w fazie badań i rozwoju.

Pierwszym z nich jest Atlas 950 SuperPoD , zbudowany na bazie naszych układów Ascend 950DT.

  • Ten SuperPoD będzie miał aż 8192 procesory Ascend 950DT, czyli 20 razy więcej jednostek NPU niż nasz Atlas 900 A3 SuperPoD.
  • W pełnej konfiguracji Atlas 950 SuperPoD będzie składał się ze 160 szaf, w tym 128 obliczeniowych i 32 komunikacyjnych, rozmieszczonych na powierzchni 1000 m². Wszystkie te szafy będą połączone w pełni optyczną siecią.
  • To prawdziwa potęga obliczeniowa, oferująca 8 EFLOPS w FP8 i 16 EFLOPS w FP4.
  • Przepustowość połączenia międzysystemowego wyniesie 16 PB/s. Oznacza to, że pojedynczy Atlas 950 SuperPoD będzie miał przepustowość połączenia międzysystemowego ponad 10 razy wyższą niż całkowita szczytowa przepustowość internetu na całym świecie.
  • Atlas 950 SuperPoD będzie dostępny w czwartym kwartale 2026 roku.

Jesteśmy przekonani, że przez najbliższe kilka lat Atlas 950 SuperPoD pozostanie najpotężniejszym SuperPoD na świecie. I znacznie przewyższy swoje odpowiedniki pod względem wszystkich głównych parametrów.

NVIDIA planuje wprowadzić na rynek system NVL144 w drugiej połowie 2026 roku. Nasz Atlas 950 SuperPoD będzie miał 56,8 razy więcej jednostek NPU niż GPU i zapewni 6,7 razy większą moc obliczeniową. Nasz SuperPoD będzie miał 15 razy większą pojemność pamięci, sięgającą 1152 TB, i przepustowość połączeń międzysystemowych 16,3 PB/s – 62 razy wyższą niż jego odpowiednik. Nawet jeśli porównamy go z systemem NVL576, którego wprowadzenie NVIDIA planuje na 2027 rok, jasne jest, że nasz Atlas 950 SuperPoD nadal będzie liderem na wszystkich frontach.

SuperPoD zapewni znaczący wzrost mocy obliczeniowej, pojemności pamięci, szybkości dostępu do pamięci i przepustowości połączeń, co przełoży się na znacząco wyższą wydajność szkolenia i przepustowość wnioskowania.

W porównaniu z naszym Atlasem 900 A3 SuperPoD, Atlas 950 SuperPoD zaoferuje 17-krotną poprawę wydajności treningu, generując 4,91 miliona tokenów na sekundę. Dzięki obsłudze FP4 wydajność wnioskowania wzrośnie o 26,5%, generując 19,6 miliona tokenów na sekundę.

Atlas 950 SuperPoD z 8192 jednostkami NPU nie jest naszym celem końcowym. Będziemy nadal przekraczać granice.

Pozwólcie, że przedstawię nasz drugi nowy produkt SuperPoD: Atlas 960 SuperPoD . Będzie on mieścił do 15 488 procesorów Ascend 960 i będzie składał się z 220 szaf (176 obliczeniowych i 44 komunikacyjnych) rozmieszczonych na powierzchni 2200 m².

SuperPoD będzie dostępny w czwartym kwartale 2027 roku.

Atlas 960 SuperPoD będzie kolejnym krokiem naprzód dla naszych inteligentnych systemów SuperPoD.

Wyposażony w procesory Ascend 960, ten SuperPoD będzie miał dwukrotnie większą moc obliczeniową, pojemność pamięci i przepustowość połączeń niż Atlas 950 SuperPoD.

Zapewni on 30 EFLOPS w FP8 i 60 EFLOPS w FP4, a także 4460 TB pamięci i przepustowość połączeń międzysystemowych na poziomie 34 PB/s.

Atlas 960 SuperPoD będzie dostarczał 15,9 miliona tokenów na sekundę podczas treningu i 80,5 miliona tokenów na sekundę podczas wnioskowania, co oznacza, że ​​będzie 3 i 4 razy bardziej wydajny niż nasz Atlas 950 SuperPoD, odpowiednio podczas treningu i wnioskowania.

Dzięki Atlas 950 SuperPoD i Atlas 960 SuperPoD jesteśmy przekonani, że możemy zapewnić dużą moc obliczeniową na potrzeby szybkiego postępu w dziedzinie sztucznej inteligencji, zarówno dziś, jak i w przyszłości.

SuperPoD-y na nowo zdefiniowały paradygmat infrastruktury AI. Ale ich wpływ nie ogranicza się do inteligentnych obliczeń.

Mogą również wnieść znaczną wartość dodaną do zastosowań w komputerach ogólnego przeznaczenia.

W sektorze finansowym niektóre usługi o znaczeniu krytycznym są nadal realizowane na komputerach mainframe i komputerach średniej klasy – systemach, które mają wyższe wymagania dotyczące wydajności i niezawodności serwerów niż zwykłe klastry serwerów. Komputery ogólnego przeznaczenia SuperPoD charakteryzują się wysoką wydajnością i niezawodnością.

Pod względem technicznym SuperPoD-y mogą również tchnąć nowe życie w komputery ogólnego przeznaczenia.

Nasze procesory Kunpeng będą nieustannie ewoluować, aby obsługiwać SuperPoD, więcej rdzeni i wyższą wydajność. Zbudowane na naszym opatentowanym dwuwątkowym rdzeniu LinxiCore, procesory Kunpeng mogą również obsługiwać więcej wątków.

W pierwszym kwartale 2026 roku zaprezentujemy procesor Kunpeng 950 w dwóch modelach: jeden z 96 rdzeniami i 192 wątkami, a drugi ze 192 rdzeniami i 384 wątkami. Procesor ten będzie obsługiwał technologię SuperPoD do obliczeń ogólnego przeznaczenia. Zapewni czterowarstwową izolację bezpieczeństwa, co uczyni go pierwszym procesorem Kunpeng dla centrów danych z funkcjami poufnego przetwarzania.

Będziemy nadal dokonywać przełomów w procesorach Kunpeng, w tym w ich mikroarchitekturze i zaawansowanej technologii pakowania. W pierwszym kwartale 2028 roku planujemy wprowadzić dwa modele. Będzie to model o wysokiej wydajności z 96 rdzeniami i 192 wątkami, zapewniający ponad 50% wzrost wydajności poszczególnych rdzeni i idealnie sprawdzający się w takich zastosowaniach jak hosty AI i bazy danych. Drugim będzie model o wysokiej gęstości z co najmniej 256 rdzeniami i 512 wątkami – idealny do zastosowań takich jak wirtualizacja, kontenery, duże zbiory danych i magazyny danych.

Chciałbym teraz przedstawić nasz trzeci produkt na dziś: TaiShan 950 SuperPoD . Zbudowany na procesorze Kunpeng 950, ten SuperPoD będzie pierwszym na świecie uniwersalnym systemem obliczeniowym SuperPoD. Będzie posiadał do 16 węzłów, 32 procesory i 48 TB pamięci, a także pamięć, dysk SSD i pulę DPU.

Ten SuperPoD znacząco poprawi wydajność obliczeń ogólnego przeznaczenia, oferując jednocześnie idealne rozwiązanie dla sektora finansowego, który ma trudności z wymianą starszych komputerów mainframe i komputerów klasy średniej. Głównym wyzwaniem w przypadku starszych konfiguracji jest obsługa rozproszonych baz danych. Zintegrowana z TaiShan 950 SuperPoD, nasza architektura wielokrotnego zapisu GaussDB nie wymaga żadnych modyfikacji i nadal zapewnia 2,9-krotny wzrost wydajności. Ten SuperPoD może pomóc klientom z sektora finansowego w płynnym wycofaniu tradycyjnych baz danych wdrożonych na komputerach mainframe i komputerach klasy średniej. TaiShan 950 SuperPoD, w połączeniu z rozproszonym GaussDB, może stanowić realną alternatywę dla komputerów mainframe i komputerów klasy średniej, a nawet serwerów baz danych Oracle Exadata.

Oprócz baz danych o znaczeniu krytycznym, TaiShan 950 SuperPoD zapewni również solidną wydajność w innych aplikacjach. Na przykład, zwiększy wykorzystanie pamięci o 20% w środowiskach zwirtualizowanych. W przypadku obciążeń Spark, przetwarzanie danych w czasie rzeczywistym będzie szybsze o 30%.

TaiShan 950 SuperPoD będzie dostępny w pierwszym kwartale 2026 roku.

Wartość systemów SuperPoD wykracza poza inteligentne obliczenia i obliczenia ogólnego przeznaczenia. Mają one również potencjał do przekształcenia systemów rekomendacji stosowanych w sektorze internetowym – napędzając przejście od tradycyjnych algorytmów do generatywnych systemów rekomendacji. Możemy zbudować hybrydowy system SuperPoD, który łączy systemy TaiShan 950 SuperPoD i Atlas 950 SuperPoD, oferując nową architekturę dla nowych generatywnych systemów rekomendacji.

Dzięki wyjątkowo dużej przepustowości, wyjątkowo niskim opóźnieniom połączeń i wyjątkowo dużej pamięci, hybrydowy SuperPoD może utworzyć niezwykle dużą pulę pamięci współdzielonej. Ta pula pamięci obsługuje tabele osadzania o skali PB dla systemów rekomendacji, umożliwiając obsługę ultra-wielowymiarowych funkcji użytkownika. Hybrydowy SuperPoD zapewnia również ogromną moc obliczeniową AI, umożliwiając wnioskowanie i wyszukiwanie funkcji z wyjątkowo niskim opóźnieniem.

Podsumowując, hybrydowe systemy SuperPoD zapewnią nową opcję dla nowych generatywnych systemów rekomendacji.

Wielkoskalowe SuperPoD-y wynoszą inteligentne i uniwersalne systemy obliczeniowe na nowy poziom. Stanowią one również poważne wyzwanie dla technologii połączeń. Jednak dla Huawei, jako światowego lidera w dziedzinie łączności, żadne wyzwanie nie jest dla nas zbyt duże.

Podczas pracy nad definiowaniem i projektowaniem specyfikacji technicznych systemów Atlas 950 SuperPoD i Atlas 960 SuperPoD napotkaliśmy dwa główne wyzwania.

  • Pierwsze wyzwanie dotyczy komunikacji dalekiego zasięgu i niezawodności. System SuperPoD na dużą skalę składa się z wielu szaf oddalonych od siebie o wiele kilometrów. Istniejące technologie okablowania miedzianego i optycznego nie spełniają w tym zakresie wymagań. Kable miedziane zapewniają wysoką przepustowość, ale tylko w krótkim zasięgu i mogą połączyć maksymalnie dwie szafy. Z drugiej strony, kable optyczne mogą obsługiwać połączenia dalekiego zasięgu między wieloma szafami, ale ich niezawodność jest ograniczona.
  • Drugim poważnym wyzwaniem jest przepustowość i opóźnienie. Przy obecnej technologii, przepustowość między szafami i między NPU jest nadal niska: około pięciokrotnie mniejsza niż wymagana dla SuperPoD. Jeśli chodzi o opóźnienie, obecna technologia, w najlepszym wydaniu, może zapewnić opóźnienie między szafami i między NPU na poziomie około 3 mikrosekund, co nadal jest o 24% wolniejsze niż w przypadku naszych Atlas 950 i 960 SuperPoD. Obecnie obniżenie opóźnienia do 2 lub 3 mikrosekund przekracza już ograniczenia fizyczne, więc nawet poprawa o 0,1 mikrosekundy nie jest łatwa.

Huawei doskonalił swoją wiedzę specjalistyczną w dziedzinie łączności przez ostatnie trzy dekady. Łącząc tę ​​wiedzę z innowacjami systemowymi, udało nam się pokonać te wyzwania, tworząc projekty, które przekraczają podstawowe wymagania dla Atlas 950 i 960 SuperPoD. W ten sposób możemy utorować drogę dla SuperPoD z ponad 10 000 jednostek NPU.

Aby zapewnić duży zasięg i wysoką niezawodność, wbudowaliśmy niezawodność w każdą warstwę naszego protokołu połączeń, od warstwy fizycznej i łącza danych, aż po warstwy sieciowe i transmisyjne. Na ścieżkach optycznych zastosowano detekcję błędów i przełączanie zabezpieczeń na poziomie 100 ns, dzięki czemu wszelkie sporadyczne rozłączenia lub awarie są niezauważalne w warstwie aplikacji. Oznacza to, że aplikacje będą nadal działać poprawnie w przypadku wystąpienia awarii.

Zdefiniowaliśmy i przeprojektowaliśmy również komponenty optyczne, moduły optyczne i układy połączeń. Dzięki tym innowacjom i projektom zwiększyliśmy niezawodność połączeń optycznych 100-krotnie i zwiększyliśmy zasięg naszych połączeń do ponad 200 metrów. Nasza technologia połączeń łączy w sobie niezawodność miedzi z zasięgiem optycznym.

Aby zapewnić wysoką przepustowość i niskie opóźnienia, opracowaliśmy technologie agregacji wieloportowej i pakietowania o wysokiej gęstości, architekturę peer-to-peer oraz zunifikowany protokół. Wszystkie te rozwiązania zapewniają przepustowość na poziomie TB/s i opóźnienie 2,1 mikrosekundy.

Dzięki serii nowatorskich innowacji systemowych udało nam się opracować solidną technologię połączeń dla SuperPoD, która zapewnia wysoką niezawodność, całkowicie optyczne połączenia, dużą przepustowość i niskie opóźnienia wymagane w przypadku dużych SuperPoD.

Naszym celem jest zapewnienie, że Atlas 950 SuperPoD i Atlas 960 SuperPoD – które będą miały kilka tysięcy, a nawet ponad 10 000 jednostek NPU – będą działać jak komputer. Aby to osiągnąć, opracowaliśmy przełomową architekturę SuperPoD i nowy protokół połączeń dla SuperPoD.

Wartość architektury SuperPoD opartej na tym protokole połączeń jest prosta: ponad 10 000 jednostek NPU działających jak jedna maszyna. Innymi słowy, protokół może połączyć ponad 10 000 jednostek NPU, tworząc SuperPoD, który może pracować, uczyć się, myśleć i rozumować jak pojedynczy komputer.

Jeśli chodzi o samą technologię, uważamy, że architektura SuperPoD obejmująca ponad 10 000 jednostek NPU musi mieć sześć kluczowych cech, a mianowicie: połączenia na poziomie magistrali, koordynację peer-to-peer, łączenie wszystkich zasobów, ujednolicony protokół, obsługę dużej sieci i wysoką dostępność.

Nowy protokół połączeń dla SuperPoD-ów nazywa się UnifiedBus, w skrócie UB.

A dziś oficjalnie ją udostępniamy.

Dzisiaj publikujemy również specyfikację techniczną UnifiedBus 2.0. Możesz się zastanawiać, dlaczego zaczynamy od wersji 2.0.

Nasze badania nad UnifiedBus rozpoczęły się już w 2019 roku. Z powodów, które wszyscy tutaj znają, nie mamy dostępu do zaawansowanych węzłów procesowych, dlatego postanowiliśmy skoncentrować nasze wysiłki na dokonywaniu przełomów poprzez łączenie układów scalonych – w istocie łącząc więcej zasobów obliczeniowych.

Zdecydowaliśmy się na angielską nazwę protokołu połączeń międzyukładowych „UnifiedBus”. Później wymyśliliśmy chińską nazwę – „Lingqu” – która w języku chińskim odnosi się do ogromnego, dobrze skomunikowanego węzła transportowego [1] . Dzięki UnifiedBus jesteśmy w stanie łączyć zasoby obliczeniowe na masową skalę.

Nasz Atlas 900 A3 SuperPoD korzysta z technologii UnifiedBus 1.0, a jej wdrożenie rozpoczęło się w marcu 2025 r. Do tej pory wdrożyliśmy ponad 300 Atlas 900 A3 SuperPoD i w pełni przetestowaliśmy technologię UnifiedBus 1.0 w trakcie tego procesu.

Bazując na UnifiedBus 1.0, ulepszyliśmy protokół pod względem funkcjonalności, wydajności i skalowalności. Rezultatem jest UnifiedBus 2.0, który położy podwaliny pod nasz Atlas 950 SuperPoD.

Uważamy, że nadszedł czas, aby udostępnić UnifiedBus 2.0 jako otwarty protokół, który będzie mógł w większym stopniu przyczynić się do rozwoju technologii połączeń i przemysłu. Dlatego dzisiaj publikujemy jego specyfikacje techniczne. Mamy nadzieję, że partnerzy branżowi zaadaptują ten protokół i opracują więcej produktów i komponentów opartych na UnifiedBus. Razem możemy zbudować otwarty ekosystem UnifiedBus.

Podczas zeszłorocznego Huawei Connect podkreśliłem nasz cel, jakim jest zrównoważone zaspokajanie długoterminowego zapotrzebowania na moc obliczeniową poprzez budowę SuperPoD-ów i SuperKlastrów z węzłami do produkcji półprzewodników, które są praktycznie dostępne w Chinach kontynentalnych. A dziś zaprezentowałem trzy produkty SuperPoD, które właśnie to robią.

UnifiedBus został zaprojektowany dla SuperPoD. I chociaż jest to protokół połączeń dla SuperPoD, to jest to również najnowocześniejsza technologia połączeń dla klastrów obliczeniowych.

Teraz przedstawię dwa produkty klastrowe.

Pierwszym z nich jest nasz Atlas 950 SuperCluster zawierający ponad 500 000 jednostek NPU.

Atlas 950 SuperCluster będzie składał się z 64 procesorów Atlas 950 SuperPoD. Ponad 520 000 procesorów Ascend 950DT, rozmieszczonych w ponad 10 000 szafach, będzie współpracować, aby zapewnić 524 EFLOPS w FP8. Ten SuperCluster trafi na rynek w czwartym kwartale 2026 roku, jednocześnie z Atlas 950 SuperPoD.

Atlas 950 SuperCluster będzie obsługiwał zarówno protokoły UBoE (UB over Ethernet), jak i RoCE (Remote Direct Memory Access over Converged Ethernet). Dzięki UBoE, nasz protokół UnifiedBus pozwoli naszym klientom wykorzystać istniejące przełączniki Ethernet.

W porównaniu z konwencjonalnym klastrem RoCE, klaster UBoE charakteryzuje się niższym opóźnieniem statycznym i wyższą niezawodnością, a także wymaga mniejszej liczby przełączników i modułów optycznych. Dlatego zalecamy naszym klientom wybór UBoE.

Oto Atlas 950 SuperCluster: prześcignie nawet Colossusa firmy xAI, obecnie największy klaster obliczeniowy na świecie, z 2,5 razy większą liczbą jednostek NPU i 1,3 razy większą mocą obliczeniową. Atlas 950 SuperCluster bez wątpienia będzie najpotężniejszym klastrem obliczeniowym na świecie. Od istniejących modeli gęstych i rzadkich z ponad 100 miliardami parametrów, po przyszłe modele z ponad 1 bilionem, a nawet 10 bilionami parametrów, Atlas 950 SuperCluster będzie potęgą obliczeniową do trenowania modeli, napędzając wydajne i stabilne innowacje w dziedzinie sztucznej inteligencji.

Wraz z premierą Atlasa 960 SuperPoD w czwartym kwartale 2027 roku, wprowadzimy również na rynek Atlas 960 SuperCluster. Ten SuperCluster zintegruje ponad milion procesorów NPU, aby zapewnić wydajność 2 ZFLOPS w FP8 i 4 ZFLOPS w FP4.

Będzie również obsługiwać protokoły UBoE i RoCE. UBoE przeniesie wydajność i niezawodność tego SuperClustera na wyższy poziom, oferując znaczną poprawę opóźnień statycznych i średniego czasu między awariami (MTBF). Spośród tych dwóch protokołów, UBoE jest bardziej preferowaną opcją do podłączenia SuperClustera.

Mamy nadzieję, że dzięki Atlas 960 SuperCluster nasi klienci przyspieszą innowacje w swoich aplikacjach i będą mogli eksplorować nowe obszary inteligencji.

Z przyjemnością prezentuję Państwu niektóre z nowych produktów, które planujemy wdrożyć. W szczególności UnifiedBus to przełomowa technologia połączeń dla SuperPoD-ów, która stworzy nowy paradygmat dla infrastruktury AI. SuperPoD-y i SuperClustry oparte na UnifiedBus to nasza odpowiedź na rosnące zapotrzebowanie na moc obliczeniową, zarówno dziś, jak i w przyszłości.

W przyszłości zamierzamy ściślej współpracować z przedstawicielami branży i nadal rozwijać sztuczną inteligencję, aby tworzyć większą wartość.

Dziękuję!

Temat przewodni konferencji HUAWEI CONNECT 2025, której tematyka opiera się na inteligencji, będzie dotyczyć sztucznej inteligencji w trzech wymiarach: strategii, technologii i ekosystemów. Można spodziewać się dogłębnego omówienia naszych najnowszych inicjatyw strategicznych, a także zaprezentujemy nasze zupełnie nowe produkty z zakresu infrastruktury cyfrowej i inteligentnej, rozwiązania dostosowane do konkretnych branż oraz narzędzia programistyczne. Wydarzenie odbędzie się w dniach 18-20 września w Shanghai World Expo Exhibition & Convention Center oraz Shanghai Expo Center. Więcej informacji można znaleźć na stronie internetowej konferencji HUAWEI CONNECT 2025 pod adresem www.huawei.com/en/events/huaweiconnect