W ramach przełomowego projektu, Poznańskie Centrum Superkomputerowo-Sieciowe (PCSS) w Polsce współpracowało z firmami NVIDIA i ORCA Computing, aby zaprezentować pierwszą na świecie hybrydową architekturę obliczeniową w PCSS, obejmującą środowisko KDM dla wielu użytkowników obsługujące wiele jednostek przetwarzania kwantowego (QPU), wraz z wykonywaniem zadań na wielu procesorach graficznych (GPU). Naukowcy z PCSS zrealizowali również hybrydowy kwantowo-klasyczny algorytm uczenia maszynowego w tym środowisku. Praca ta jest pierwszym krokiem w kierunku wykazania znaczenia integracji jednostek QPU w hybrydowych środowiskach superkomputerów kwantowych.
Aby uwolnić zwiększony potencjał obliczeń kwantowych, musimy stworzyć hybrydowe kwantowo-klasyczne środowiska obliczeniowe. Jednym z obszarów, w którym takie nowe hybrydowe architektury są już wykorzystywane, jest opracowywanie aplikacji na styku sztucznej inteligencji i obliczeń kwantowych. Sztuczne sieci neuronowe (ANN) są szeroko badaną dziedziną w naukach obliczeniowych, szczególnie ze względu na ich zdolność do modelowania złożonych wzorców za pomocą architektur głębokiego uczenia. Sztuczne sieci neuronowe są trenowane na podstawie dużych zbiorów danych poprzez dostosowywanie wag w wielu warstwach połączonych ze sobą „neuronów”. Największe najnowocześniejsze modele, takie jak duże modele językowe, stały się praktycznymi rozwiązaniami dopiero dzięki superkomputerom opartym na procesorach graficznych (GPU). Te wyspecjalizowane architektury sprzętowe znacznie skracają czas uczenia modeli poprzez zrównoleglenie i dystrybucję zadań obliczeniowych.
Obliczenia kwantowe wyłaniają się jednocześnie jako technologia transformacyjna, wykorzystująca efekty kwantowe, takie jak superpozycja, splątanie i interferencja, w celu opracowania nowych podejść do niektórych klasycznie trudnych problemów obliczeniowych. Choć obecne jednostki QPU są wciąż stosunkowo niewielkie i mierzą się z wyzwaniem wykonania poprawnej korekcji błędów, już teraz są one integrowane z istniejącymi procesami uczenia maszynowego w celu rozwiązywania określonych zadań obok układów GPU. Taka integracja pozwala jednostkom QPU przyspieszyć realizację zadań poprzez obsługę określonych podproblemów w ramach uczenia maszynowego, takich jak zadania optymalizacji lub próbkowania. Wzrastająca synergia między obliczeniami kwantowymi i uczeniem maszynowym napędza badania nad algorytmami wzmocnionymi kwantowo, szczególnie w dziedzinach takich jak kwantowe uczenie maszynowe (QML), w których systemy kwantowe mogą pewnego dnia przewyższyć wyłącznie klasyczne podejścia.
Na przykład, dodanie warstwy kwantowej do sieci neuronowej może pomóc w wyodrębnieniu złożonych wzorców i korelacji z danych, poprawiając wydajność modelu. Jednakże, w tych hybrydowych podejściach, klasyczne obliczenia pozostają kluczowe dla obsługi dużej części problemu, zmniejszając jego złożoność do poziomu możliwego do opanowania przez obecne procesory QPU.
W niniejszym wpisie na blogu pokazujemy, w jaki sposób algorytm hybrydowy może działać w hybrydowym kwantowo-klasycznym środowisku obliczeniowym z zasobami multi-QPU, multi-GPU i multi-CPU. W tym algorytmie klasyczne warstwy sieci neuronowej radzą sobie z początkowym dużym obciążeniem, zmniejszając rozmiar problemu, dzięki czemu warstwy kwantowe mogą być następnie stosowane tam, gdzie są najbardziej efektywne.
PCSS współpracowało również z firmami NVIDIA i ORCA Computing w celu opracowania innych algorytmów hybrydowych, omówionych bardziej szczegółowo w innym wpisie na blogu.
Konfiguracja sprzętowa
Efektywne uruchamianie hybrydowych modeli kwantowo-klasycznych wymaga znacznych zasobów obliczeniowych. W miarę rozwoju procesorów kwantowych ich możliwości będą rosły, ale obecnie połączenie klasycznych obliczeń superkomputerowych z jednostkami QPU oferuje obiecującą perspektywę.
W Poznańskim Centrum Superkomputerowo-Sieciowym (PCSS) z powodzeniem przeprowadziliśmy wstępne eksperymenty, aby zaprezentować znaczenie takiej hybrydowej infrastruktury. PCSS jest obecnie wyposażone w dwa fotoniczne komputery kwantowe ORCA PT-1, które działają w oparciu o technikę obliczeniową pod nazwą Boson Sampling. Każdy z tych fotonicznych systemów kwantowych obsługuje 8 zmiennych kwantowych, zwanych qumodami, i może działać w dwóch konfiguracjach: pojedynczej pętli i podwójnej pętli. Konfiguracja pojedynczej pętli wykorzystuje 7 programowalnych parametrów, natomiast tryb podwójnej pętli podnosi tę liczbę do 14, zwiększając tym samym możliwą do osiągnięcia głębię obliczeniową i złożoność.
Aby jak najlepiej wykorzystać zarówno klasyczne, jak i kwantowe zasoby, PCSS zbudowało hybrydową architekturę obliczeniową integrującą wiele wielordzeniowych procesorów CPU (4 32-rdzeniowe węzły Intel), wiele procesorów graficznych (2 procesory graficzne NVIDIA H100 Tensor Core GPUs) i dwa procesory QPU, które połączono szybką siecią. Taka konfiguracja pozwala na jednoczesne wykonywanie obliczeń hybrydowych na dużą skalę, umożliwiając wielu użytkownikom dostęp do systemu w tym samym czasie, gdy zapotrzebowanie jest wysokie.
System zarządzania zasobami i planowania zadań dla tego hybrydowego środowiska jest kontrolowany przez Slurm Workload Manager. W skrócie, Slurm zarządza dostępem do dwóch jednostek QPU poprzez system licencjonowania, zapewniając, że tylko licencjonowane zadania mogą korzystać z tych zasobów kwantowych. Zadania bez licencji mogą nadal realizować się na symulatorze kwantowym, dostarczanym przez platformę programistyczną NVIDIA CUDA-Q, umożliwiając kontynuowanie postępów nawet wtedy, gdy jednostki QPU nie są dostępne.
Oprogramowanie zainstalowane w systemie umożliwia wydajne wykonywanie hybrydowych (kwantowo-klasycznych) zadań uczenia maszynowego. Z pomocą biblioteki PyTorch, wykorzystującej funkcje CUDA, klasyczne części sieci neuronowej mogą być uruchomione na wielu procesorach graficznych. W przypadku części kwantowej, najnowsza część biblioteki NVIDIA CUDA-Q, która obsługuje backend ORCA, umożliwia kilka opcji wykonania. Część kwantowa może być uruchomiona na pojedynczej jednostce QPU lub rozproszona na obu maszynach kwantowych (w celu szybszego zebrania wyników lub zwiększenia liczby zebranych próbek). Korzystanie z symulatora kwantowego jest również bardziej efektywne w tej konfiguracji, ponieważ możliwe jest rozłożenie symulacji na wiele procesorów graficznych w celu przyspieszenia obliczeń. Możliwości te, dzięki asynchronicznym zapytaniom, pozwalają na niemal liniowe przyspieszenie obliczeń, zarówno w przypadku zapytań próbkujących na wielu procesorach graficznych, jak i symulacji na wielu procesorach graficznych.
Eksperymenty obliczeniowe
Aby zaprezentować konfigurację hybrydową, przeprowadziliśmy kilka eksperymentów. Najpierw zaprojektowaliśmy prostą sieć neuronową do klasyfikacji danych z dobrze znanego zestawu danych Iris. Korzystając z pliku konfiguracyjnego, mogliśmy łatwo przełączać się między uruchamianiem klasycznych części na CPU lub GPU, a częścią kwantową na symulatorze lub rzeczywistym sprzęcie kwantowym.
Porównaliśmy tradycyjne sieci neuronowe (posiadające w pełni klasyczne warstwy) z sieciami hybrydowymi zawierającymi warstwę kwantową. Chociaż nasze eksperymenty nie wykazały przewagi dla wszystkich sieci wzmocnionych kwantowo, zaobserwowaliśmy, że w przypadku niektórych hiperparametrów, konfiguracji i architektur modele kwantowe uczyły się wydajniej i rzadziej wpadały w lokalne optimum. Otwiera to niezwykłe możliwości dla przyszłych badań, ponieważ dowodzi kwantowej użyteczności takich algorytmów i budzi nadzieję na znalezienie rozwiązań bardziej złożonych problemów przy użyciu podobnych technik.
W drugim, bardziej złożonym eksperymencie przetestowaliśmy system na znacznie większym zadaniu: klasyfikacji ataksji rdzeniowo-móżdżkowej typu 7 na podstawie obrazów komórek przy użyciu klasyfikatora Nuclei AI. Proces szkolenia obejmował dwa etapy: najpierw szkolenie autoenkodera w celu wyodrębnienia ukrytego wektora cech z danych obrazu, a następnie wykorzystanie tego ukrytego wektora jako danych wejściowych do mniejszego modelu klasyfikacji binarnej. Zastąpiliśmy warstwę ukrytego wektora warstwą kwantową. Chociaż tylko częściowo ukończyliśmy szkolenie ze względu na jego długi czas, wstępne wyniki pokazują, że warstwa kwantowa działała równie dobrze jak warstwa ukryta w całym procesie szkolenia. W związku z tym można stwierdzić, że kwantowa warstwa ukryta o małym rozmiarze skutecznie koduje informacje potrzebne do dalszego przetwarzania.
Wnioski
Integracja obliczeń kwantowych i klasycznych ma znaczny potencjał do rozszerzenia zastosowań, które obliczenia mogą przyspieszyć, szczególnie w przypadku modeli uczenia maszynowego. Chociaż procesory kwantowe są wciąż w początkowej fazie rozwoju, wstępne badania wykazały wykonalność architektur hybrydowych obejmujących konfiguracje multi-QPU, multi-GPU i multi-CPU. Podejścia te wykorzystują mocne strony zarówno systemów kwantowych, jak i klasycznych, aby skuteczniej radzić sobie ze złożonymi zadaniami. Oczekuje się, że w miarę jak jednostki QPU będą ewoluować i staną się bardziej dostępne, ich integracja z scenariuszami uczenia maszynowego stanie się koniecznością do budowy akcelerowanych superkomputerów kwantowych potrzebnych do odblokowania takich obszarów zastosowań wzmocnionych technologiami kwantowymi..