Centrum Informatyczne Trójmiejskiej Akademickiej Sieci Komputerowej (CI TASK) to jeden z największych ośrodków superkomputerowych w Polsce. Gromadzi i udostępnia środowisku naukowemu zasoby obliczeniowe w postaci komputerów dużej mocy obliczeniowej, systemów do składowania wielkich ilości danych oraz specjalistycznego oprogramowania. Na przestrzeni 20 lat istnienia CI TASK jego superkomputery m.in. modelowały skrzydła polskich i zagranicznych samolotów, wspierały badania nad nowymi materiałami i pomagały w wirtualnym testowaniu substancji leczniczych. Wykonywały także liczne symulacje i obliczenia, m.in. z dziedziny chemii, fizyki, mechaniki płynów, meteorologii, mechaniki i astrofizyki.

 REKLAMA 
 Wdrażasz KSeF w firmie 
 
Komputery dużej mocy, czyli superkomputery, stały się jednym z ważnych elementów postępu w nauce. Dzięki ośrodkom takim jak CI TASK, polscy naukowcy mogą prowadzić badania, na przeprowadzenie których w trybie laboratoryjnym mogliby czekać latami. Analiza złożonych problemów za pomocą modeli komputerowych jest przy tym znacznie tańsza.
Uprawianie nauki to nieustanne eksperymenty, z reguły bardzo kosztowne. Nasze centrum umożliwia naukowcom z całej Polski poszerzanie granic wiedzy znacznie niższym kosztem, ponieważ w przestrzeni wirtualnej kolejne próby i błędy są nieporównywalnie tańsze, niż w świecie rzeczywistym - mówi Rafał Tylman, Kierownik Działu Systemów Komputerów Dużej Mocy w Centrum Informatycznym Trójmiejskiej Akademickiej Sieci Komputerowej w Gdańsku.
Wyzwanie: Wydajność bez względu na awarie dysków

Obliczenia są wydajne, ale potrzeby zgłaszane przez środowisko naukowe z reguły są większe niż możliwości ich realizacji. Gdy w 2008 r. CI TASK uruchamiało superkomputer Galera, jego moc obliczeniowa (ok. 50 TFLOPS) plasowała go na 46. miejscu na słynnej liście Top500, będącej światowym rankingiem najszybszych superkomputerów. Galera to klaster składający się z serwerów zawierających łącznie 1344 czterordzeniowych procesorów Intel Xeon, co sumarycznie oznacza 5376 rdzeni obliczeniowych pracujących z częstotliwością 2,33 GHz. W 2012 r. Galera została rozbudowana o kolejnych 5520 rdzeni, w wyniku czego powstał klaster Galera Plus o mocy przekraczającej 100 TFLOPS. Efektywne wykorzystanie takiej mocy wymaga elastyczności w dziedzinie zarządzania zadaniami superkomputera, a także dużej wydajności składowania danych. To niby oczywiste, ale w praktyce to spore wyzwanie - podsystem dyskowy Galery dysponuje obecnie ponad 1,7 PB pojemności.
Elastyczność w dziedzinie składowania danych oznacza dla nas możliwość dzielenia dostępnych zasobów dyskowych według dowolnego klucza pomiędzy aplikacje działające równolegle na superkomputerze. Taki efekt można uzyskać tylko wtedy, gdy wszystkie zasoby objęte są jedną przestrzenią nazw w ramach jednego, globalnego systemu plików.

Nasze wcześniejsze superkomputery wymagały zarządzania wieloma systemami plików, co było kłopotliwe i czasochłonne. Projektując Galerę postanowiliśmy wypróbować klastrowy system plików Lustre, pozwalający na skalowanie jednej przestrzeni nazw w ramach wielu systemów dyskowych. Szybko okazało się, że to bardzo dobry wybór - wspomina Michał Białoskórski, Administrator w Dziale Systemów KDM w CI TASK w Gdańsku.
Większość środków dostępnych na potrzeby budowy superkomputera Galera CI TASK przeznaczyło na warstwę obliczeniową. Podsystem składowania danych został potraktowany drugoplanowo, co jednak wkrótce dało o sobie znać. Relatywnie słaba moc kontrolerów macierzy w połączeniu z dużą liczbą dysków o dużej pojemności sprawiła, że czas odbudowy grup RAID po awarii dysku był bardzo długi, co zmniejszało wydajność całego środowiska. Planując kilka lat później zakup nowego środowiska do składowania danych dla Galery, CI TASK postanowiło zainwestować w rozwiązanie gwarantujące wydajną pracę systemu składowania danych, nawet w przypadku utraty kilku dysków jednocześnie.
Środowisko pamięci masowych superkomputera Galera Plus pełni rolę magazynu tymczasowego dla ‘surowych' danych będących wynikami obliczeń. W związku z tym awaria dysku to dla nas problem głównie wydajnościowy. Gdy macierz rozpoczyna automatyczne odbudowywanie woluminu logicznego, spada wydajność całego podsystemu dyskowego, a w rezultacie superkomputera jako całości. W przeciwieństwie do instalacji bazodanowych, utrata części tych danych na skutek awarii dysku jest praktycznie bez znaczenia. Brakujące dane można prognozować, a w skrajnym przypadku po prostu powtórzyć część obliczeń. Dane ostateczne przechowujemy w bezpieczny sposób, w odrębnym środowisku - mówi Rafał Tylman.
Rozwiązanie: System plików Lustre na macierzach Hitachi

Rozwiązanie spełniające oczekiwania wydajnościowe CI TASK, a jednocześnie zapewniające najwyższą użyteczną pojemność zaprezentowała w przetargu firma Wasko. Zaproponowana architektura opierała się na macierzach dyskowych Hitachi Data Systems oraz serwerach z procesorami Intel Xeon składających się na platformę dla klastrowego systemu plików Lustre. Rozwiązanie Wasko osiągnęło w testach stabilną wydajność zapisu rzędu 15 GB/s, również w trakcie odbudowy uszkodzonego dysku.
Nasze rozwiązanie składa się z trzech macierzy klasy enterprise - HUS VM do przechowywania danych oraz jednej macierzy klasy midrange - HUS 150 do przechowywania indeksów i obsługi zapytań. Platforma na potrzeby klastra Lustre obejmuje cztery dwuprocesorowe serwery do zapisu i odczytu danych oraz dwa analogiczne serwery z dyskami SSD i większą ilością pamięci RAM do zarządzania metadanymi systemu Lustre. Wszystkie serwery pracują pod kontrolą systemu Linux - mówi Krzysztof Małek, Menadżer Klientów Strategicznych w Wasko SA.
Architektura środowiska wygląda następująco. Klaster Galera składający się z 192 serwerów jest wewnętrznie połączony siecią InfiniBand w topologii fat tree. Sześć serwerów z systemem plików Lustre podłączonych jest zarówno do sieci InfiniBand, jak i do sieci SAN - za pośrednictwem kart Fibre Channel 8 Gb/s.

Na sieć SAN składają się dwa 24-portowe przełączniki Fibre Channel, do których podłączone są macierze dyskowe w układzie krzyżowym. Konfiguracja Lustre do współpracy z siecią SAN opartą na Fibre Channel była wyzwaniem w tym projekcie, zwykle bowiem Lustre nie wykorzystuje sieci SAN opartych na Fibre Channel, lecz na Ethernet/iSCSI.
Sieć SAN oparta na Fibre Channel zakłada sztywną separację zasobów pomiędzy serwerami, gdy tymczasem Lustre wymaga, by wszystkie serwery miały dostęp do wszystkich zasobów. Wydajność Lustre wynika m.in. właśnie z tego, że dane rozmieszczane są na możliwie największej liczbie dysków. Łatwo nie było, ale dzięki doświadczeniu w projektach na rzecz innych dużych klientów w dziedzinie klastrów obliczeniowych udało się nam ten problem umiejętnie rozwiązać - mówi Krzysztof Małek.
Drugim, oprócz wydajności, parametrem istotnym dla CI TASK była pojemność użyteczna podsystemu dyskowego. Wasko dostarczyło macierze z licencjami na oprogramowanie zarządzające bez ograniczeń co do liczby i pojemności dysków, co dla CI TASK miało duże znaczenie. W macierzach zamontowano łącznie 564 dysków SAS-2 pojemności 3 TB każdy. Po zdefiniowaniu grup RAID użyteczna pojemność pamięci masowych superkomputera Galera wynosi nieco ponad 1,7 Petabajtów.

Korzyści: Wydajność i nowe możliwości

CI TASK dysponuje obecnie bardzo wydajnym środowiskiem superkomputerowym. Oprócz wydajności czysto obliczeniowej, wynikającej z możliwości rozbicia kalkulacji na ponad 10 tysięcy rdzeni obliczeniowych, superkomputer Galera zyskał wielką wydajność w obszarze operacji zapisu odczytu danych w pamięciach masowych.
Udało się nam zbudować wydajne środowisko obliczeniowe. Mając do dyspozycji ponad dziesięć tysięcy rdzeni i prawie dwupetabajtowe repozytorium na dane w ramach jednego, spójnego środowiska, możemy pomagać naukowcom w rozwiązywaniu bardzo złożonych problemów naukowych - mówi Mścisław Nakonieczny, Dyrektor Trójmiejskiej Akademickiej Sieci Komputerowej w Gdańsku.
Zadania obliczeniowe polegające na modelowaniu zjawisk fizycznych, chemicznych czy inżynierskich, zwłaszcza w czasie rzeczywistym, wymagają dużej interaktywności. W takich zastosowaniach wydajna komunikacja serwerów z pamięciami masowymi jest niezbędna. Jest także wiele dziedzin analiz, w których jeden ‘przebieg' obliczeń nie wystarczy do osiągnięcia zakładanego celu. Dzięki macierzom Hitachi system plików Lustre może wreszcie pokazać swoją wydajność, tak cenioną przez środowisko specjalistów w dziedzinie superkomputerów na całym świecie - podkreśla Michał Białoskórski.
Wdrażając platformę Hitachi CI TASK zwiększył dostępność superkomputera Galera dla naukowców. To dlatego, że dzięki dużej wydajności podsystemu dyskowego możliwe stało się wydajne przetwarzanie wielu zadań obliczeniowych jednocześnie. Macierze można skonfigurować tak, by awaria jednego, czy nawet kilku uszkodzonych dysków nie wpływała istotnie na wydajność środowiska.
Dla naukowców superkomputer to wirtualne laboratorium. Gdy jedna próba nie doprowadzi do jednoznacznych wniosków, próbują jeszcze raz. Bywa, że ten sam zespół cyklicznie zleca nam obliczenia zmieniając parametry funkcji lub dane wejściowe - tłumaczy Rafał Tylman.
Rozwiązanie wdrożone przez CI TASK umożliwia dalsze swobodne skalowanie środowiska - w wielu wymiarach. Licencja na oprogramowanie macierzy nie zawiera ograniczeń dotyczących liczby dysków, kontrolerów czy ilości danych przetwarzanych w ramach środowiska.

Co więcej, macierze Hitachi mogą zarządzać innymi systemami składowania danych dzięki rozwijanym od wielu lat i sprawdzonym w dużych instalacjach funkcjom wirtualizacji zasobów.
Zakładamy, że w miarę potrzeb zgłaszanych przez zleceniodawców obliczeń zasoby mocy obliczeniowej i pamięci masowych będą powiększane - tak jak to miało miejsce przez 20 lat istnienia Centrum Informatycznego TASK. Rozwiązanie Hitachi Data Systems zapewnia nam brak ograniczeń dla wzrostu, zarówno na poziomie architektury, jak i technologii. Macierze są wyposażone w funkcje wirtualizacji zasobów, co stanowi dodatkowe ułatwienie. Upraszcza rekonfigurację środowiska, dzielenie go na logicznie niezależne części, a także migrowanie danych - mówi Michał Białoskórski. Ostatecznym celem wdrożenia systemu plików Lustre na platformie Hitachi jest przygotowanie środowiska składowania danych dla nowego klastra obliczeniowego, o mocy 10-krotnie większej (1.2 PFLOPS) niż ta, którą dysponują dziś superkomputery w CI TASK. Proces zakupu nowego superkomputera jest już w toku - dodaje Mścisław Nakonieczny.
Źródło: Hitachi

PRZECZYTAJ RÓWNIEŻ:


Back to top