A presentation on less-popular threats to data centre operational continuity from "Infratech Summit. Physical Infrastructure for server rooms and data centres" conference in Warsaw/Poland, April 23, 2015 (please note that the presentation is in Polish).
1 of 37
Downloaded 13 times
More Related Content
Kilka mniej oczywistych zagrożeń dla ciągłości operacyjnej centrum przetwarzania danych
1. Kilka mniej oczywistych zagrożeń
dla ciągłości operacyjnej
centrum przetwarzania danych
Paweł Wawrzyniak
Warszawa, 23 kwietnia 2015
http://www.nordea.pl/
2. • O Nordea IT Polska sp. z o.o. (NITPL)
• Bezpieczeństwo CPD...
• Warstwa fizyczna
• Warstwa infrastrukturalna
• Warstwa organizacyjna
• Podsumowanie
3. O Nordea IT Polska sp. z o.o. (NITPL)
Nordea IT Polska sp. z o.o. została powołana do życia przez Nordea Bank AB, by wykorzystując
wiedzę i wieloletnie doświadczenie ekspertów nabyte w Nordea Bank Polska S.A., wspierać Grupę
Nordea w działaniach z obszaru IT
Z sukcesem realizujemy wiele dużych międzynarodowych projektów informatycznych, wspieramy
bank w Polsce, krajach bałtyckich i Skandynawii
Posiadamy 2 nowoczesne CPD, w których prowadzimy działalność m.in. w zakresie kolokacji i
usług powiązanych
Działamy w ramach pięciu departamentów
4. O Nordea IT Polska sp. z o.o. (NITPL)
Data Centre Services, zespół 6-7 osób:
– Wsparcie dla Nordea Operation Centre w Polsce, Łódź 700 osób (2 lokalizacje)
– Floor Management, Service Management i nadzór nad jakością usługi Primary Data Centre
– Floor Management, Service Management i nadzór nad jakością usługi Disaster Recovery Centre
– Wsparcie projektów (przedsięwzięć) realizowanych w powyższych obszarach odnośnie definicji wymagań,
definicji standardów i zgodności projektów oraz ich wykonania z wymaganiami Nordea AB (w tym projektu
migracji Nordea Bank Polska S.A. do PKO BP S.A)
5. • O Nordea IT Polska sp. z o.o. (NITPL)
• Bezpieczeństwo CPD...
• Warstwa fizyczna
• Warstwa infrastrukturalna
• Warstwa organizacyjna
• Podsumowanie
6. Bezpieczeństwo CPD…
Podstawowe założenia
• Bezpieczeństwo CPD musi być zapewnione na kilku warstwach:
• Fizycznej (lokalizacja, otoczenie, budynek, pomieszczenia, itp.)
• Infrastrukturalnej (zasilanie, chłodzenie, wyposażenie, łącza telekomunikacyjne, sieć,
serwery, sprzęt IT, oprogramowanie, itd.)
• Organizacyjnej (polityka; procesy: ITILv3; procedury; standardy: ISO 27001, ISO
27002, ISO 31000; kadry)
7. Bezpieczeństwo CPD…
Podstawowe założenia
Źródło: Protect Data - Data Backup Services
44%
32%
14%
7%
3%
Awarie sprzętowe lub
systemów
Błąd ludzki
Uszkodzenie
oprogramowania
Wirusy komputerowe
Klęski żywiołowe
8. • O Nordea IT Polska sp. z o.o. (NITPL)
• Bezpieczeństwo CPD...
• Warstwa fizyczna
• Warstwa infrastrukturalna
• Warstwa organizacyjna
• Podsumowanie
9. • Analiza ryzyka
• Dostępność stabilnego zasilania, łączy
telekomunikacyjnych
• Drogi dojazdowe
• Bezpośrednie sąsiedztwo i charakter
prowadzonej tam działalności
• Plan zagospodarowania przestrzennego
• Klęski żywiołowe
• Dodatkowe zalety lub wady otoczenia (lotnisko
vs stadion)
• Pamiętajmy, że cykl życia CPD to zwykle 10
do 20 lat (i więcej)
Warstwa fizyczna
Temat 1: Bezpieczna lokalizacja
źródło: http://www.kzgw.gov.pl/
10. • Zagrożenia:
• Prace ziemnie w bezpośrednim
sąsiedztwie mogą uszkodzić trasy kablowe
łącz telekomunikacyjnych, podziemne
kable zasilające, instalację gazową itp. (z
drugiej strony to samo może wydarzyć się
poza zasięgiem naszego wzroku)
• Prace budowlane z użyciem ciężkiego
sprzętu budowlanego mogą generować
niebezpieczne wstrząsy (np. palowanie)
• Ruch na drodze dojazdowej może się
zwiększyć (dalsze sąsiedztwo) – co może
oznaczać np. wstrząsy, ryzyko związane z
wypadkiem lub przewozem
niebezpiecznych substancji
• W otoczeniu może pojawić się mniej
bezpieczne sąsiedztwo
Warstwa fizyczna
Temat 1: Bezpieczna lokalizacja
PDC, 2010-2012
11. • Standardy korporacyjne dla CPD
• Drugie CPD?
• Przy planowaniu drugiego ośrodka, który ma
być synchronizowany z ośrodkiem
podstawowym w konfiguracji: aktywny <->
aktywny celem zapewnienia ciągłej lub prawie
ciągłej dostępności, przy ograniczeniach
obecnej technologii światłowodowej, zaleca się
dystans 5 do 15 km
• Warto rozważyć posiadanie trzeciego ośrodka
(disaster recovery) w odległości np. ponad 200
km (cold site)
• Tylko zapasowy ośrodek przetwarzania może
nas efektywnie ochronić przed skutkami klęski
żywiołowej
Warstwa fizyczna
Temat 1: Bezpieczna lokalizacja
12. • Pytania:
• Czy przetestowano plany DRP?
• Czy wszystkie warstwy infrastruktury
świadczenia usług przełączą się
automatycznie?
• W jakim czasie nastąpi przełączenie
usług?
• Czy w organizacji mamy „osoby kluczowe”
dla działania danej usługi?
• Krytyczne jest wczesne wykrywanie awarii
(monitoring infrastruktury i usług)
Warstwa fizyczna
Temat 1: Bezpieczna lokalizacja
13. • Pytania:
• Załóżmy brak zasilania na obszarze
województwa przez okres dłuższy niż np.
72h. Czy ktokolwiek dostarczy nam paliwo
do agregatów – pomimo tego, że mamy
kontrakt na dostawę paliwa?
• A jak będzie wyglądała sprawa
dostępności łączy operatorskich? (centrala
operatora na pewno jest podtrzymywana,
ale jak wygląda to w odległych
lokalizacjach?)
• Rozważamy sytuacje klęsk żywiołowych,
wszelkie czarne scenariusze („W”), a czy
nie lepiej być gotowym na niedostępność
CPD z powodu braku… Bieżącej wody,
faktu zastosowania rakotwórczego kleju do
wykładzin na powierzchni biurowej lub
blokady drogi dojazdowej w związku z
wypadkiem?
Warstwa fizyczna
Temat 1: Bezpieczna lokalizacja
Primary Data Centre
15. • Wniesienie na ośrodek ładunku wybuchowego,
podsłuchu lub rozpylenie gazu to zdarzenia możliwe
• Procedury ochrony osób i mienia muszą być regularnie
przeglądane i aktualizowane
• Listy osób uprawnionych do dostępu i mogących
autoryzować gości muszą być zawsze aktualne
• Firmy zewnętrzne (np. serwis systemów CPD,
budynkowych lub IT) muszą pracować pod nadzorem
autoryzowanego personelu (ryzyko sabotażu)
• Dokładna kontrola ruchów osobowo-materiałowych
• Największym wrogiem ochrony i najlepszych procedur
jest - rutyna. Warto przeprowadzać okresowe testy
czujności
• Charakter CPD – być może obiekt powinien podlegać
obowiązkowej ochronie i posiadać plan ochrony?
• Audyty bezpieczeństwa są koniecznością
• EPO na stanowisku ochrony – SPOF, z którym
musimy żyć (ryzyko konieczne do zaakceptowania)
Warstwa fizyczna
Temat 2: Bezpieczeństwo fizyczne
Primary Data Centre
16. • O Nordea IT Polska sp. z o.o. (NITPL)
• Bezpieczeństwo CPD...
• Warstwa fizyczna
• Warstwa infrastrukturalna
• Warstwa organizacyjna
• Podsumowanie
17. • Budynek może być jednocześnie np.
centralą firmy i CPD – tzw. budynek
mieszanego przeznaczenia
• Decyzja może wynikać z:
• konieczności dostarczenia rozwiązania
tymczasowego
• mylnie rozumianego prestiżu lub wygody
• braku innej możliwości
• Taki budynek może znajdować się w centrum
miasta, co oznacza dodatkowe utrudnienia
(poza łatwym dojazdem dla personelu, służb
miejskich i patroli/grup interwencyjnych
ochrony) – np. działalność sąsiednich firm,
bliskość ulic, torów kolejowych, częste zaniki
zasilania etc.
• Najgorszy scenariusz dla CPD
Warstwa infrastrukturalna
Temat 3: Charakterystyka budynku. 2 w 1
„Stare” Primary Data Centre, 2008
18. Warstwa infrastrukturalna
Temat 3: Charakterystyka budynku. 2 w 1
Problem Rozwiązanie
Nakładanie się dwóch różnych standardów bezpieczeństwa
fizycznego osób i mienia, współdzielone systemy
zabezpieczeń technicznych (SKD, SSWiN, CCTV, kamery IP)
Należy wyraźnie określić zasady dostępu do pomieszczeń,
odpowiedzialności, wydać stosowne instrukcję ochronie oraz
personelowi (centrali i CPD), umożliwić przepływ informacji
Nakładanie się i zacieranie odpowiedzialności Za bezpieczeństwo osób i mienia w obiekcie CPD odpowiada
kierownik obiektu. W budynku mieszanego przeznaczenia
jest kierownik obiektu, który nie musi być kierownikiem CPD
– taka sytuacja powinna być wyjaśniona za pomocą
odpowiednich regulacji
Problemy z wykonywaniem napraw po awariach i
przeglądów prewencyjnych
Wzajemna komunikacja o konieczności wykonania
przeglądów lub napraw, które mogą wzajemnie zakłócać
działalność centrali i CPD, o ile to możliwe – komunikacja z
wyprzedzeniem (plan przeglądów), uzyskiwanie zgody
biznesu na prace serwisowe infrastruktury CPD, dobrze
zdefiniowane procesy zarządzania zdarzeniami, incydentami,
problemami i zmianami
Zagrożenie dla ciągłości działania CPD w przypadku
współdzielenia infrastruktury np. zasilania (trafostacja,
agregat, UPS budynkowy)
Możliwie maksymalne odseparowanie infrastruktury
krytycznej CPD od powierzchni biurowych. Trafostacja i
agregat (o odpowiedniej mocy) mogą być współdzielone,
UPS budynkowy musi być osobno dedykowany dla
powierzchni biurowych i odbiorów w CPD
19. Warstwa infrastrukturalna
Temat 3: Charakterystyka budynku. 2 w 1
Problem Rozwiązanie
Możliwy dyskomfort pracowników biura (hałas, transport
urządzeń)
Pomieszczenie UPS i serwerownie powinny zostać
wygłuszone tak, aby nie zakłócać pracy w sąsiednich biurach.
Trasy transportowe powinny być tak wyznaczone, aby nie
blokować korytarzy w przestrzeni biurowej (w miarę
możliwości), ewentualnie dostawy sprzętu po godzinach
pracy biura
Awarie infrastruktury budynkowej mogą wpływać na
obszar CPD (instalacja wodociągowa, kanalizacja)
System BMS w CPD powinien korzystać z czujek zalania,
które zainstalowane powinny być w miejscach potencjalnego
pojawienia się wody (nie tylko przy klimatyzatorach, także
np. pod sufitem)
Ograniczenia infrastruktury budynku biurowego Konieczność wymiany trafostacji, agregatu, wzmocnienia
stropu w pomieszczeniach serwerowni i UPS, instalacja
dodatkowych systemów ppoż. (system gaszenia gazem +
butlownia), duże ilości okablowania w szachtach itp..
„Stare” Primary Data Centre. Komora
20. • Przestrzeń CPD może być dedykowana
wyłącznie jednemu użytkownikowi
• Brak współdzielonej infrastruktury krytycznej,
systemów zabezpieczenia technicznego,
dedykowana ochrona i własne standardy
bezpieczeństwa fizycznego
• Taki budynek może znajdować się poza
centrum miasta, ale w jego bliskości (łatwy
dojazd dla personelu, służb miejskich,
patroli/grup interwencyjnych ochrony)
• Jest to scenariusz lepszy od budynku
mieszanego przeznaczenia z przestrzenią
współdzieloną
Warstwa infrastrukturalna
Temat 4: Charakterystyka budynku. Przestrzeń dedykowana
Disaster Recovery Data Centre. Komora
21. Warstwa infrastrukturalna
Temat 4: Charakterystyka budynku. Przestrzeń dedykowana
Problem Rozwiązanie
Mogą występować ryzyka związane z działalnością
prowadzoną przez sąsiadów
Należy upewnić się i zagwarantować sobie (poprzez
porozumienie z Administratorem Budynku), że w budynku
nie będzie prowadzona działalność, która może nieść
zagrożenie dla CPD (np. hurtownia farb i lakierów,
gotówkowa placówka bankowa)
Awarie infrastruktury budynkowej mogą wpływać na
obszar CPD (instalacja wodociągowa, kanalizacja)
System BMS w CPD powinien korzystać z czujek zalania,
które zainstalowane powinny być w miejscach potencjalnego
pojawienia się wody (nie tylko przy klimatyzatorach, także
np. pod sufitem)
Disaster Recovery Data Centre – komora i MDF
22. • CPD zaprojektowane i zbudowane od
podstaw
• Lokalizacja poza centrum miasta, ale
umożliwiająca łatwy dojazd dla personelu służb
miejskich, patroli/grup interwencyjnych ochrony
• Brak ograniczeń strukturalnych i
infrastrukturalnych istniejących budynku
(projekt uwzględniający wszystkie potrzeby
CPD)
• Ułatwione zarządzanie obszarem
bezpieczeństwa fizycznego osób i mienia
• Ułatwione zarządzanie dostawami i usuwaniem
sprzętu, przeglądami i naprawami po awariach
• Szansa na zapewnienie bardzo wysokiego
poziomu bezpieczeństwa w warstwie fizycznej,
infrastrukturalnej i organizacyjnej
Warstwa infrastrukturalna
Temat 5: Charakterystyka budynku. Dedykowany obiekt
Primary Data Centre. Komora AST
24. • Korozja urządzeń IT w serwerowni o kontrolowanych warunkach środowiskowych jest możliwa!
• Miejscowe i ciągłe pomiary temperatury oraz wilgotności (BMS) nie dadzą nam 100% pewności,
że sytuacja korozji nie wystąpi (np. pomiar w 3 miejscach zimnego korytarza na wysokości 2/3
szaf IT)
• Tego typu pomiary pozwalają, co najwyżej, udowodnić, że w obrębie komory serwerowni
spełnione są parametry określone w SLA odnośnie oczekiwanej temperatury i wilgotności
Warstwa infrastrukturalna
Temat 6: Monitoring środowiska
25. • Dobrą praktyką są okresowe pomiary przy
użyciu kamery termowizyjnej, dokonywane w
różnych miejscach komory, nieobjętych
bezpośrednio pomiarem temperatury i
wilgotności – np. na wlocie zimnego powietrza
do urządzeń wolnostojących
• Zdalny monitoring nie jest panaceum na
wszelkie dolegliwości – nic nie zastępuje
regularnych wizualnych inspekcji
• Konieczne jest rozwiązanie problemu poprzez
zmniejszenie wilgotności i zwiększenie
temperatury nawiewu
Warstwa infrastrukturalna
Temat 6: Monitoring środowiska
źródło: http://dpcalc.org/
26. • Nie ma szczurów, bo są myszy. A szczury
jedzą myszy, więc gdyby były szczury, to by
nie było myszy – cytat z życia!
• Gryzonie uwielbiają izolacje kabli, a także
światłowody
• Ilość zakamarków CPD komplikuje
zidentyfikowanie obecności intruzów
• Znalezienie przegryzionego światłowodu może
nie być łatwe
• Na tak specyficzne zagrożenie także trzeba być
gotowym
Warstwa infrastrukturalna
Temat 7: Atak gryzoni!
źródło: Internet
27. • O Nordea IT Polska sp. z o.o. (NITPL)
• Bezpieczeństwo CPD...
• Warstwa fizyczna
• Warstwa infrastrukturalna
• Warstwa organizacyjna
• Podsumowanie
28. • Zarządzanie zmianą – musi być dobrze
udokumentowane i zaimplementowane
(ANSI/TIA-942)
• Zarządzanie konfiguracją – aktualna
dokumentacja
• Zarządzanie pojemnością – kontrola i
planowanie zużycia zasobów
• Zarządzanie zdarzeniami, incydentami,
problemami
• Procedura dostawy i instalacji (z testami i
weryfikacją poprawności)
• Procedura wizualnych inspekcji i badań kamerą
termowizyjną
• Procedura usuwania sprzętu
Warstwa organizacyjna
Temat 8: Najważniejsze procesy
29. • Urządzenie nieprawidłowo podłączone do
dwutorowego systemu zasilania
• Dodatkowo, wizualna inspekcja pozwalała
potwierdzić, że zasilanie doprowadzone jest z
dwóch torów
• Konfiguracja nie jest jednak zgodna z
wymaganiami producenta, które określono w
dokumentacji instalatora
• Dziurawa procedura dostawy i instalacji sprzętu
– nie uwzględniono konieczności wykonania
testu, który pozwoliłby ustalić, że zasilanie
rozprowadzone jest do modułów urządzenia w
sposób zapewniający utrzymanie ciągłości
działania
• Brak testu może sprawić, że źle podłączone
urządzenie pozostanie niewykryte przez wiele
miesięcy
• Utrata zasilania na jednym torze oznacza
całkowite wyłączenie urządzenia… Zasilanego
dwutorowo, ale niewłaściwie
Warstwa organizacyjna
Temat 9: Brak weryfikacji poprawności instalacji urządzenia
Nieprawidłowo rozprowadzone
zasilanie
30. • Tego typu awarii można uniknąć – należy
posiadać procedurę dostawy i instalacji
sprzętu, która wymaga testu i sprawdzenia
poprawności konfiguracji (część procesu
Zarządzania zmianą)
• Wymagania instalacyjne powinny być
konfrontowane z dokumentacją producenta
• Dokumentacja konfiguracji serwerowni powinna
być aktualizowana od razu po instalacji
• Autoryzowany personel powinien bezpośrednio
nadzorować firmy zewnętrzne, odpowiedzialne
za instalację urządzeń
• Tego typu błędy można naprawić wyłącznie w
czasie bezpiecznego okna serwisowego –
wyłączenie urządzenia może nie być możliwe
(sic!). Wówczas konieczne jest posiłkowanie
się dodatkowym źródłem (tymczasowym)
zasilania
Warstwa organizacyjna
Temat 9: Brak weryfikacji poprawności instalacji urządzenia
Prawidłowo rozprowadzone
zasilanie
31. • Montaż tzw. „nieprodukcyjnego” urządzenia bez
przejścia procesu zarządzania zmianą (CR-a) –
sam CR nie zagwarantuje ciągłości
operacyjnej, ale…
• Dla CPD nie ma rozróżnienia na sprzęt
produkcyjny i nieprodukcyjny.
• Każda instalacja niesie za sobą ryzyko, każdy
sprzęt konsumujący zasoby staje się
produkcyjny, ma wpływ na zarządzanie
konfiguracją i pojemnością, może stać się
przyczyną incydentu (staje się częścią żywej
infrastruktury)
• Oby infrastruktura nie zaczęła żyć własnym
życiem!
Warstwa organizacyjna
Temat 10: Zmiany produkcyjne i „nieprodukcyjne”
Okablowanie a’la spaghetti
źródło: Internet
32. • Instalacja urządzenia w szafie, która jest na
granicy zapasu mocy. W najbardziej
korzystnym scenariuszu może oznaczać to
zadziałanie zabezpieczenia w listwie PDU dla
kilku gniazd (1 pole), zasilanych z jednego toru.
W najgorszym wariancie wyłączeniu ulegną
urządzenia w całej szafie. Jeżeli istnieje
problem z selektywnością zabezpieczeń, to
wpływ może być jeszcze większy (cała
serwerownia?) – przy przeciążeniu lub zwarciu
• Nierównomierne obciążenie torów zasilania –
błahe, ale wciąż popularne. Ma negatywny
wpływ na zarządzanie pojemnością
• Mnożenie urządzeń jednozasilaczowych, które
stają się „krytyczne” i zabezpieczanie ich coraz
większą ilością STS-ów. Dodatkowo,
komplikuje proces zarządzania pojemnością
Warstwa organizacyjna
Temat 11: Inne wciąż popularne błędy
Problem z selektywnością
zabezpieczeń. Przykładowy wpływ
awarii (zwarcie) lub przeciążenia
zasilacza
33. • Zaniki zasilania to zwykle serie – często mają związek ze złymi warunkami atmosferycznymi
• Przy zanikach częstszych niż 3 na godzinę, układ automatyki klimatyzacji zostaje zablokowany,
sprężarki chillerów przestają pracować (jest to mechanizm ochronny) - konieczny jest fizyczny restart
sterownika (na dachu?)
• W serwerowni zaczyna rosnąć temperatura
• Najlepiej wyciągnąć sygnał do pomieszczenia kontroli i nadzoru CPD (BMS)
• Uruchomienie agregatu na okres 1h po pierwszym zaniku zasilania lub praca do zatrzymania
• Każde przełączenie źródła zasilania przez SZR to dodatkowe ryzyko
• Problem z restartem sterownika klimatyzacji lub startem agregatu – w czasie burzy z piorunami?
• Tier I i Tier II – szczególne ryzyko
• SMS?
• Obsługa 24/7 (Tier III, Tier IV)
Warstwa organizacyjna
Temat 12: Procesy, procedury a rzeczywistość
34. • O Nordea IT Polska sp. z o.o. (NITPL)
• Bezpieczeństwo CPD...
• Warstwa fizyczna
• Warstwa infrastrukturalna
• Warstwa organizacyjna
• Podsumowanie
35. Podsumowanie
• Obowiązuje reguła najsłabszego ogniwa
• Wszystkie warstwy infrastruktury są ze sobą powiązane
• Testy integracyjne i obciążeniowe przed uruchomieniem
• Regularne audyty i oceny ryzyka
• Aktualna dokumentacja
• Zdefiniowane, udokumentowane i wdrożone procesy
• Zdefiniowane i ciągle aktualizowane procedury
• Gotowość do ciągłych zmian
• Optymizm w stosunku do wyzwań codzienności
36. Podsumowanie
W prezentacji wykorzystano pomysły i spostrzeżenia członków Zespołu DCS
Nordea IT Polska sp. z o.o.:
Zenon Ruta, Sebastian Jary, Filip Jeziorski, Piotr Trzciński, Krzysztof Kęsicki,
Bartosz Kwiatek, Paweł Wawrzyniak