Jaký RAID nasadit v NAS?

Před tím, než si přečtete recenzi čtyřdiskového pole Synology DS414j, bych vás rád alespoň v krátkosti a ve zhuštěné formě informoval o tom, co je to RAID v návaznosti právě na síťová disková úložiště NAS. Nebudu se zabývat výrobkem stejného názvu, který by měl ničit mouchy, ale půjde o systém ukládání dat na diskové pole, který by měl umět maximálně ochránit vaše data, uložené na diskovém poli - v našem případě se to týká především síťových serverů typu NAS.

I když velmi dobrý přehled o tom, co to je RAID, můžete najít na Wikipedii (třeba) a to především v anglickém jazyce, pokusím se vysvětlit, co „to" je a proč se „to" používá, a k čemu „to" slouží. A hlavně, jaký dopad na bezpečnost dat „to" má. A také rozebrat vhodnost nasazení jednotlivých druhů RAID ve vaší praxi, což je především domácí nasazení - tomu se ale hodně blíží nasazení i v malé firmě.

Definice RAID

Wikipedia nás informuje o tom, že RAID (anglicky Redundant Array of Inexpensive/Independent Disks - vícenásobné diskové pole laciných/nezávislých disků) je v metoda zabezpečení dat proti selhání pevného disku v tomto diskovém poli. První, na co zde ale upozorním je to, že RAID v žádném případě neslouží k zálohování dat! O to se musíte postarat sami - a o zálohování a jeho druzích jsme na stránkách DigitálníDomácnosti.cz už několikrát psali a proto se k němu prozatím vracet nebudeme.

K čemu vlastně slouží NAS a jak ho nastavit

V poslední době roste obliba přikupování externích pevných disků pro zvýšení dostupné kapacity a zvláště pak tak zvaných NAS (anglicky Network Attached Storage neboli datové úložiště připojené k síti), což je velmi dobrá volba pro vytváření domácích úložišť, na které pak přistupují jednotliví uživatelé (členové domácnosti, ale i pracovníci) prostřednictvím účtů, které jim založí správce NAS (vybraný jedinec v domácnosti, správce sítě ve firmě, lze to ale dělat i dodavatelským způsobem, kdy zavedení jednotlivých uživatelů může provádět správce i na dálku - tady ale pozor, může se totiž stát, že on je vládcem nad vašimi účty a uloženými daty, takže pokud byste mu třeba nezaplatili za jeho činnost, snadno vám může data na NAS uložená zablokovat - z toho důvodu doporučuji, aby správcem byl někdo z rodiny/firmy). Zavedením účtů jednotlivých osob na NAS se pak zpřístupní společné diskové prostory, kam se mohou zapisovat data, dostupná pro každému uživateli (typicky to bývají videa, obrázky a hudba), vytvořením přístupových účtů pak definujete možnosti vytvoření osobních úložných míst jednotlivých osob na zmíněné úložiště včetně vzdáleného přístupu k těmto datům, což umožní přehrávat si videa nebo prohlížet fotky či poslouchat muziku kdekoli na světě třeba na tabletu, smartphonu, ale i v běžném počítači. Důležité tedy je na začátku - před tím, než NAS uvedete do provozu - zvolit, co kdo a kam. Tedy co může ukládat která osoba a na jaké místo - každá může - jak už víte - mít svůj vlastní prostor na NAS, který si obsazuje sama a správce může u takového účtu nastavit limity, například maximální možnou mez (množství dat), které může uživatel na něj uložit. Uživatel pak může povolit sdílení i jiným osobám do svého vymezeného prostoru - ale třeba i s různými omezeními: jiné osoby pak mohou do určitých míst jen nahlížet, což znamená, že zde nemohou nic smazat, ani sem kopírovat další soubory. Pro sdílení dat jsou právě určeny společné prostory nebo - pokud třeba některé osoby spolupracují na nějakém projektu - může jim správce přidělit společný prostor, kde mohou všichni vytvářet soubory, opravovat ty, které vytvořila jiná osoba, nebo zde i mazat existující soubory či je přepisovat jinými.

Uživatele NAS nemusí vůbec zajímat, jak jsou data fyzicky na disku ukládána neboli organizována. NAS se připojí ke směrovači (většinou) a pak se prostřednictvím nějaké nadstavby (programu nebo přes webové rozhraní) „oživí" správcem a od té doby se pak jednotlivým uživatelům jejich prostor na NAS objevuje jako další - síťový - disk v jejich průzkumníku nebo správci souborů.

Způsob ukládání dat v NAS

Pokud se ale podíváme do NAS a začneme zkoumat, jak jsou data ukládána, zjistíme, že to je věda. Pokud má váš NAS jeden disk, je to jasné. Všechna data se na něj ukládají a v případě jeho havárie jste nahraní - můžete samozřejmě zkusit specializované servisy, které umí data zachraňovat až na fyzické úrovni (to znamená, že čtou v podstatě bajt po bajtu z havarovaného disku a složí tato data - někdy - v celky, tedy soubory). Počítejte ale s tím, že cena takové opravy se odvíjí od kapacity zachráněných dat a že to může být i pořádná pálka. Z toho důvodu doporučujeme zálohovat vaše data a znovu opakujeme to, co jste tu už mnohokrát psali: „Cenu vašich dat poznáte až tehdy, když o ně přijdete." Zálohování tedy znamená umístit data na více nosičů, to znamená, že třeba účetní výkazy si jednou týdně budete přehrávat z NAS na externí pevný disk, který si připojíte k počítači, abyste data měli na více místech. Prostě rozložíte data na do více úložných prostorů, abyste k nim měli přístup, pokud se jedno ze zařízení porouchá.

Co to je RAID

A teď se konečně dostáváme k tomu, co to je RAID. Můžete ho nasadit u vícediskových NAS zařízení (obecně serverů) a tento systém se stará o to, abyste vaše data mohli ještě někdy získat, pokud dojde k havárii jednoho z pevných disků, tvořících diskové pole. Tedy v našem případě jednoho z pevných disků, umístěných v NAS.

Zde se tak trochu vrátíme k tomu, proč se písmeno „I" ve zkratce RAID vysvětluje dvěma způsoby: Inexpensive/Independent (levný/nezávislý). Jak si na Wikipedii můžete najít, původně byl tento systém definován na Univerzitě v Berkeley a cílem práce jeho tvůrců bylo v roce 1988 nabídnout lidem rozšíření dostupné kapacity pro data tak, aby to bylo co nejlevnější a nejefektivnější s možností případné záchrany dat, pokud by došlo k havárii jednoho nebo více pevných disků. A protože tehdejší pevné disky neoplývaly přílišnou kapacitou, bylo cílem nabídnout uživatelům především zvýšenou kapacitu úložiště (serveru), kdy vložením několika disků narostla maximální dostupná kapacita při snaze zachránit co nejvíce dat v případě použití laciných disků, které byly zprvu deklarovány pro použití v úložišti neboli serveru. Slovo Independent pak přišlo jaksi samo, a - jak jste na Wikipedii zvěděli - tohle označení používal třeba Microsoft.

Mohou být pevné disky opravdu laciné?

Ještě k těm laciným diskům. V chodu let se postupně vyčlenila u výrobců (typicky například Hitachi, IBM, WD i další) divize, která se starala jen o výrobu pevných disků pro servery. Cílem výrobců bylo u nich dosáhnout co nejvyšší hodnoty MTFB (střední doby mezi poruchami) a rychlost otáčení těchto pevných disků vzrostla z obvyklých 4800 na 7200, pak na deset tisíc i patnáct tisíc otáček za sekundu. To proto, aby data, která se na disky ukládají a jsou z nich poté i čtena, byla uživateli k dispozici co nejdříve. Tak se z původního nápadu odborníků z Berkeley používat levné pevné disky stala samostatná kategorie síťových pevných disků, která významným způsobem ovlivnila vývoj pevných disků vůbec. A tak třeba na trhu nyní najdete u firmy WD několik linií pevných disků, kde pro nasazení v NAS jsou doporučovány disky červené: WD Red, podobně to má třeba i Seagate i další výrobci (moc jich už nezbylo).


Zvláštním druhem pevného disku jsou pak disky SSD, ve kterých jsou otáčející se magnetické plotny nahrazeny elektronikou (představte si to jako flešku), takový disk tedy nemá žádné mechanické součástky, je tedy mnohem spolehlivější a rychlejší. Tato disky mají tvar stejný, jako mají třeba 3,5- nebo 2,5palcové pevné disky nebo se vyrábějí ve formě speciálních paměťových modulů pro určité výrobce počítačů a notebooků. V každém případě ale býváte upozorněni, zda SSD disk lze do serveru (úložiště) vůbec použít. Je to totiž složitější - a už jsme o tom i psali v souvislosti s osazením staršího notebooku SSD diskem, obsah těchto disků se musí častěji „obnovovat" a „znovu připravovat pro zápis", aby déle vydržely, a tak ne mnoho výrobců je třeba do NAS doporučuje - nebo doporučuje jen určité speciální edice SSD disků od vybraných výrobců, což většinou najdete v technických detailech k NAS nebo v kompatibility listu k NAS přikládaném.

Princip RAID

Princip RAID je snadný: rozložit uživatelem ukládaná data tak, aby v případě poruchy jednoho z vložených pevných disků, které společně dohromady tvoří diskové pole, bylo možné obnovit všechny na něm před havárií uložená data beze zbytku (nebo jen s minimálními ztrátami).

Na začátku se objevovala především hardwarová řešení, nasazená ve firmách. Nnejznámější a nejdražší řadiče pocházely od firmy Adaptec. Ty umožňovaly využít různých typů RAID k tomu, aby distribuovaly fyzicky data na disky, kterými bylo tvořeno úložiště. Časem se přešlo (především v neprofesionálních řešeních, což je tak trochu i náš případ) k mnohem cenově výhodnější řešením softwarovým. Ty ale měly zpočátku hodně negativ, především byly hodně pomalé, protože se propočítávalo, kam která data přijdou a jak se to pak fyzicky přes řadič (ještě jsem neřekl, že řadič je zařízení, které se stará o to, aby přicházející data - soubory - byly uloženy na pevný disk a z něj pak opět data byla přečtena a odeslána do systému ve formě souborů) vlastně fyzicky zrealizuje. Dnes jsme došli tak daleko, že třeba právě NAS jsou osazeny velmi výkonnými procesory a používají velmi efektivně napsaný (většinou na Linuxu postavený) operační systém, který dokáže soubory ukládat a vyzvedávat, aniž by na ně musel uživatel dlouho čekat. Někteří výrobci (Synology) také nasadili vícejádrové procesory, což se jeví jako nutnost především v domácím použití, kdy je třeba najednou streamovat více datových proudů na zobrazovací jednotky (současně třeba televizor, tablet, smartphone).

Typy RAID

Různé typy RAID se označují čísly, řazení základních uspořádání je jednočíselné, postupně se ale objevovaly různé kombinace, což se projevilo tím, že zde najdeme i víceciferná čísla, kdy jednotlivé číslice udávají, jaký druh základního RAID je použit. Některé systémy RAID se ale příliš nepoužívají, protože to není výhodné nebo to byla prostě slepá ulička, typicky to platí pro RAID 2, 3 a 4), které z našeho představení vynecháme a laskavému čtenáři doporučíme třeba zmíněný článek na Wikipedii , kde ale ostatně najdete srozumitelné nákresy, jak si ukládání dat do jednotlivých typů RAID představit.

Než se dostaneme k popisu jednotlivých typů polí RAID, musíme odhalit pojem redundance neboli nadbytečnosti dat. V ideálním případě na disk odeslaná data zaberou fyzicky na disku stejný objem, vyjádřený velikostí „zabrané" plochy. Sice to tak úplně není, protože vždy se fyzicky na disku použije víc místa - to proto, že se data rozkládají do sektorů a součástí ukládání na magnetický povrch disku u pevných disků je i popis - zjednodušeně řečeno -, kde se uložený soubor nachází a další důležité údaje. Pokud tedy na úložném zařízení najdeme jeden jediný obraz dat, patřící souboru, který jsme uložili, pak je redundance (nadbytečnost uložení dat) nulová. Naopak, stoprocentní redundance se dočkáme tehdy, pokud na úložišti fyzicky najdeme soubor uložený dvakrát. Nadbytečnost neboli redundance je tedy zde stoprocentní. V prvním případě při poruše disku ale už nemáme žádnou možnost najít data „někde jinde" a tím pádem jsou pro nás ztracena. Následuje výlet do specializovaného servisu a očekávání, že se část dat alespoň podaří zachránit. Jak vám možná dochází, v případě 100% redundance data najdeme vždy, pokud jsou uložena jednou fyzicky na jednom disku a podruhé na dalším disku (obecně dalších discích). Protože pravděpodobnost současné poruchy dvou disků je ale velmi malá, pokud data nepřečteme z jednoho disku, najdeme je na druhém (dalších).

RAID 0 a RAID 1

A to je právě případ RAID 0 a RAID 1. Zatímco u RAID 0 jsou data ukládána střídavě na oba disky bez jejich dublování, v případě RAID 1 jsou data umisťována současně na první disk i na disk druhý. Samozřejmě, že počet disků by měl být sudý, v případě dvou to je pochopitelné.

Orientační dostupná kapacity úložiště se pak zjistí u RAID 0 jako součet kapacit obou disků (z vlastní zkušenosti doporučuji použít do NAS disky nejen stejné kapacity, ale i stejné řady od jednoho výrobce. U RAID 1 je pak maximální dostupná kapacita u dvoudiskové stanice dána kapacitou nejmenšího v ní použitého pevného disku.

Existuje ale i model RAID 10 nebo RAID 01, tvořený kombinací RAID 0 a RAID 1 u čtyřdiskové stanice. I o takovém řešení se dále v textu zmíníme.

RAID 5

Tento systém je u výrobců NAS velmi hojně využíván. K tomu, aby fungoval, je nutné mít v úložišti alespoň tři disky. A zde se setkáváme poprvé s pojmem samoopravitelný kód. Jde o to, že výrobci dokážou z ukládaných dat vytvořit redundantní kód, který pak slouží k opravě a znovuobnovení dat na zbývajících discích, pokud dojde k poruše jednoho z disků. A protože algoritmus výpočtu samoopravného kódu je vysoce efektivní, redundance zde dosahuje typicky kolem 60-75 % přes celý disk. Ukládání dat probíhá tak, že se ukládaný soubor rozloží na všechny disky kromě jednoho a z něj se vypočte samoopravný kód, ten se ale uloží na poslední disk. Princip je tedy ten, že na jednom z disků je redundantní samoopravitelný soubor, vypočtený dle algoritmu, a na zbývajících discích je pak rozložen celý soubor. Samooporavitelný soubor ale najdeme pokaždé na jiném disku, to je důležité vědět. Když si to promyslíme, při výpadku jednoho z disků máte buď soubory celé na zbývajících discích, anebo - pokud nějaký soubor byl uložen na porouchaném disku - se ze samoopravitelných kódů vypočítá (obnoví) celý. Tím se RAID 5 výrazně liší od dříve používaného systému RAID 4, kdy byly samoopravné kódy shromažďovány vždy jen na jednom jediném disku. Výhoda RAID 5 je v rychlosti přístupu k datům, protože soubor se sestavuje najednou paralelním čtením dat z několika disků, na kterých je uložen. Z toho důvodu je RAID 5 velmi oblíbený systém a hodí se jej používat například v domácím nasazení, kdy se například streamované video sestavuje velmi rychle a nedochází při jeho sledování k trhání.

Výtečný grafický nástroj k výpočtu RAID najdete na stránkách společnosti Synology . V modelovém případě čtyřdiskové stanice osazené 1TB disky dojdete k maximální možné kapacitě 3 TB, a zhruba 1 TB je použit pro výpočet samoopravitelných kódů jednotlivých ukládaných souborů. Redundance, tedy nadbytečnost dat, se oproti RAID 1 snížila ze 100 % na pouhých 25 % (poměr nevyužité k využité kapacitě disků).

RAID 6

Je vlastně obdobou RAID 5, ale využívá při ukládání jednoho soubory vždy dvě sady samoopravitelných (paritních) kódů, které vypočítá a každý z nich pak vždy uloží na jiný disk. Samoopravitelný kód je ale ukládán střídavě, není to teda tak, že by vždy byl jeden kód vždy na jednou disku a druhý na druhém, jejich umístění se střídá přes všechny disky a - znovu opakuji - nikdy se nesejdou oba dva samoopravitelné kódy na jednom fyzickém disku. Velká výhoda tohoto systému je, že je odolný proti současnému výpadku dvou disků - nebo jinak. Pokud vám zhavaruje jeden z disků, nemusíte s jeho výměnou tolik pospíchat, jako je tomu u RAID 5. Jak asi tušíte, rychlost čtení je zhruba stejná jako je tomu u RAID 5, ovšem snižuje se rychlost zápisu, protože se počítají samoopravné kódy hned dvakrát a také je nutno uložit dvakrát tolik samoopravitelných dat. RAID 6 lze díky tomuto rozprostření dat sestavit z minimálně čtyř disků.

Pokud použijete výše zmíněnou kalkulačku, pak dojdete k závěru, že při použití 1TB disků je maximální dostupná kapacita u čtyřdiskového pole 2 TB a to je to samé, jako u RAID 1. RAID 6 tedy s výhodou užijeme u diskových stanic, které mají více než pět disků. A navíc, bylo by to i zpomalení, protože u RAID 1 není třeba počítat samoopravitelné (paritní) informace, takže v případě použití čtyřdiskové stanice doporučujeme raději použít RAID 1 či RAID 5.

RAID 10

U diskových stanic se sudým počtem disků je pak možné použít už zmíněný (a výrobci NAS tuto možnost mají ve své nabídce) systém RAID 10. RAID 10 (také označované jako RAID 1+0) nejprve spojí dva disky paralelně a z nich vytvoří jeden celek (zapojený jako 1. RAID 1), pak vezme zbývající dva disky, vytvoří z nich druhý celek (2. RAID 1), a tyto dva celky pak zapojí do série jako RAID 1. Pokud se nad tím zamyslíte, pokud selže v 1. větvi jeden disk, nic se nestane, protože stále je k dispozici druhý disk v první větvi a z něj je možné vydolovat data. To samé ale může nastat i u větve druhé. Wikipedia tedy logicky konstatuje, že se mohou současně porouchat dva disky, ale jeden v každé větvi, aby data zůstala zachována. Na druhou stranu: kdo vám zaručí, že se porouchají současně dva disky, každý v jiné větvi, a ne - podle zákona schválnosti - oba dva disky ve větvi jedné?

Co se týče rychlosti, je to opět dobré řešení, protože se data sice ukládají dvakrát, ale nemusí se generovat samoopravný kód. Výsledná kapacita tohoto pole je dána polovinou n-násobku kapacity nejmenšího použitého disku v poli (kde n je počet disků).

RAID 01

U tohoto diskového pole je to obráceně než u RAID 10. RAID 01 (rozuměj RAID 0+1) nejprve sečte kapacity dvou disků do jedné větve a u čtyřdiskové stanice pak podobně vytvoří druhou (je to tedy 2x RAID 0). Obě větve pak spojí v RAID 1, tedy paralelně. Jinak platí vše, co bylo uvedeno u více používaného modelu RAID 10 včetně výsledné maximální dostupné kapacity, která je dána jako polovina n-násobku kapacity nejmenšího použitého disku.

Proprietární řešení výrobců

Samozřejmě, že systém RAID je světovým standardem, přesto výrobci diskových polí, tedy i NAS serverů používají vlastní řešení. Konkrétně Synology používá systém SHR nebo SHR-2.

Vysvobození

Pokud došlo k poruše jednoho z pevných disků, je nutné tento disk vyměnit (opět připomínám, že by to měl být disk o stejné kapacitě od jednoho výrobce a dokonce je velmi dobré, pokud je to i stejný model, jaký jsme právě vyjmuli). Existují dva druhy stanic NAS, u jedné můžete disk vyjmout a vyměnit za provozu (to je důležité například ve firemním použití), říká se tomu hot-swap. U jiných úložišť je třeba toto zařízení vypnout, vyjmout vadný disk a nahradit ho novým. Mínusem použití takového úložiště, které neumožňuje hot-swap je to, že jej musíte vypnout, provést výměnu disků a pak jej znovu zapnout.

Do té doby, než vyměníte vadný disk, jsou data u RAID 1, 5, 6 i 10 stále dostupná. I když rychlost jejich přenosu (u vyšších verzí RAID) se sníží, protože žádané soubory se obnovují z redundantních informací, uložených na disku. Nejrychlejší přístup zůstává tedy u RAID 1, kdy se soubor „vytahuje" vlastně jen z druhého paralelně zapojeného disku.

Po vložení nového pevného disku (a pokud nemáte stanici, umožňující hot-swap po jejím zapnutí) začne systém NAS automaticky obnovovat z redundantních informací celé soubory na nový disk. Tato operace je ale velmi náročná na výkon a proto se smiřte s tím, že po dobu obnovování původních souborů budou přístupy k datům zpomalené. Doby obnovy může být různá a záleží především na tom, jak naplněná stanice NAS byla. V případě, že „byla naplněna až po okraj maximální dostupné kapacity, počítejte s dobou obnovy ne v řádu hodin, ale spíše jejich desítek. Opět podotýkám, že hodně záleží na výkonu procesoru ve stanici NAS. Čím výkonnější procesor (i s více jádry), tím dříve bude původní stav ve stanici obnoven.

Závěrem


Je až s podivem, kam došly stanice NAS za velmi krátkou dobu jejich existence. Zatímco dříve byla stavba serverů záležitostí pro odborníky, zapojení, uvedení do provozu, správa a údržba jedna velká duchařina, dnes stanice NAS zvýšily dostupnou kapacitu v domácnosti a zároveň se přizpůsobily požadavkům doby. Většina z nových NAS stanic totiž je kompatibilní s DLNA 2.0 a tím pádem může sloužit jako zdroj multimediálních dat pro zařízení, které rovněž podporují tento standard (televizory, tablety, smartphony). Pro uživatele je nyní použití NAS stanic velmi výhodné, protože k jejich ovládání stačí jen webový prohlížeč, přes který se dějí všechny nastavení. Výrobci (D-Link, Netgear, Synology, WD, aj.) se snaží tyto obslužné programy dotáhnout k maximální jednoduchosti, aby obsluha byla snadná a pochopitelné laikovi. A to se jim daří. Nejdále v této oblasti je Synology, které svým DSM (Disk Station Manager) ve verzi 5.0 ukazuje, jak by snadnost obsluhy měla vypadat. Ani ovládání dvoudiskových stanic od WD ale není k zahození.

Ještě jako doušku uvedu, že mnohé moderní NAS stanice dokážou „přepočítat" systém uložení RAID na jiný, povětšině vždy směrem od nižších verzí k vyšším. I tohle je důležité a mohlo by vám to pomoci při rozhodování o tom, jakou stanici NAS koupit.

Doufám, že vám podané informace pomohou rozhodnout se, jaký systém RAID ve vaší stanici NAS nasadit, abyste svá data měli jak v peřince a nemuseli se obávat jejich ztráty při výpadku jednoho z disků ve stanici.

Přesto všechno ale stejně radím: zálohujte! Alespoň životně důležitá data. Programy si nainstalujete, což je v době všeobjímajícího internetu dnes bezproblémová činnost, ale důležité programy, prezentace, návrhy a kdoví, co ještě, tedy výsledky vaší práce, ty je dobré mít zálohované na dvou místech, i když - jak jste se právě dozvěděli - systémy RAID umožní dohled nad vašimi daty na vysoké úrovni.

Ale říká se: Co kdyby? Vzpomeňte si na Janu Paulovou v Kameňáku…

Zveřejněno: 30. 08. 2014