9 July 2008

Архивирането – вид застраховка

Какви рискове искате да покрием?

Обикновено с този въпрос застрахователния агент с елегантно движение разпъва огромен формуляр, на който слага отметки след всеки получен отговор. В същото време клиента се разкъсва между желанието за повече покрити рискове и тяхната растяща цена. В ИТ бранша е почти същото при разговор на системен администратор с мениджмънта. Има и утежняващи фактори – терминологията при високите технологии е далеч по неразбираема за хората вземащи решения.
Докато стандартното застраховане при щета изплаща финансово обезщетение, то съхранението на данни изисква възстановяване на същата информация. Дори да бъде изплатено финансово обезщетение то няма да ни върне данните. Самите застрахователи избягват да застраховат данни, защото случайте с тях са трудно доказуеми и оценката на застрахователния риск и стойността на информацията е по-скоро субективна.
„Застраховането на данните” е проблем с висока степен на сложност. Трябва да се имат предвид много и разнородни фактори за да се стигне до качествено решение.

Можем да класифицираме параметрите за анализ на няколко основни групи:
- Вид на данните
- Обем на данните
- Честота на архивиране
- Времеви прозорец за архивиране
- Вид на архивите (моментни снимки, пълни ахиви, частични )
- Вид на архивиращите устройства

От голямо значение е какъв тип информация ще архивираме. Дали тя ще се използва в момента (обикновено „живи” бази данни)или са документи и таблици, чиято редакция вече е завършила. „Отворените” файлове обикновено се „заключват” от системата и не се поддават на стандартно копиране. За тях се използва допълнителен софтуер, за да се извадят техни моментни снимки.
Важен елемент от планирането е обема информация. Предвид веригата - скоростта на четене от източника, трансфера и скоростта на запис върху носителя на архив, трябва да внимателно да планираме свободния прозорец за извършване на тази дейност. Обикновено подходящият прозорец е след края на работното време до началото на следващия работен ден. В него трябва да се вмъкнат и други дейности, като сканиране на сървърите за зловреден софтуер, дефрагментиране на дяловете, индексиране на информацията за ускоряване търсенето през деня, инсталиране на поправки по операционни системи и приложения, изтриване на временни файлове и др. Архивирането се конкурира с всички тях. Това изисква внимателна преценка какво точно и колко често от цялата налична информация ще се архивира.

Схеми за архивиране

Неструктурирани

Едно такова хранилище може просто да бъде набор от флопи-дискове или CD-R/DVD-R медии с минимална информация за това, кое е архивирано и кога. Това е най-лесно за изпълнение, но не може да се постигне висока степен на ефективност и качество.

Пълен архив + Добавяне само на последните промени
Full + Incrementals

Тази схема има за цел да направи архив на няколко копия на източника на данни. На първо място, пълно резервно копие (на всички файлове. След това - частичен архив(само на файловете, които са се променили от предишния пълен или частичен архив). Възстановяване на цялата система към определен момент ще изисква намирането на пълния архив и всички инкрементални до този момент. Предимството е, частичните архиви се правят бързо. Недостатъка е при възстановяване на инфирмацията – трябва да се мине през всички инкрементални архиви от последния пълен до момента на възстановяването.

Пълен архив + Диференциален
Full + Differential

Пълен архив + Диференциален се различава от Пълен архив + Добавяне само на последните промени с това, че след създаването на пълен архив, всеки диференциален архив улавя всички файлове, създадени или променени от времето на пълният архив досега, въпреки, че някои от тези промени може и да са включени в предходните дифернциални архиви. Неговото предимство е, че при възстановяване е необходим само последния пълен архив и последния диференциален.

Огледало + реверсивно инкрементален
Mirror + Reverse Incremental

Метода е подобен на Пълен архив + Добавяне само на последните промени. Разликата е, че вместо на стареене на пълния архив, последвана от поредица от инкрементални, този модел предлага огледало, което отразява състоянието на системата, както на последното резервно копие, така и на историята на реверсивните инкрементали. Една от ползите е, че се изисква само първоначален пълен архив. Всеки инкрементален архив се прилага в огледалото, директно върху пълния архив, а файловете, които се заместват, са преместени в реверсивно инкременталния архив. Този модел не е подходящ за използване на сменяеми носители, защото всеки архив се отразява на пълния и едва тогава се създава обратно инкременталния.

Непрекъсната защита на данните
Continuous data protection

Този модел е една крачка напред и вместо насрочване на периодични архивирания, системата незабавно отразява всяка промяна на в архивирания хост. Това обикновено се прави със съхранение на промяната в битове или на цели блокове от данни, а не на ниво файл. Метода се различава от обикновени дискове в огледало (RAID1), че той дава възможност да се върнете в определен момент от времето и по този начин да се възстановят стари изображения на данни.

Снимки към определен момент
Snapshots


Уникалното им предимство е, че при тях възстановяването на цяла система е най бързо.Те представляват копие на данните, точно такива каквито са били в момента на клониране. Разглеждат се като решение за архивиране, базирано на дискове, тъй като се съхраняват върху диск. По време на архивиране, приложенията, които функционират на сървърите, работят или в ограничен режим или не работят. Има софтуери за архивиране и сваляне на имиджи, който се справят с тази процедура без това да оказва влияние на потребителите дори в работно време. За пример можем да посочим мултинационалните компании, които работят 24 часа поради часовата разлика. Удобството при моментните снимки е, че една система може да бъде копирана за секунди, а след това да бъде архивирана на лента по всяко време.

Има различни методи за извършване на снимки:
- Огледално разделените снимки създават моментално второ копие на данните.
- Снимките на моментното копие, подобно на огледално разделените снимки, предоставят едно пълно копие на данните. Основната разлика е, че когато се започне огледално разделяне, то създава моментално копие на данните, така че данните са на разположение незабавно. Когато се прави снимка на моментното копие, данните се копират в друга част от устройството за съхраняване, което може да отнеме от няколко минути до часове.
- Снимките на базата на указатели не са точни копия на данните, а група от указатели към оригиналните данни. Когато се записват оригиналните данни, променените блокове се записват в резервирана за снимки област и указателят се придвижва към този блок. Този процес се нарича "копиране по време на запис". Последователните записи на оригиналните данни не се копират към резервираната за снимки област, тъй като оригиналните данни вече са преместени. Предимство на снимката при метода с указатели е, че резервираната за снимки област изисква само част от оригиналното дисково пространство, тъй като се копират само променените блокове. Поради това, че снимките на базата на указател изискват толкова малко място, те могат да се правят по-често и то с малки разходи.

Еволюцията на устройствата

Последните години ролята на лентовите устройства беше изтласкана една позиция назад. Имам предвид, че най-често срещаният метод за архивиране беше Disk to Tape (от твърд диск на лентов носител). Това се промени именно поради експоненциално нарастващия обем от данни и редуцирания времеви прозорец за архивиране. Лентите са лек,евтин и издържлив носител на информация, но са бавни по време на работа. Казвам лек, защото много компании имат практиката да изнасят последния архив от офиса си и да се съхранява на друго място – банков сейф например.Преди време всеки сървър, който имаше нужда от архивиране, беше снабден с лентово устройство или лентова библиотека. Това решение даваше възможност за бързо (все още данните бяха малко) архивиране, но експлоатацията му беше много скъпа, а управлението – сложно поради намесата на човешкия фактор. Постепено, компаниите започнаха да консолидират архивиращите устройства в сървъри за архивиране с големи библиотеки, чрез които се поддържаше архивът в локалния офис. Това предполага и лесно разширение на възможностите при нужда. Правопропорционално с преминаването си с в по-големите класове те стават по-скъпи и по-сложни за поддръжка.

От диск на диск на лента

Днес основния път на архивите е Disk to Disk to Tape. В определения от бизнес нуждите свободен прозорец за системни дейности вече трудно се вписва лентата поради скоростта. Затова се прави първа стъпка – архив върху твърд диск. Скоростта е може да е много висока при използване на стрип варианти в RAID масиви (RAID0 и производни). Това решава проблема със скоростта. Поне засега. Открит е въпроса с физическото съхранение на носителите. Това е причината да останат в употреба лентовите системи. Симбиозата е очевидна – архивираме бързо на други дискове, а после разполагаме с „изнесена снимка” на информацията вън от работните сървъри и имаме достатъчно време да я копираме на ленти. Следващата логична стъпка при използване на предимствата на SAN при решаване на проблемите с архивирането е да се разгледа възможността за създаване на копия на работните данни върху диск, включен в SAN. Това позволява архивирането да се извършва много бързо и възстановяването на данните е много бързо. Най-големият недостатък на архивирането върху дискове е, че няма лента, която да се пази. Това се решава чрез копиране на данните върху лента след завършване на архивирането. Ясно е, че дискът е по-бърз от лентата и може да се комбинира в масиви. Другото предимство е нарастване на базовото бързодействие, защото системата базирана на дискове, не изисква физически да търси дадена лента в библиотеката, да се зарежда и да се прехвърлят данните върху нея.Самото приложение на системата за архивиране на базата на дискове предлага голямо многообразие от реализации.

Цената на решението

Съхраняването на информацията с помощта на NAS(Network Attached Storage), DAS(Direct Attached Storage) или SAN(Storage Area Network) драстично намалява времето, необходимо за backup на данните.
Обикновено евтин вариант няма. Много производители на различни видове носители на информация ни дават съотношение обем/цена и ни уверяват, че тяхното решение е най- изгодното. Може би, но почти всички говорят за цената на придобиване. А после?
Представете си, че във Вашата фирма има информация с обем 25GB и Вие сте натоварен с дейността по архивиране. Бихте ли правили всяка вечер архиви на оптичен носител, или на USB свързан твърд диск?
Вие сте човек и може да излезете в отпуск, командировка или просто да се появи друга по-спешна работа. Ангажимента трябва да се прехвърли на друг.
Каква заплата получавате на час? – респективно: Колко време отделяте за да правите архиви? Лесно ще сметнем колко пари струва на фирмата човешкия фактор, а той е несигурен, като изпълниение, но за сметка на това заплатата е постоянен разход.
Стигнахме до скритите разходи и реалната цена на притежание, но не на продукта само, а на цялото решение.
Повечето системни администратори са достигнали по емпиричен път до следният извод: Архивирането трябва да е автоматизиран процес с минимално участие на човешкия фактор.
Това отново изисква прецизно планиране от „формуляра на застрахователния агент”, през устройствата и софтуера за архивиране до... възстановяване на архивите на тестова машина за проверка качеството на архивиране. Вашият последен архив дали ще се възстанови? (Дано не съм лош пророк, но си проверете за собствено успокоение). Тук важи правилото: „Единствения начин да разбереш колко е дълбока локвата, като стъпиш в нея”.
Задължително условие е да се прави архив на различен носител от архивирания. Ето няколко варианта за това.

Предимствата на NAS

Това е едно самостоятелно устройство, съдържащо компютър, свързан към мрежата. Основната му задача е да доставя файл базирани услуги за съхранение на данни към други устройства в мрежата. Операционната му система и евентуално друг софтуер предлагат следните финкционалности - съхранение на данни, файлови системи,достъп до файлове и управлението на тези функции. Устройството не е предназначено за извършване на общи универсални изчислителни задачи, макар, че то може да дава техническа възможност да стартирате друг софтуер върху него. NAS устройствата обикновено не разполагат с клавиатура или дисплей и се контролират и конфигурират по мрежата, предимно с браузър през уеб интерфейс.
Казано иначе, това е най-евтината алтернатива на файловия сървър.
Използва съществуващата локална мрежа и е добър вариант за архивиране в малки фирми. NAS предлага съхранение и файлова система. Точно това е разликата със SAN (Storage Area Network), която предоставя само блок-базиранo съхранение и оставя файловата система под управлението на сървърите.

Междинния по мащаби вариант е DAS

Отново външен дисков масив, но закачен директно към един или няколко сървъра. На него се намира файловата система, операционната система, приложенията, потребителските данни. Основните протоколи, използвани в DAS са SCSI, SAS, и Fiber Channel. Традиционно една DAS система дава възможност за разширяване капацитета на сървъра за съхранение, като същевременно запазва високоскоростен трансфера на данни. Типичната DAS система се състои от една или повече кутии, съдържащи в себе си устройства за съхранение на данни, като например твърди дискове, както и един или повече контролери. Интерфейсът със сървъра или работата станция се извършва чрез Host Bus Adapter (HBA). DAS системата обикновено се предлага резервирана в много области: контролер, охлаждане, захранване, както и резервираност на твърдите дискове, известно като RAID. Базовите DAS системи най-често са направени от минимума компоненти без осигуряване на резервираност, за постигане на ниска цена.Средните и големи класове DAS системи имат вградени RAID контролери. Това позволява свързване на сървъри с обикновени HBA, които не са с интегрирани RAID възможности, отново за понижаване на цената. DAS позволява също така да разрешите достъп до споделено пространство, което позволява на множество сървъри (обикновено не повече от 4) за достъп до същата логическа единица за съхранение, функция, която се използва главно за групиране. На този етап високият клас DAS системи имат много прилики с малкия клас SAN системи.

Когато мащабите са наистина големи решението е SAN

Едно от скъпите решения за архивиране на много сървъри е използването на SAN.Сървърите, свързани в SAN, чрез оптичната мрежа достигат до външни и/или вътрешни хранилища на твърди дискове и могат да разпознават частите от масива като собствени дискове. Това е чудесен пример за мрежово разпределена среда за съхранение на информация. Чрез добавяне на сървърите подлежащи за архивиране в SAN използващ оптична свързаност те ще имат значително по-добра пропусквателна способност сравнено със скоростта през LAN. Компаниите, които все още използват канал за архивиране 100Mbps LAN мрежи, имат вариант за увеличение на бързодействието. Използващите 1Gbps LAN мрежи, биха се справяли с архивирането нормално при бързи дискови масиви, но в периодите на архивиране ще се наблюдава по-голям трафик в мрежата. Следващата стъпка в еволюцията на преносната среда за архивиране е посветената само на тази цел. SAN протоколи са SCSI, Fiber Chanel, iSCSI, ATA over Ethernet или HyperSCSI.

Комбинация между SAN и лентови библиотеки

Добавянето на лентови библиотеки към една SAN позволява на администраторите да оптимизират процеса. За да се постигне ефективност трябва да се върви към консолидация – на процесорна мощ, на масиви за съхранение и обединяването им в обща преносна среда. Така се избягва неравномерното натоварване. В големите корпорации обикновено се добавя специализиран сървър или дори група от такива за архивиране и лентови библиотеки към една SAN.
Непрекъсваемост на бизнес процесите

Всеки престой струва скъпо. Понякога дори възстановавянето от авария може да отнеме часове и дни. Потенциалните загуби оправдават разхода за изграждане на огледални сървъри или дори цели сървърни центрове.
Оригинала и копието работят съвместно в реално време. Всичко, което се случва на оригинала се прехвърля на копието при Active - Passive системите.
Има и друг вариант Active – Active, където се използва не само двупосочна репликация на променените данни, но и балансиране на натоварването във всички възли на системата.

Оптимално решение

Оптималното решение, което решава повечето проблеми на малкия бизнес в България при архивирането, е да се използва NAS технологията.
Методът трябва да включва поне веднъж седмично пълен имидж на състемните дялове, поне веднъж седмично пълен архив и всики работен ден инкрементален или диференциален.

А Вашият последен архив с каква дата е?


4 comments:

  1. Дааа, много фирми все още играят руска ролетката с данните и бизнеса си по ред причини – непознаване на материята, финансов и човешки фактор. Но на простичкия въпрос – Колко би струвало на бизнеса ви загуба на служебна информация? – всеки един мениджър бързо пресмята и открива, че инвестицията за подходящо бекъп решение е обоснована.
    Като добавка на статията ще разгледам едно бюджетно open source NAS решение насочено към малкия и развиващ се бизнес. Постинга ми не цели да бъде технически подробен, а напротив – разбираем и в помощ за читателска аудитория в лицето на собственици и мениджъри на фирми, както и да ги запознае с по-евтините алтернативи.
    При решение за ползване на NAS – вариантите са основно два – комерсиални и безплатни. При комерсиалните – получавате „желязо” - хардуер с интегриаран софтуер (най-честно моднат линукс) към който трябва да бъдат добавени дискове в зависимост от възможностите на устройството и нуждите за капацитет. Няма да се спирам на предимствата, недостатъците и функциалността на комерсиалните продукти, а ви подготвям за open source решението. То е софтуер, който може да бъде изтеглен и инсталиран безплатно на ваш хардуер – компютър, който практиката ми напомня, че това е обикновено най-старата машина в офиса. . Разбира се трябва да отговаря на определени изисквания, които най-вероятно ще бъдат съобразени от вашия ИТ консултант. Не трябва да забравяме, че и в този случай е необходимо да закупим определен брой дискове в зависимост от решението ви за отказоустойчивост RAID XX и капацитет.

    FreeNAS - http://www.freenas.org/

    FreeNAS е безплатен NAS сървър с отворен код, базиран на FreeBSD. Поддържа CIFS (samba), FTP, NFS, AFP, RSYNC, iSCSI protocols, S.M.A.R.T., local user authentication, Software RAID (0,1,5) с пълнофункционален WEB интерфейс.

    FreeNAS заема по-малко от 32MB след като бъде инсталиран на Compact Flash, hard drive или USB key. Варианта с USB Memory Stick е много подходящ поради добрата си отказоустойчивост и ниската цена преди всичко.

    Изисквания за хардуера
    - PC x86 със поне 96 MB RAM – като се има впредвид ниската цена на рам паметта добре би било да е с 256 MB или повече (при условие, че ползваме софтуерен раид)
    - CD-ROM, който е нужен само за първоначална инсталация.
    - USB memory stick – поне 32 MB. (едва ли може да се намери вече такъв, но на моделите с 1 GB - цената е около 20-25 лв.)
    - HDD – един, два или повече в зависимост от нуждите. В примера си ще калкулирам два диска Hitachi 250 GB, 7200 rpm, 8 MB Cashe, IDE интерфейс, които ще работят в огледало – софтуерен RAID1. Приблизителната им цена е около 80 лв. С ДДС за брой.
    При RAID1 информацията ще се записва едновременно и на двата диска на огледален принцип. Така получаваме отказоустойчивост при повреда на единия от тях, като ефективния използваем капацитет е 250 GB.

    Харакеристики и поддържани протоколи:

    Protocols: CIFS (via Samba) – работи на на ниво application-level networking protocol, основно да осигури достъп до предостъпени файлове и директории, принтери, серийни портове и други комуникации между различни точки от мрежата.

    FTP, NFS, SSH, rsync, AFP and UPnP and iTunes.

    rsync server, client and local sync. – Софтуерно приложение, което синхронизира файлове и директории от една локация към друга с минимизиране на преноса на данни чрез делта кодиране (ако е възможно). Или казано на разбираем език, тази функционалност е много полезна, когато имате два или повече FreeNAS сървъра (в двата ви офиса – в София и Пловдив например) и желаете софийския freenas да бекъпва пловдиския и обратно. Така целия архив на пловдивския офис, освен локално, ще бъде дублиран и в София – автоматично по предварително зададена политика. По този начин правим „собствена” колокация за надеждно архивиране без да се отразява в месечния бюджет на фирмата.

    Unison support. – това е програма за файлова синхронизация. Използва се за синхронизация между файлове в две отделни директории или между работна станция и сървър (NAS) за нуждите на архив. В зародиш програмата е създадена за unix – базирани операционни системи, но настоящем се справя също така добре и на Windows.

    iSCSI targets feature to create virtual disks.

    iSCSI initiator. – Internet SCSI позволява да използвате вашия дисков капацитет на freenas през даден сървър с илюзията,че дисковете са закачени директно на сървъра. Това е т.нар. SAN, който в нашия случай с opensource решения няма равно по цена и не отстъпва по функционалност.

    Dynamic DNS client for: DynDNS, ZoneEdit, No-Ip, and freedns.afraid.org.
    File systems: UFS and ext2/ext3 are fully supported, NTFS read-only supported, and FAT32 read/write supported.
    Hard drive: P-ATA/S-ATA, SCSI, iSCSI, USB and Firewire.
    GPT/EFI partitioning for hard drives larger than 2 Terabytes.
    Networks cards: All wired and wireless cards supported by FreeBSD 6.
    Boot from HDD, CompactFlash, CD-ROM + floppy disk, or USB flash drive.
    Hardware RAID cards: All those supported by FreeBSD 6.2.
    Software RAID levels: 0, 1, 5, JBOD, 5+0, 5+1, 0+1, 1+0, etc. (using GEOM).
    Disk encryption with geli.
    Management of groups and users (Local User authentication or Microsoft Domains).

    S.M.A.R.T. support. – Self-Monitoring, Analysis and reporting Technology позволява самодиагностика на набор параметри и атрибути, и превенция при откриване на грешки и дефекти на хард дисковете. (само за тези които поддържат SMART технологията).
    Remote syslogd forwarding.

    SNMP monitoring (Netgraph and MibII). – Simple Network Management Protocol се използва за мрежови (дистанционен) мениджмънт и мониторинг на устройството в помощ на администратора или бекъп оператора. Предлага ни се и Email log and reporting notification.

    ATA over Ethernet (AoE) – Това е една алтернатива на iSCSI, която има своите предимства и ограничения. Позволява високопроизводителен достъп до SATA дискове – директно по мрежата. Дава възможност за създаване на SAN с ниска цена и стандартни технологии на принципа на масово продаваните „външни, преносими” дискове.


    Обобщавайки сумарната инвестиция от порядъка на 200-250 лв. в добавка към стар компютър, ние получаваме функциониращ NAS / SAN сървър с базови характеристики, които биха покрили нуждите на голям процент фирми. Разбира се, всеки случай е частен и първоначалните разходи могат да варират, но при всички случаи инвестицията е в пъти по-малка спрямо готов, комерсиален продукт.. Друг допълнителен момент е заплащането на специалист за инсталацията на подобно решение, което така или иначе трябва да бъде предвидено в бюджета и при комерсиалните продукти.
    Опита показва, че след използване на подобни решения, след време, в резултат на нарастнали потребности, липсващи функционалности и развитие на бизнеса се прави преход към комерсиални, професионални продукти, но това е друга обширна тема.

    Други известни open source SAN решения:

    OpenFiler
    NASlite


    Милен Люцканов
    системен администратор

    ReplyDelete
  2. Наистина добро допълнение към статията за архивирането на данни. Признавам, че пропуснах малките фирми и възможността за безплатни софтуерни продукти. Благодаря!

    ReplyDelete
  3. Страхотна статия ! БРАВО!

    ReplyDelete
  4. Интересен софтуер за архивиране открих в сайта http://www.bsd.bg

    Най-интересните решения ми се струват тези на:
    - Acronis - http://www.bsd.bg/acronis-software
    - StarWind Software - http://www.bsd.bg/starwind-software

    Архивирането на поща на Exchange също е интересно - http://www.bsd.bg/gfi-mail-archiver

    ReplyDelete

Note: only a member of this blog may post a comment.