Система хранения данных - СХД
Система хранения данных (СХД) — это конгломерат специализированного оборудования и программного обеспечения, который предназначен для хранения и передачи больших массивов информации. Позволяет организовать хранение информации на дисковых площадках с оптимальным распределением ресурсов.
Каталог СХД-решений и проектов доступен на TAdviser.
«Физика» хранения
Возможно, самая увлекательная часть компьютерной истории – это хроника систем хранения данных (CXД), потому что в этой области было большое разнообразие и в физике, и в системной организации, к тому же много лет здесь все было очень наглядно. Компьютеры довольно скоро лишились зрительной привлекательности, на смену красивым и разнообразным вакуумным лампам и отдельным полупроводниковым компонентам (триодам и диодам) пришли одноликие интегральные схемы и микропроцессоры. Теперь мы можем различать по надписям что-то, заключенное в корпуса разных размеров, различающихся количеством контактов. Физика полупроводниковых новаций в конечном итоге сводится к поиску научных и технологических решений, обеспечивающих увеличение плотности транзисторов на подложке. Эти важнейшие достижения не имеют внешнего вида и для потребителя сводятся к цифрам 0.18, 0.13, 0.11… Впрочем, сегодня то же самое можно сказать и о дисках – внешне это коробки нескольких типоразмеров, различающиеся содержимым.
За 60–70 лет СХД эволюционировали от простейших карт и лент с дырочками, использовавшихся для хранения программ и данных, до накопителей на твердом теле. На этом пути было создано множество непохожих друг на друг устройств – это и магнитные ленты, и барабаны, и диски, и оптические диски. Часть из них осталась в прошлом: это перфорированные носители, магнитные барабаны, гибкие (флоппи) диски и оптические диски, а другие живут и будут жить долго. То, что сегодня ушло, можно посмотреть и поностальгировать в музее устаревших медийных технологий Museum Of Obsolete Media. И в то же время, казалось бы обреченное, остается. В свое время предсказывали конец магнитным лентам, однако сегодня их существованию ничто не мешает, точно то же самое относится и к жестким вращающимся дискам (HDD), пророчества об их конце лишены какого-либо основания, они достигли такого уровня совершенства, что за ними сохранится их собственная ниша, невзирая ни на какие новации.
На нынешнем многоуровневом пейзаже СХД присутствуют ленточные библиотеки для резервного копирования и архивации, быстрые и медленные диски HDD, твердотельные диски SSD на флэш-памяти, мимикрирующие (интерфейсы, форм-фактор) под HDD прежде всего для согласования с существующим программным обеспечением и конструктивами, а также новейшие флэш-накопители в формате карт, подключаемых по интерфейсу NVMe. Эта картина сложилась под влиянием нескольких факторов, среди которых схема Джона фон Неймана, которая делит память на оперативную, непосредственно доступную процессору, и вторичную, предназначенную для хранения данных. Это деление укрепилось после того, как на смену сохраняющей свое текущее состояние ферритовой памяти пришла полупроводниковая, требующая загрузки программ для начала работы. И конечно же влияет удельная стоимость хранения, чем быстрее устройство, тем эта стоимость выше, поэтому в обозримом будущем останется место и для лент, и для дисков. Подробнее об эволюции СХД читайте здесь.
Как хранили данные раньше
Носители данных, использующие перфорацию
Перфокарты
До появления компьютеров на протяжении столетий в простейших устройствах с программным управлением (ткацкие станки, шарманки, часы-карильоны) использовали перфорированные носители самых разных форматов и размеров и барабаны со штифтами. Сохраняя этот принцип записи, Герман Холлерит, основатель компании TMC, позже вошедшей в IBM, сделал открытие. Именно, в 1890 году он осознал, как можно использовать перфокарты для записи и обработки данных. Он реализовал эту идею при обработке статистических данных, полученных в ходе переписи населения, а позже перенес ее и в другие приложения, чем обеспечил благополучие IBM на десятилетия вперед.
Почему именно карты? Их можно сортировать и к ним может быть обеспечен, условно говоря, «прямой доступ» с тем, чтобы на специальном устройстве-табуляторе, следуя несложной программе, частично автоматизировать обработку данных.«Еврохим», ТМК и другие предприятия представили опыт цифровизации в промышленности на TAdviser SummIT
Формат карт менялся, и с 20-х годов международным стандартом стали 80-колонные карты. Монополия на них до начала 60-х принадлежала IBM.
Эти простые картонки с прямоугольными отверстиями оставались доминирующим носителем данных на протяжении нескольких десятилетий, они производились миллиардами. Об объемах потребления карт можно судить хотя бы по одному примеру Центра расшифровки немецких радиограмм в Блечли Парке: неделя работы – 2 миллиона карт, это среднего размера грузовик! Послевоенный бизнес тоже строился на хранении данных на картах. Говоря о перфокартах, следует помнить, что они использовались в Германии для сбора данных о людях, подлежащих уничтожению.
Перфоленты
Казалось бы, перфоленты – более практичные носители, но в бизнесе они практически не использовались, хотя устройства для ввода и вывода были существенно проще и легче. Их распространению мешал последовательный доступ, меньшая емкость и низкие скорости ввода и вывода, сложность архивации. Узкие 5-колонные перфоленты с 1857 года использовали для подготовки и последующей передачи данных по телеграфу, с тем чтобы не ограничить скорость ввода физическими возможностями оператора и тем самым лучше использовать пропускную способность канала. Широкие 24-колонные перфоленты были созданы для записи программ в электромеханическом калькуляторе Harvard Mark I в 1937 году. Как носитель, не подверженный воздействию разного электромагнитного и гамма-изучения, перфоленты широко использовались в качестве бортовых устройств, они до сих пор используются в некоторых оборонных системах.
Подробнее об эволюции СХД читайте здесь.
Магнитные ленты
Способ записи звука на катушечный магнитный носитель, сначала на проволоку был предложен в 1928 году. Магнитофон такого типа использовался в UNIVAC-1. Началом истории компьютерных магнитных лент считается IBM Model 726, входившая в состав компьютера IBM Model 701. Ширина ленты для IBM Model 726 и других устройств того времени была равна одному дюйму, но такие ленты оказались неудобны в эксплуатации. Из-за их большой массы требовались мощные приводы, поэтому вскоре им на смену пришли полудюймовые «открытые ленты» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Они имели три плотности записи 800, 1600 и 6250. Такие ленты со съемными кольцами для защиты от записи стали стандартом для архивирования данных до конца 80-х годов.
В Model 726 использовали катушки от кинопленки, соответственно ширина ленты оказалось равной одному дюйму, а диаметр бобины – 12 дюймам. Model 726 была способна сохранять 1,4 Мбайт данных, плотность 9-дорожечной записи составляла 800 бит на дюйм; при движении ленты со скоростью 75 дюймов в секунду в компьютер передавалось 7500 байт в секунду. Сама магнитная лента для Model 726 была разработана компанией 3M (теперь Imation).
Довольно скоро от дюймовых лент отказались, из-за их веса при работе в старт-стопном режиме требовались слишком мощные приводы и вакуумные карманы, и на длительный период установилось почти монопольное господство полудюймовых «открытых лент» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Плотность записи повысилась с 800 до 1600 и даже 6250 бит на дюйм. Эти ленты со съемными кольцами для защиты от записи были популярны на компьютерах типа ЕС и СМ ЭВМ. полудюймовых «открытых лент» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Плотность записи повысилась с 800 до 1600 и даже 6250 бит на дюйм. Эти ленты со съемными кольцами для защиты от записи были популярны на компьютерах типа ЕС и СМ ЭВМ.
Стимулом к дальнейшему развитию стало то, что в середине 80-х емкости жестких дисков стали измеряться сотнями мегабайт или даже гигабайтами поэтому для них понадобились накопители резервирования, соответствующей емкости. Неудобства открытых лент были понятны, даже в быту кассетные магнитофоны быстро вытеснили катушечные. Естественный переход к картриджам происходил двумя путями: один – создавать специализированные устройства, ориентированные на компьютеры (по линейной технологии): второй – обратиться к технологиям, изобретенным для видеозаписи и аудиозаписи с вращающимися головками (по винтовой технологии). С тех пор сложилось разделение на два лагеря, которое придает рынку накопителей неповторимую специфику.
За тридцать лет было разработано несколько десятков стандартов картриджей, наиболее распространенный сегодня стандарт LTO (Linear Tape-Open), в процессе которых картриджи совершенствовались, повышалась их надежность, емкость, скорость передачи и другие эксплуатационные характеристики. Современный картридж – это сложное устройство, снабженное процессором и флэш-памятью.
Переходу на картриджи способствовало то, что сейчас ленты работают исключительно в потоковом режиме. Картриджи используются либо в автономных устройствах, либо в составе ленточных библиотек. Первой роботизированную библиотеку на 6 тыс. картриджей выпустила компания StorageTek в 1987 году.
Аналитики и производители дисков не раз предрекали лентам кончину. Известен лозунг «Tapes must die», но они живы и будут жить долго, потому что рассчитаны на многолетнее хранение больших архивов. Размер бизнеса, связанного с производством лентопротяжек, лент и ленточных библиотек в 2017 году оценивался примерно в $5 млрд. И чем больше становятся объемы информации, которые можно сохранить на жестких дисках, тем больше потребность в архивировании и создании резервных копий. На чем? Разумеется, на лентах: экономически оправданной по стоимости хранения альтернативы магнитным лентам пока не найдено. Нынешнее 8-е поколение стандарта LTO позволяет штатно сохранить до 12 Тб, а в компрессированном режиме 30 Тб, перспективе эти цифры возрастут на порядок и более, при смене поколений повышаются не только количественные показатели, но и другие эксплуатационные характеристики.
Подробнее об эволюции СХД читайте здесь.
Магнитный барабан
Временным способом для разрешения противоречий между технологией последовательной записи на ленту и необходимостью прямого доступа к данным на внешнем устройстве стал магнитный барабан, точнее цилиндр с неподвижными головками. Его изобрел австриец Густав Тучек в 1932 году
Магнитным является не барабан, у которого, как известно, рабочей поверхностью служит днище, а цилиндр с нанесенным на его боковую поверхность ферримагнитным покрытием, разделенным на дорожки, а они, в свою очередь, делятся на секторы. Над каждой из дорожек размещена собственная головка чтения/записи, причем все головки могут работать одновременно, то есть операции чтения/записи осуществляются в параллельном режиме.
Барабаны использовались не только в качестве периферийного устройства. До перехода на ферритовые сердечники оперативная память была чрезвычайно дорогой и ненадежной, поэтому в ряде случаев барабаны играли роль оперативной памяти, были даже компьютеры, называвшиеся барабанными. Обычно магнитные барабаны использовались для оперативной (часто изменяемой) или важной информации, к которой был нужен быстрый доступ. В условиях ограничений на размер оперативной памяти из-за ее дороговизны на них хранилась копия операционной системы, записывались промежуточные результаты выполнения программ. На барабанах впервые была реализована процедура свопинга, представляющая виртуализацию памяти за счет пространства на барабане, а позже и на диске.
Накопители на магнитных барабанах имели емкость меньше, чем диски, но работали быстрее, потому что в отличие от дисков в них головки неподвижны, что исключает время, требуемое для подвода к нужной дорожке.
Барабаны активно использовались вплоть до начала 80-х годов, некоторое время они жили параллельно с дисками. Барабанами комплектовалась ЭВМ БЭСМ 6 и ее современники. Из открытых источников известно, что последние барабаны простояли в системах управления ракетами Минитмэн до середины 90-х годов.
Подробнее об эволюции СХД читайте здесь.
Гибкие диски
Активная жизнь гибких (floppy) дисков растянулась на 30 лет с конца семидесятых до конца девяностых. Они оказались чрезвычайно востребованными в связи тем, что ПК появились раньше, чем у пользователей появилась возможность передачи данных по сети. В этих условия флоппики служили не только по прямому назначению для хранения резервных копий, но, пожалуй, в большей степени для обмена данными между пользователями, вот почему их еще называют sneaker, как кроссовки, типичную обувь программистов. Обмениваясь флоппиками, они создавали своего рода сеть – sneakernet.
Существовало 3 основных типа дисков и множество различных модификаций. Флопии-диски диаметром 8 дюймов были созданы в 1967 году в IBM, они задумывались как устройство первоначальной загрузки (bootstrap) для мэйнфреймов IBM/370 на замену более дорогой постоянной памяти (non-volatile read-only memory), ею комплектовалось предшествующее поколение IBM/360. Однако, осознав коммерческую ценность новинки, в 1971 IBM превратила флоппи в самостоятельный продукт, а в 1973 году руководитель разработки Алан Шугарт создал компанию Shugart Associates, ставшую ведущим производителей 8-ми дюймовых дисков с максимальной емкостью 1,2 Мбайта. Эти большие диски использовали на ПК, выпускавшихся до появления IBM XT. Особую популярность этот тип дискет получил благодаря операционной системе CP/M Гарри Килдала.
Что же касается дискет с диаметром 5,25 дюйма, то их появление напоминает анекдот о Николае II, который дольно своеобразно объясняет увеличенную ширину российской железнодорожной колеи по сравнению с европейской. В нашем случае Эн Ванг, хозяин компании Wang Laboratories, встретился в баре с выходцами из Shugart Associates, которые предложили сделать для его компьютеров более дешевый дисковод, но они не могли решиться на конкретный диаметр. Тогда Ванг взял коктейльную салфетку и сказал, что ему кажется, что размер должен быть таким. Пятидюймовые диски емкостью 360 и 720 Кб выпускали до конца девяностых годов, они были современниками компьютеров IBM XT и IBM AT, операционных систем MS-DOS и DR-DOS, верно служа становлению новой отрасли.
Предложенный в 1983 году Sony альтернативный картридж имел размер 90,0 мм × 94,0 мм, но его по традиции стали называть 3,5 дюймовым. В американской профессиональной среде он зовется стиффи (stiffy disk, перевод стоит посмотреть в словаре). После ряда усовершенствований в 1987 году был принят отраслевой стандарт 3,5-inch HD (High Density) с емкостью 1,44 Мб. Поначалу такими дисками комплектовали IBM PS/2 и Macintosh IIx, а позже он стал универсальным стандартом для PC и Macintosh. Попытки сделать во второй половине девяностых диски большей емкости Extended Density (ED) 2,88 Мб, а также казавшиеся перспективными магнитооптические Floptical disk 25 Мб, SuperDisk 120-240 Мб и HiFD 150-240 Мб рыночного успеха не имели.
Подробнее об эволюции СХД читайте здесь.
Почему возникла необходимость в СХД
Из проведенного исследования IDC Perspectives следует, что хранение данных занимает второе место среди расходов на ИТ и составляет примерно 23% от всех расходов. По информации The InfoPro, Wave 11 «прирост расходов на СХД в средней компании Fortune 1000 превышает 50% в год».
По общему мнению аналитиков, в организациях по всему миру ежеминутно вырастают объемы хранимой и обрабатываемой информации. Уникальная информация становится все дороже, ее объём каждый год увеличивается многократно, а её хранение требует затрат. Ввиду этого организации стремятся не только формировать развитие инфраструктуры хранения данных, но и изыскивать возможности улучшения и повышения экономической эффективности СХД: снижения энергопотребления, расходов на сервис, общей стоимости владения и закупки систем резервного копирования и хранения.
Рост объемов данных, возросшие требования к надежности хранения и быстродействию доступа к данным делают необходимым выделение средств хранения в отдельную подсистему вычислительного комплекса (ВК). Возможность доступа к данным и управления ими является необходимым условием для выполнения бизнес-процессов. Безвозвратная потеря данных подвергает бизнес серьезной опасности. Утраченные вычислительные ресурсы можно восстановить, а утраченные данные, при отсутствии грамотно спроектированной и внедренной системы резервирования, уже не подлежат восстановлению.
Происходит заметное развитие потребности не только в приобретении СХД корпоративными клиентами, но и в строгом учете, аудите и мониторинге использования дорогостоящих ресурсов. Нет ничего хуже остановки бизнес-процессов из-за невозможности своевременно получить необходимые данные (или полной их утраты), а ведь это может повлечь за собой необратимые последствия.
Факторы, способствующие развитию СХД
Основным фактором был рост конкуренции и усложнение ее характера во всех сегментах рынка. В Западной Европе эти явления можно было наблюдать и раньше, а в Восточной Европе — в последние пять лет. Пять лет назад у мобильного оператора было 25-25 млн зарегистрированных SIM-карт, а сегодня — 50-70 млн. Таким образом, мобильной связью от этих компаний обеспечен практически каждый житель страны, а ведь есть еще региональные операторы. Вот реальный уровень конкуренции: на рынке не осталось никого, кто не имел бы мобильного телефона. И теперь операторы не могут экстенсивно расти за счет продажи своих продуктов тем, у кого аналогичных продуктов еще нет. Им нужны клиенты, которые работают с конкурентами, и необходимо понять, как их получить. Надо разобраться в их поведении, в том, чего они хотят. Чтобы извлечь полезную информацию из доступных данных, необходимо поместить их в хранилище[1].
Еще один фактор — появление на рынке множества компаний, которые предлагают свои решения для поддержки бизнеса предприятий: ERP, биллинговые системы, системы поддержки принятия решений и т. д. Все они позволяют собирать детальные данные самого разного характера в огромных объемах. При наличии в организации развитой ИТ-инфраструктуры эти данные можно собрать вместе и проанализировать их.
Следующий фактор — технологического характера. До некоторого времени производители приложений самостоятельно разрабатывали разные версии своих решений для разных серверных платформ или предлагали открытые решения. Важной для отрасли технологической тенденцией стало создание адаптируемых платформ для решения различных аналитических задач, которые включают аппаратную составляющую и СУБД. Пользователей уже не волнует, кто сделал для их компьютера процессор или оперативную память, — они рассматривают хранилище данных как некую услугу. И это важнейший сдвиг в сознании.
Технологии, которые позволяют использовать хранилища данных для оптимизации операционных бизнес-процессов практически в реальном времени не только для высококвалифицированных аналитиков и топ-менеджеров, но и для сотрудников фронт-офиса, в частности для сотрудников офисов продаж и контактных центров. Принятие решений делегируется сотрудникам, стоящим на более низких ступенях корпоративной лестницы. Необходимые им отчеты, как правило, просты и кратки, но их требуется очень много, а время формирования должно быть невелико.
Сферы применения СХД
Традиционные хранилища данных можно встретить повсеместно. Они предназначены для формирования отчетности, помогающей разобраться с тем, что произошло в компании. Однако это первый шаг, базис.
Людям становится недостаточно знать, что произошло, им хочется понять, почему это случилось. Для этого используются инструменты бизнес-аналитики, которые помогают понять то, что говорят данные.
Вслед за этим приходит использование прошлого для предсказания будущего, построение прогностических моделей: какие клиенты останутся, а какие уйдут; какие продукты ждет успех, а какие окажутся неудачными и т.д.
Некоторые организации уже находятся на стадии, когда хранилища данных начинают использовать для понимания того, что происходит в бизнесе в настощее время. Поэтому следующий шаг — это «активация» фронтальных систем при помощи решений, основанных на анализе данных, зачастую в автоматическом режиме.
Объемы цифровой информации растут лавинообразно. В корпоративном секторе этот рост вызван, с одной стороны, ужесточением регулирования и требованием сохранять все больше информации, относящейся к ведению бизнеса. С другой стороны, ужесточение конкуренции требует все более точной и подробной информации о рынке, клиентах, их предпочтениях, заказах, действиях конкурентов и т.д[2].
В государственном секторе рост объемов хранимых данных поддерживает повсеместный переход к межведомственному электронному документообороту и создание ведомственных аналитических ресурсов, основой которых являются разнообразные первичные данные.
Не менее мощную волну создают и обычные пользователи, которые выкладывают в интернет свои фотографии, видеоролики и активно обмениваются мультимедийным контентом в социальных сетях.
Требования к СХД
Группа компаний ТИМ в 2008 году провела опрос среди клиентов с целью выяснить, какие характеристики наиболее важны для них при выборе СХД[3]. На первых позициях оказались качество и функциональность предлагаемого решения. В то же время расчет совокупной стоимости владения для российского потребителя явление нетипичное. Заказчики чаще всего не до конца осознают какие их ожидают издержки, например, затраты на аренду и оснащение помещения, электроэнергию, кондиционирование, обучение и зарплату квалифицированного персонала и проч.
Когда возникает необходимость приобрести СХД, максимум, что оценивает для себя покупатель, это прямые затраты, проходящие через бухгалтерию на приобретение данного оборудования. Впрочем, цена по степени важности оказалась на девятом месте из десяти. Безусловно, заказчики учитывают возможные трудности, связанные с обслуживанием техники. Обычно их избежать помогают пакеты расширенной гарантийной поддержки, которые обычно предлагают в проектах.
Практика компании AvroRAID показывает, что к покупке новой СХД или обновлению существующей потребителей подталкивает целый ряд проблем.
Причины приобретения СХД
Источник: AvroRAID, 2010.
Из чего состоит СХД
Как правило, система хранения данных содержит следующие подсистемы и компоненты:
- устройства хранения (дисковые массивы, ленточные библиотеки)
- инфраструктуру доступа к устройствам хранения
- подсистему резервного копирования и архивирования данных
- программное обеспечение управления хранением
- систему управления и мониторинга
СХД часто предполагает монтаж в стандартный 19-дюймовый шкаф и содержит жёсткие диски, внешние интерфейсы для подключения хостов (серверов) и несколько блоков питания. Внутри располагаются процессорные блоки, контроллеры дисков, портов ввода-вывода, кэш-память и другие необходимые компоненты.
Пример структурной схемы СХД. 1. Контроллер, включающий центральный процессор (или несколько), интерфейсы для коммутации с жёсткими дисками и внешними портами, кэш-память. 2. Внешний интерфейс, в данном случае Fibre Channel. 3. Жёсткие диски – ёмкость расширяется дополнительными полками. 4. Кэш-память обычно зеркалируется, чтобы не потерять данные при выходе из строя одного из модулей.
Имеющиеся в системе диски можно разбивать на группы и объединять в RAID различных уровней. Получившееся дисковое делится на логические блоки (LUN) – к ним получают доступ хосты и «видят» их как локальные жёсткие диски. Количество RAID-групп, LUN-ов, логика работы кэша, доступность LUN-ов конкретным серверам настраивается администратором.
Дисковые массивы
В конце 90-х удачно сошлись две новации – научная база RAID и выпускаемые массовым тиражом винчестеры. Если собрать их вместе, оказалось возможным создать коммерческий накопитель кластерного типа, способный конкурировать с дисками IBM по техническим показателям при существенно меньшей цене.
Гигантизм дисков, выпускавшихся до появления винчестеров, находился в противоречии с незамысловатой логикой этих устройств. Их логика была примитивна, она почти полностью соответствовала физической инфраструктуре (сектора и дорожки). И, как малотиражные и специализированные изделия, они были дороги.
В 1988 году Майкл Рюттгерс, который в дальнейшем стал главным стратегом EMC, предложил разработать дисковую систему, состоящую из винчестеров, и поставлять их для мэйнфреймов, совместимых с IBM, и для AS/400. Другой, пожалуй, самый удачливый специалист по СХД Моше Янаи выдвинул идеологию кэш-памяти Integrated Cached Disk Array (ICDA), в результате родился прародитель дисковых кластеров EMC Symmetrix.
Осенью 1990 года, когда EMC представила Symmetrix, ставший легендой дисковых массивов, модель 4200 ICDA имела емкость 24 Гбайт, кэш-память 256 Мбайт и контроллер на базе 32-разрядного процессора. Symmetrix за несколько лет вывел компанию на позицию ведущего поставщика накопителей для мэйнфреймов. По данным IDC, ее доля на рынке накопителей для мэйнфреймов возросла с 1% (в 1990 г.) до 42,5% (в 1996 г.).
Symmetrix был дешев для мэйнфреймов, но слишком дорог для Unix-серверов и тем более для х86 серверов, поэтому немало компаний рвануло в открывшийся сегмент рынка, они предложили продукты, уступающие Symmetrix по качеству, но не столь дорогие. В последующем на рынке появилось множество моделей дисковых массивов самого разного назначения.
Ключевые требования к СХД
На практике к СХД подключается не один сервер, а многие десятки и сотни. Это диктует ряд ключевых требований к системам такого рода[4]:
Надёжность и отказоустойчивость. В СХД предусмотрено полное или частичное резервирование всех компонент – блоков питания, путей доступа, процессорных модулей, дисков, кэша и т.д. Обязательно наличие системы мониторинга и оповещения о возможных и существующих проблемах.
Доступность данных. Обеспечивается продуманными функциями сохранения целостности данных (использование технологии RAID, создание полных и мгновенных копий данных внутри дисковой стойки, реплицирование данных на удаленную СХД и т.д.) и возможностью добавления (обновления) аппаратуры и программного обеспечения в горячем режиме без остановки комплекса;
Средства управления и контроля. Управление СХД осуществляется через web-интерфейс или командную строку, есть функции мониторинга и несколько вариантов оповещения администратора о неполадках. Доступны аппаратные технологии диагностики производительности.
Производительность. Определяется числом и типом накопителей, объёмом кэш-памяти, вычислительной мощностью процессорной подсистемы, числом и типом внутренних и внешних интерфейсов, а также возможностями гибкой настройки и конфигурирования.
Масштабируемость. В СХД обычно присутствует возможность наращивания числа жёстких дисков, объёма кэш-памяти, аппаратной модернизации и расширения функционала с помощью специального ПО. Все перечисленные операции производят без значительного переконфигурирования и потерь функциональности, что позволяет экономить и гибко подходить к проектированию ИТ-инфраструктуры.
Типы СХД
Дисковые СХД
Используют для оперативной работы с данными, а также для создания промежуточных резервных копий.
Существуют следующие виды дисковых СХД[5]:
- СХД для рабочих данных (высокопроизводительное оборудование);
- СХД для резервных копий (дисковые библиотеки);
- СХД для долговременного хранения архивов (системы CAS).
Ленточные СХД
Предназначены для создания резервных копий и архивов.
Существуют следующие виды ленточных СХД:
- отдельные накопители;
- автозагрузчики (один накопитель и несколько слотов для лент);
- ленточные библиотеки (более одного накопителя, множество слотов для лент).
Варианты подключений СХД
Для подключения устройств и жестких дисков внутри одного хранилища используются различные внутренние интерфейсы:
Наиболее распространенные внешние интерфейсы подключения СХД:
Популярный интерфейс межузлового кластерного взаимодействия Infiniband теперь также используется для доступа к СХД.
Варианты топологий СХД
Традиционный подход к хранилищам данных состоит в непосредственном подключении серверов к системе хранения Direct Attached Storage, DAS (Direct Attached Storage). Помимо Direct Attached Storage, DAS, существуют устройства хранения данных, подключаемые к сети, — NAS (Network Attached Storage), a также компоненты сетей хранения данных — SAN (Storage Area Networks). И NAS-, и SAN-системы появились в качестве альтернативы архитектуре Direct Attached Storage, DAS. Причем каждое решение разрабатывалось как ответ на растущие требования к системам хранения данных и основывалось на использовании доступных в то время технологиях.
Архитектуры сетевых систем хранения были разработаны в 1990-х гг., и их задачей было устранение основных недостатков систем Direct Attached Storage, DAS. В общем случае сетевые решения в области систем хранения должны были реализовать три задачи: снизить затраты и сложность управления данными, уменьшить трафик локальных сетей, повысить степень готовности данных и общую производительность. При этом архитектуры NAS и SAN решают различные аспекты общей проблемы. Результатом стало одновременное сосуществование двух сетевых архитектур, каждая из которых имеет свои преимущества и функциональные возможности.
Системы хранения прямого подключения (DAS)
Устройства хранения Direct Attached Storage, DAS, также известные как SAS (Server Attached Storage), т. е. системы, подключаемые непосредственно к серверу, были разработаны много лет назад для расширения емкости хранения существующих серверов. В те времена при необходимости увеличения числа томов, связанных с приложениями, к серверу добавлялись новые диски либо приобретался новый сервер. Принимая во внимание технологические ограничения того времени (узкая полоса пропускания, медленные сети, дорогостоящие микропроцессоры) и относительно низкие требования к емкости и времени доступа, системы DAS были вполне адекватным решением.
Direct Attached Storage, DAS — это, по сути, расширение дисковой системы хранения отдельно взятого сервера. Клиенты получают доступ к данным, обращаясь к этому серверу через сеть. То есть сервер имеет блочный доступ к данным на СХД, а уже клиенты пользуются файловым доступом.
Устройства хранения данных, подключаемые к сети (NAS)
Основная задача систем NAS — упростить совместное использование файлов. На базовом уровне устройства NAS — это оборудование, которое подключается непосредственно к локальной сети. В этом состоит их основное отличие от систем с индивидуальными серверами с прямым подключением изолированных накопителей.
Сети хранения данных (SAN)
SAN — отдельная сеть хранения данных, которая обладает высокой производительностью и масштабируемостью, может расширяться как вертикально (путем добавления дополнительных дисков и полок расширения к единому дисковому хранилищу), так и горизонтально (с добавлением новых хранилищ в инфраструктуру сети). В этом случае серверы получают доступ к дисковым накопителям посредством сети SAN, и не нагружают локальную сеть. При необходимости можно организовать транспорт данных между сетями хранения.
Эти решения стали ответом не только на недостатки систем DAS и NAS, но, что более важно, на проблемы перегрузки каналов связи и задержки в локальных IP-сетях (10/100-Мбит/с). Впервые концепция SAN была предложена в 1998 г. Как и многие другие современные компьютерные технологии, она была заимствована из мира мэйнфреймов, где применялась, например, в центрах обработки данных для подключения компьютеров к системам хранения и распределенным сетям.
Многоуровневое хранение данных
Многоуровневое хранение данных (Data multy tiering) можно рассматривать как один из компонентов более широкого давнего понятия виртуализации памяти.
Термин virtual по отношению к памяти и СХД возник в 1959 году для обозначения виртуальной по своей сути внешней памяти на дисках, используемой для расширения внутренней памяти, которую в ту пору собирали из магнитных сердечников. Она по определению была очень маленькой, но при этом чрезвычайно дорогой. Маленькую и дорогую память подменяли прозрачным для процессора способом более дешевой дисковой памятью несравненно большего размера. В современных системах хранения точнее вести речь об интеграции хранения, замене физических адресов и номеров устройств логическими адресами и логическими номерами устройств и о более эффективных методах управления.
Появление SSD дало новый импульс к продолжению работ по виртуализации, нынешний этап называют Automated Tiered Storage (AST), на нем автоматически выполняются процедуры DataTiering, то есть перемещения данных по уровням хранения.
Появление SSD дало новый импульс к продолжению работ по виртуализации, нынешний этап называют Automated Tiered Storage (AST), на нем автоматически выполняются процедуры DataTiering, то есть перемещения данных по уровням хранения.
Необходимость в миграции данных связана с природой данных. Кривая распределения числа обращений к данным по времени напоминает гауссову кривую – количество обращений к свежим данным, требующим быстрого доступа, невелико, по мере старения данных оно возрастает, а далее падает и к архивированным данным на медленных устройствам количество обращений существенно меньше пикового. Это свойство данных побуждает к созданию многоуровневых СХД, на нынешнем уровне развития технологии можно реализовать 4-х уровневую модель: на 0 уровне – SSD, на них хранятся наиболее востребованные данные; на 1 уровне – быстрые диски SAS; на 2 уровне – медленные диски SAS или SANA, на 3 уровне – ленты. Принятая прежде трехуровневая схема из дисков SAS, SATA и лент устарела.
AST можно считать развитием ранее известного управления иерархическим хранением данных Hierarchical Storage Management (HSM), созданного в 1974 году для дисковой библиотеки IBM 3850, которая совместно с дисками впервые позволила образовать единое пространство данных. Возможно, использование нового названия отражает ускорение процессов миграции до уровня реального времени, что позволяет использовать SSD.
AST – это процесс перманентного перемещения данных между разными по стоимости устройствами в соответствии с «температурой» данных: чем данные горячее, тем дороже и соответственно быстрее может быть устройство, то есть SSD, а холодные данные можно переместить на ленту. Для этого AST по заданным алгоритмам периодически просматривает данные и осуществляет перемещение, руководствуясь температурой.
Следует различать функции AST с той ролью, которую играет кэш-память на флэш, подключаемая по NVMe. Принцип работы кэша проще, чем AST, любой кэш является инструментом, в него на время копируется фрагмент из более медленной памяти. Кэш – простой ускоритель, AST – оптимизирует использование ресурсов СХД.
Следует различать функции AST с той ролью, которую играет кэш-память на флэш, подключаемая по NVMe. Принцип работы кэша проще, чем AST, любой кэш является инструментом, в него на время копируется фрагмент из более медленной памяти. Кэш – простой ускоритель, AST – оптимизирует использование ресурсов СХД.
Работа с корпоративными данными является одной из важнейших составляющих цифровых изменений в компаниях. Эта работа требует наличия эффективных средств, поддерживающих интерфейс между иерархически организованными многоуровневыми системами хранения, аналитическими и другими технологиями, непосредственно служащими целям бизнеса. Такой интерфейс дает возможность трансформировать пассивно хранящиеся данные в важнейший актив предприятия, позволяющий извлекать полезные для принятия решений знания из накопленных данных. С возрастанием объема данных и появлением больших данных, значение взаимосвязи между данными и бизнесом многократно возрастает.
Отвечая на запросы, возникающие со стороны современного бизнеса, компания КРОК предложила собственную концепцию «Умное хранение данных», в соответствии с которой их хранение организуется с учетом их дальнейшего использования и возможности извлечения из них максимума полезной информации. Внедрение «Умного хранения данных» позволяет получить бизнес-преимущества за счет более эффективного использования корпоративной информации. Технологии, заложенные в концепцию «Умное хранение данных», распространяется как на структурированные данные, хранящиеся в реляционных СУБД, так и на стремительно возрастающие объемы неструктурированных данных. Совместно с партнером Dell EMС КРОК предоставляет возможность создавать производительную инфраструктуру для хранения данных на базе линейки массивов Dell EMC Unity. Благодаря гибкости и простоте управления можно легко объединять облачные среды, возможности all flash и гибридных СХД для перехода на новый уровень цифровой трансформации.
«Умное хранение данных» повышает экономическую эффективность работы с информацией за счет ее распределения по хранилищам, исходя из востребованности при одновременном соблюдении доступности данных для аналитических систем. К тому же поддержка рабочих процессов средствами «Умного хранения данных» позволяет повысить их надежность, поскольку данные хранятся и обрабатываются в общей и защищенной от сбоев среде. Перейти к новому подходу к хранению данных с помощью технологий Dell EMC можно максимально быстро и без капитальных затрат, воспользовавшись моделью Hardware as a Service.
Подробнее об эволюции СХД читайте здесь.
Программный и аппаратный RAID
Все существующие СХД делятся на использующие аппаратный RAID и специализированное ПО для расчета RAID – программный RAID[6]. Последние системы являются более экономичными. Теперь многие задачи обработки и хранения данных значительно эффективнее решаются в рамках СХД с программным RAID. Например - резервирование системных дисков и виртуальных машин, хранение и обработка видео, работа с крупными файлами в системах документооборота.
После лидерства программного RAID в начале девяностых годов на смену ему пришел аппаратный, и до недавнего времени именно он преобладал на рынке СХД. Программному RAID отводилась роль недорогих любительских и домашних систем хранения. Сейчас имеется класс задач, которым вполне достаточно программного RAID, предоставляемого непосредственно ОС Windows, Unix и другими. СХД с программным RAID из категории систем начального уровня вышли на корпоративный рынок.
Составляющие программного RAID
Развитие направления СХД с программным RAID во многом определяют компании, выпускающие стандартные комплектующие: процессоры с новыми встроенными командами, коммутаторы и корзины, поддерживающие более производительные протоколы передачи данных. Серверные комплектующие нового поколения и их привлекательная цена, инновационные алгоритмы расчета, – все это позволило СХД с программным RAID превзойти по характеристикам аналоги с аппаратным RAID.
Производители СХД с программным RAID используют всю мощь нового поколения аппаратных комплектующих и на один-два года опережают производителей аппаратных RAID-массивов по срокам выпуска новых моделей. В то время как производителям аппаратного RAID необходимо модернизировать производственный процесс, для СХД с программным RAID достаточно протестировать новую корзину или процессор, - и новая модель готова к поставке.
Среди достоинств программного RAID можно отметить высокую производительность на платформе x86-64, недорогие, доступные и взаимозаменяемые серверные комплектующие, а также привлекательную стоимость обработки и хранения данных. При этом стоимость модернизации системы будет довольно низкой за счет покомпонентного обновления аппаратных и программных средств, а также их значительно больших функциональных возможностей. Программный RAID позволяет реализовать шифрование на уровне кода процессора, например, Intel Core i7). Подобные системы обладают повышенной отказоустойчивостью N+2 и даже N+3.
Об интересе российских потребителей к СХД на основе программного RAID свидетельствует ряд факторов. Крупные российские интеграторы включили в свои предложения системы хранения на основе программного RAID. В прайс-листах российских сборщиков серверов и систем хранения подобные системы занимают примерно 20-30%. Владельцы ЦОДов размещают ресурсы на программных RAID в соответствии с практиками многоуровневого хранения данных (см. далее).
Мировой рынок СХД
Основная статья: СХД (мировой рынок)
Российский рынок СХД
В последние несколько лет российский рынок СХД успешно развивается и растет. Так, в конце 2010 года выручка производителей систем хранения, проданных на российском рынке, превысила $65 млн, что по сравнению со вторым кварталом того же года больше на 25% и на 59% 2009-го. Общая емкость проданных СХД составила примерно 18 тыс. терабайт, что является показателем роста больше чем на 150% в год.
Российский рынок систем хранения данных развивается чрезвычайно динамично в силу того, что он ещё очень молод. Отсутствие унаследованного оборудования не оказывает на него значительного влияния, поскольку из-за взрывного роста объемов данных старые системы попросту не отвечают требованиям клиентов и «вымываются» значительно быстрее, чем, например, древние серверы и рабочие станции.
Стремительный рост объемов данных все чаще вынуждает отечественные компании приобретать внешние дисковые системы хранения. Этому в немалой степени способствует и традиционная тенденция снижения стоимости ИТ-компонентов. Если раньше внешние СХД воспринимались только как атрибут крупных организаций, то теперь потребность в этих системах не отвергают даже небольшие компании[7].
Основные этапы проектов создания хранилищ данных
Хранилище данных — очень сложный объект. На 2011 год потребление СХД становится неотъемлемой частью внедрения комплексных инфраструктурных решений. Как правило, речь идет о внушительных инвестициях на 3-5 лет, и заказчики рассчитывают, что в течение всего срока эксплуатации система в полной мере будет отвечать предъявляемым со стороны бизнеса требованиям.
Далее, необходимо обладать технологиями создания хранилищ данных. Если вы начали создавать хранилище и разрабатываете для него логическую модель, то у вас должен быть словарь, определяющий все основные понятия. Даже такие расхожие понятия, как «клиент» и «продукт», имеют сотни определений. Только получив представление о том, что означают те или иные термины в данной организации, можно определить источники необходимых данных, которые следует загрузить в хранилище.
Теперь можно приступить к созданию логической модели данных. Это критически важный этап проекта. Надо от всех участников проекта создания хранилища данных добиться согласия относительно актуальности этой модели. По завершении этой работы становится понятно, что в действительности нужно клиенту. И только потом имеет смысл говорить о технологических аспектах, например о размерах хранилища. Клиент оказывается лицом к лицу с гигантской моделью данных, которая содержит тысячи атрибутов и связей.
Необходимо постоянно помнить, что хранилище данных не должно быть игрушкой для ИТ-департамента и объектом затрат для бизнеса. И в первую очередь хранилище данных должно помогать клиентам решать их самые критичные проблемы. Например, помочь телекоммуникационным компаниям предотвратить утечку клиентов. Для решения проблемы необходимо заполнить определенные фрагменты большой модели данных, и затем помогаем выбрать приложения, которые помогут решить эту проблему. Это могут быть очень несложные приложения, скажем Excel. Первым делом стоит попытаться решить основную проблему с помощью этих инструментов. Пытаться заполнить всю модель сразу, использовать все источники данных будет большой ошибкой. Данные в источниках необходимо тщательно проанализировать, чтобы обеспечить их качество. После успешного решения одной-двух проблем первостепенной важности, в ходе которого обеспечено качество необходимых для этого источников данных, можно приступать к решению следующих проблем, постепенно заполняя другие фрагменты модели данных, а также используя заполненные ранее фрагменты.
В каталоге TAdviser перечислен ряд российских компаний, имеющих отношение к поставкам и внедрению СХД и предоставлению сопутствующих услуг. Одновременно стоит понимать, что в ряде крупных проектов некоторые вендоры могут участвовать напрямую, в первую очередь, НР и IBM. Некоторые заказчики в этом случае чувствуют себя увереннее, всецело полагаясь на сервисную поддержку ведущих мировых производителей. Безусловно, стоимость владения в этом случае заметно повышается.
Тенденции и перспективы
2024: Перспективы и вызовы в хранении данных в России к 2030 году
С каждым годом объемы данных продолжают расти, и уже к 2025 году мир будет генерировать до 160 зеттабайт информации ежегодно. Но что нас ждет в 2030 году? Как будет выглядеть хранение данных в будущем? Какие технологии и подходы станут ключевыми для бизнеса? Антон Аплемах, эксперт в области корпоративного хранения данных, представил в октябре 2024 года своё видение будущего хранения данных в России и поделился с TAdviser мнением относительно децентрализации, квантовых технологий и способов оптимизации хранения данных в условиях лавинообразного роста информации. Об этом эксперт рассказал в октябре 2024 года. Подробнее здесь.
2020: Western Digital: Пять трендов в сфере хранения данных, которые будут определять развитие отрасли
21 апреля 2020 года компания Western Digital поделилась с TAdviser обзором глобальных трендов в сфере хранения данных, на которые, по мнению компании, следует обратить внимание в 2020 году. По словам Дарры О’Тул, старшего менеджера по маркетингу продукции WesternDigital в регионе EMEA, данные тренды будут определять развитие отрасли СХД в 2020 году и в более далекой перспективе.
1). Количество локальных ЦОД увеличится, появятся новые архитектуры
По информации компании, хотя темпы перехода в облако не снижаются, можно выделить два фактора, которые поддерживают дальнейший рост локальных (или микро-) ЦОД. Во-первых, обновленные нормативные требования к хранению данных по-прежнему остаются на повестке дня. Многие страны принимают законы об условиях хранения данных, поэтому компании вынуждены не отпускать данные далеко от себя, чтобы правильно оценивать и смягчать потенциальные риски, связанные с обеспечением безопасности и конфиденциальности удерживаемых данных. Во-вторых, наблюдается репатриация облаков. Крупные компании стремятся держать свои данные в собственности и за счет аренды облака могут снижать затраты и по своему усмотрению контролировать различные параметры, включая средства защиты, задержку и доступ к данным; такой подход ведет к повышению спроса на локальные СХД.
Помимо этого, для обработки все увеличивающегося объема и многообразия данных будут появляться архитектуры ЦОД. В эру зеттабайтов из-за увеличения объема и сложности рабочих задач, приложений и ИИ/IoT-наборов данных архитектуру инфраструктуры хранения данных придется изменить. Обновленные логические структуры будут состоять из нескольких уровней СДХ, оптимизированных под разные рабочие задачи, кроме того, изменится подход к системному ПО. Инициатива открытого исходного кода по зональному хранению данных ZonedStorage поможет клиентам полностью раскрыть потенциал управления разделенными на зоны блочными устройствами хранения как на HDD-накопителях с SMR (черепичная магнитная запись), так и на SSD-накопителях с ZNS для рабочих задач с последовательной записью и с преобладанием операций чтения. Такой унифицированный подход позволяет управлять естественно сериализованными данными с масштабированием и обеспечивает предсказуемую производительность.
2). Стандартизация ИИ для более простого развертывания периферийных устройств
Аналитика – это хорошее конкурентное преимущество, но объем данных, которые собирают и обрабатывают компании ради инсайтов, просто слишком большой. Поэтому на апрель 2020 года, в условиях существующего мира, где всё со всем соединено, выполнение определенных рабочих задач смещается на периферию, из-за чего возникает потребность научить эти крошечные оконечные устройства запускать и анализировать все возрастающий объем данных. Из-за маленьких габаритов таких устройств и необходимости быстро вводить в их строй они будут эволюционировать в сторону большей стандартизации и совместимости.
3). Ожидается, что устройства для использования данных разделятся на уровни, а инновации в области носителей и фабрик будут набирать обороты, а не сокращаться
Стабильный эксабайтный рост приложений с преобладанием операций чтения в ЦОД будет продолжаться и приведет к появлению требований к производительности, емкости и экономической рентабельности уровней хранилищ по мере того, как компании все больше дифференцируют сервисы, реализуемые с помощью их инфраструктуры хранения данных. Чтобы удовлетворить эти требования, архитектуры ЦОД будут еще больше тяготеть к модели хранения данных, дающей возможность предоставлять и получать доступ к нему поверх фабрики с базовой платформой хранения и устройствами, обеспечивающими реализацию целого набора соглашений об уровне обслуживания (SLA), сообразно конкретным требованиям приложений. Ожидается увеличение числа твердотельных накопителей для обработки быстрых данных и, одновременно с этим, продолжение неослабевающего спроса на эксабайты экономически рентабельных масштабируемых хранилищ, который по-прежнему будет поддерживать стабильный рост емкости парка корпоративных HDD-накопителей для хранения больших данных.
4). Фабрики как решение для унификации общего доступа к хранилищу
На фоне экспоненциального роста объемов данных, дальнейшей диверсификации рабочих нагрузок и требований к IT-инфраструктуре компании должны предлагать клиентам все более быстрые и гибкие решения, параллельно сокращая время вывода продуктов на рынок. Ethernet-фабрики становятся «универсальной объединительной платой» ЦОД, унифицируя процессы общего доступа, наполнения и управления с масштабированием для того, чтобы отвечать на потребности, возникающие из-за еще большего разнообразия приложений и рабочих задач. Компонуемая инфраструктура представляет собой архитектурный подход, в котором расширение NVMe-over-Fabric используется для кардинального улучшения использования, производительности и гибкости вычислительных мощностей и СХД в ЦОД. Оно позволяет дезагрегировать хранилище от вычислительных систем, разрешая приложениям использовать общий пул хранения, при этом данные могут легко использоваться приложениями совместно, а требуемые мощности могут динамично выделяться для какого-то приложения, независимо от местонахождения. В 2020 году дальнейшее распространение получат компонуемые дезагрегированные решения для СХД, которые эффективно маштабируются над Ethernet-фабриками и раскрывают весь рабочий потенциал NVMe-устройств для самых разных приложений ЦОД.
5). HDD-накопители для ЦОД будут по-прежнему развиваться высокими темпами
Несмотря на то, что уже несколько лет многие предсказывают спад популярности HDD-накопителей, на апрель 2020 года адекватной замены корпоративным НЖМД просто нет, ведь они не только как и раньше удовлетворяют потребности, связанные с ростом объема данных, но и показывают экономическую эффективность с точки зрения общей стоимости владения (ТСО) при масштабировании для гипермасштабируемых ЦОД.
Как отмечает аналитическая компания TRENDFOCUS в своем докладе «Облако, гипермасштабирование и корпоративные СХД» (Cloud, Hyperscale, andEnterpriseStorageService), корпоративные HDD-накопители пользуются стабильно высоким спросом: на рынок для корпоративных нужд будет выведен эксабайт устройств, а ежегодный рост за пять календарных лет с 2018 по 2023 составит 36%. Более того, по мнению IDC, за 2023 год будет сгенерировано 103 Збайта данных, 12 Збайт будут сохранены, из которых 60% отправятся в основные/периферийные ЦОД. Подгоняемая ненасытным ростом объема данных, создаваемых и людьми, и машинами, эта фундаментальная технология столкнется с другими приемами размещения данных, более высокой плотностью записи, инновациями в механике, умным хранением данных и изобретениями материалов. Все это в обозримом будущем приведет к увеличению емкости и оптимизации общей стоимости владения (TCO) при масштабировании.
Принимая во внимание их основополагающую роль в складировании и управлении данными, имеющими для компаний критическое значение, HDD и флеш-технологии останутся одним из фундаментальный столпов успешных и безопасных бизнес-операций, независимо от размера организации, ее типа или отрасли, в которой она работает. Инвестиции в комплексную инфраструктуру хранения данных позволят компаниям упрочить свои позиции и в многолетней перспективе легче справляться с увеличением объема данных, не беспокоясь о том, что построенная ими система не справится с нагрузкой, связанной с реализацией современных и высокотехнологичных бизнес-процессов.
2018
Проблемой №1 для большинства крупных корпоративных заказчиков стала на сегодняшний день разнородная инфраструктура СХД: организациям нередко приходится поддерживать десятки СХД различных классов и поколений от разных производителей, поскольку разные приложения предъявляют разные требования к хранению данных. Так, критически важным транзакционным системам (биллинговым, процессинговым, ERP и т.п.) требуются высокая надежность и производительность, свойственные СХД верхнего ценового сегмента. Для аналитических систем нужны высокая производительность и низкая стоимость в расчете на единицу хранения, поэтому для них резервируются СХД с твердотельными дисками (SSD). А, например, для работы с файлами нужны функциональность и низкая стоимость, поэтому здесь применяются традиционные дисковые массивы. В разнородной инфраструктуре уровень утилизации СХД оказывается низким, общая стоимость владения (TCO) — непомерно высокой, управляемость — слабой, к тому же сложность такой инфраструктуры хранения, как правило, велика[8].
Еще одна серьезная проблема — модернизация СХД. Зачастую СХД, приобретенная три-пять лет назад, уже не справляется с растущими объемами данных и требованиями к скорости доступа к ним, поэтому приобретается новая система, на которую переносятся данные с прежней. По сути, заказчики, повторно платят за объемы хранения, требуемые для размещения данных и, кроме того, несут расходы на установку новой СХД и перенос данных на нее. При этом прежние СХД, как правило, еще не настолько устаревшие, чтобы отказываться от них полностью, поэтому заказчики пытаются приспособить их под другие задачи.
2009
Стремительная эволюция ежегодно вносит серьезные изменения в основные тренды развития СХД. Так, в 2009 году во главу угла ставилась способность экономично распределять ресурсы (Thin Provisioning), последние несколько лет проходят под знаком работы СХД в "облаках". Спектр предлагаемых систем отличается разнообразием: огромное количество представленных моделей, различные варианты и комбинации решений от начального уровня до Hi-End класса, решения под ключ и покомпонентная сборка с применением самой современной начинки, программно-аппаратные решения от российских производителей.
Стремление к сокращению расходов на ИТ-инфраструктуру требует постоянного баланса между стоимостью ресурсов СХД и ценностью данных, которые на них хранятся в данный момент времени. Для принятия решения о том, как наиболее эффективно размещать ресурсы на программных и аппаратных средствах, специалисты ЦОД руководствуются не только подходами ILM и DLM, но и практикой многоуровнего хранения данных. Каждой единице информации, подлежащей обработке и хранению, присваиваются определенные метрики. В их числе степень доступности (скорость предоставления информации), важность (стоимость потери данных в случае аппаратного и программного сбоя), период, через который информация переходит на следующую стадию.
Пример разделения систем хранения в соответствии с требованиями к хранению и обработке информации по методике многоуровневого хранения данных.
Вместе с тем, возросли требования к производительности транзакционных систем, что предполагает увеличение количества дисков в системе и соответственно выбор СХД более высокого класса. В ответ на этот вызов производители снабдили системы хранения новыми твердотельными дисками, превосходящими прежние по производительности более чем в 500 раз на `коротких` операциях чтения-записи (характерных для транзакционных систем).
Популяризация облачной парадигмы способствовала повышению требований к производительности и надежности СХД, поскольку в случае отказа или потери данных пострадают не один-два подключенных напрямую сервера — произойдет отказ в обслуживании для всех пользователей облака. В силу той же парадигмы проявилась тенденция к объединению устройств разных производителей в федерацию. Она создает объединенный пул ресурсов, которые предоставляются по требованию с возможностью динамического перемещения приложений и данных между географически разнесенными площадками и поставщиками услуг.
Определенный сдвиг отмечен в 2011 году в области управления `Большими данными`. Раньше подобные проекты находись на стадии обсуждения, а теперь они перешли в стадию реализации, пройдя весь путь от продажи до внедрения.
На рынке намечается прорыв, который уже случился на рынке серверов, и, возможно, уже в 2012 году мы увидим в массовом сегменте СХД, поддерживающие дедупликацию и технологию Over Subscribing. В итоге, как и в случае серверной виртуализации, это обеспечит масштабную утилизацию емкости СХД.
Дальнейшее развитие оптимизации хранения будет заключаться в совершенствовании методов сжатия данных. Для неструктурированных данных, на которые приходится 80% всего объема, коэффициент сжатия может достигать нескольких порядков. Это позволит существенно снизить удельную стоимость хранения данных для современных SSD-носителей, обеспечив максимальную производительность.
См. также
Источники
- HP SAN DESIGN GUIDE
- Андрей Захаров, Основные системы хранения данных и их особенности
- Сети хранения данных
- NAS – сетевая система хранения данных
- Журнал Upgrade4_08_05
Примечания
- ↑ Хранилища данных должны приносить доход
- ↑ Круглый стол CNews: «Рынок СХД: реалии и перспективы»
- ↑ СХД: тенденции и перспективы
- ↑ Современные системы хранения данных
- ↑ Система хранения данных (СХД)
- ↑ СХД в России: программный RAID возвращается
- ↑ СХД для «середнячков»
- ↑ Компания Pure Storage в июне 2018 года рассказала участникам и гостям форума «Инфраструктура 2018» о том, как встроенные в массивы Pure технологии обеспечивают уникальное сочетание высокой надежности, производительности и экономической эффективности СХД.