Big Data и реинкарнация магнитной ленты

Перспективные задачи порой дают второе дыхание устаревающим технологиям. На них опираются всякий раз, когда требуется проверенное годами решение. Так происходит сейчас и с применением кассет для хранения больших объёмов данных.

Магнитная лента впервые была использована для хранения программного кода на вычислительной машине UNIVAC в 1951 году. Активное использование кассет для хранения любой информации продолжалось до недавнего времени. Картриджи стримеров оставались одним из самых выгодных и надёжных вариантов хранения архивных копий.

Магнитная лента на ЭВМ UNIVAC (фото: briosolutions.com).
Магнитная лента на ЭВМ UNIVAC (фото: briosolutions.com).

Постепенно спрос на них снижался. Этому способствовало появление жёстких дисков со всё большей плотностью записи и низкой ценой. К 2008 году магнитная лента уже с трудом могла составлять конкуренцию дисковым массивам даже в специфических областях применения. К

К 2012 году темпы снижения объёмов рынка ленточных накопителей составили 14% в год и технологию уже мысленно хоронили. Однако тогда же случилось наводнение в Таиланде, которое продолжалось сто семьдесят пять дней. Среди затопленных индустриальных зон оказались и те, на которых выпускалась продукция для Western Digital, Seagate и Toshiba. Общее число производимых в мире жёстких дисков сократилось на четверть. Цены на них взлетели до 60%, а качество изготовления упало.

Примерно в то же время был запущен целый ряд долгосрочных научных проектов, генерирующих огромное количество данных. Если их обработку удобнее выполнять на массивах оперативной или флэш-памяти (IMDG / SSD), то оптимальный способ хранения определяется надёжностью и низкой себестоимостью. Вариантов организации последнего оставалось не так уж много.

Новые эксперименты CERN на БАК, исследования в области генетики и радиоастрономии – всё это потребовало вновь искать оптимальные способы хранения информации. Так магнитная лента получила вторую жизнь.

Один только проект SKA будет ежедневно генерировать поток данных, превышающий совокупный объём трафика в интернете (изображение: SPDO/Swinburne Astronomy Productions).
Один только проект SKA будет ежедневно генерировать поток данных, превышающий совокупный объём трафика в интернете (изображение: SPDO/Swinburne Astronomy Productions).

Глава подразделения обработки и хранения данных CERN Альберто Пэйс (Alberto Pace) отмечает, что у современных роботизированных ленточных библиотек есть четыре преимущества по сравнению с массивами жёстких дисков. 

Первое из них (как ни странно) – скорость. Да, роботу может потребоваться до срока секунд, чтобы только выбрать нужную кассету из архива и поместить её в считывающее устройство. Однако затем линейное чтение осуществляется в четыре раза быстрее, чем с сетевых дисковых хранилищ.

Второе – надёжность. Если магнитная лента порвётся, то её можно просто склеить за несколько секунд. При этом будут утрачены сотни мегабайт данных, но большую часть удаётся автоматически восстановить за счёт избыточности. Когда из строя выходит жёсткий диск, то часто все терабайты данных на нём утрачиваются безвозвратно. 

На конкретных цифрах это выглядит более наглядно. Общий объём данных CERN сегодня превышает 50 ПБ. Ежегодно из них утрачивается свыше ста терабайт по причине поломки жёстких дисков (бывает, что какой-то RAID-массив разрушается целиком). Менее гигабайта в год теряется из-за повреждений магнитных лент.

Ленточное хранилище данных в CERN (фото: hardware.slashdot.org).
Ленточное хранилище данных в CERN (фото: hardware.slashdot.org).

Третье – минимальное потребление энергии за счёт хранения в неактивном состоянии. Лента протягивается через магнитные головки только для операций чтения/записи, а большую часть времени находится внутри картриджа. Поэтому ленточные накопители в десятки раз экономичнее массивов жёстких дисков при длительной эксплуатации.

Четвёртое – безопасность. Случайно или злонамеренно удалить все данные с жёстких дисков можно за несколько минут. Оператор просто не успеет заметить и остановить процесс, а восстановление потребует такого же объёма чистых жёстких дисков. Полное стирание всех кассет заняло бы месяцы, а потому скрыто сделать это практически невозможно.

Сотрудники научно-исследовательской лаборатории IBM в Цюрихе указывают ещё на два важных отличия. В настоящее время средняя стоимость хранения гигабайта составляет четыре цента для кассет и десять для жёстких дисков. Вдобавок, гарантированное время хранения кассет в шесть раз больше.

Картридж для стримера – пассивное устройство. Лежащая в архиве магнитная лента разрушается очень медленно. При адекватных условиях хранения она остаётся читаемой даже через тридцать лет. Жёсткий диск устроен гораздо сложнее. Его конструкция рассчитана на периодическую или даже круглосуточную работу. Длительное пребывание в неактивном состоянии приводит к нарушению функционирования его механической части. В пролежавшем более пяти лет диске при первом же включении может заклинить шпиндельный двигатель.

Обслуживание системы StorageTek (фото: bnl.gov).
Обслуживание системы StorageTek (фото: bnl.gov).

Конечно, недостатков у ленточных накопителей тоже хватает. Роботизированное хранилище требует обслуживания, а из-за малого времени произвольного доступа такие системы уже никогда не станут доминирующим (и тем более – единственным) вариантом. Однако кассеты по-прежнему занимают важное место в иерархической структуре хранения информации.

С «большими данными» сейчас сталкиваются не только в науке. Они проникают во все сферы жизни и активно внедряются в современные бизнес-процессы. Согласно отчёту Эндрю Лёна (Andrew Leung) из университета штата Калифорния, около 90% информации на любом предприятии теряет актуальность через несколько месяцев. Эти данные ещё обладают ценностью, но вряд ли понадобятся в ближайшее время. Магнитная лента – идеальный вариант для их архивации.

Картридж Sony LTX2500G (фото: itdevicesonline.com).
Картридж Sony LTX2500G (фото: itdevicesonline.com).

Современные картриджи стримеров имеют ёмкость свыше шести терабайт при использовании максимальной степени сжатия, но этого всё равно недостаточно. Два года назад Fujifilm создала прототип кассеты ёмкостью 35 ТБ. Сейчас компания работает над способами увеличить объём одного картриджа до ста терабайт.



Андрей Васильков, Компьютерра





Интересные новости
Дети обмениваются порно-фото и выкладывают их в Сеть, а взрослые не понимают Интернет-слэнг
Марк Цукерберг раскритиковал "Социальную сеть"
Американских игроков начали сажать
1го апреля один из сайтов дошутился: на него подают в суд
Масоны онлайн
Блок рекламы


Похожие новости

"Русские фильмы, идите нах*й": Megogo удалил все роSSийские ленты"Русские фильмы, идите нах*й": Megogo удалил все роSSийские ленты
Исследование Facebook: молодые девушки чаще страдают от тревожности и депрессии из-за просмотра ленты Instagram
Нацполиция обвинила Opendatabot в причастности к распространению персональных данных, сервис отрицает (обновлено)
Google прекратил поддержку разметки data-vocabulary.org
Минцифры подписало меморандум с Datagroup
Facebook тестирует новый вариант новостной ленты с вкладками-фильтрами
Google обновил галерею отчётов в Data Studio
Google прекращает поддержку разметки Data-vocabulary.org
В Google Data Studio теперь можно создавать собственное расписание для отправки отчётов
В Google Data Studio теперь можно добавлять к изображениям ссылки
Последние новости

Подгружаем последние новости