Сбои ОЗУ: кошмар на улице DIMM

Наблюдения за десятками тысяч серверов Google, проводившиеся в течение двух с половиной лет, показали, что частота ошибок в модулях памяти превышает в сотни и тысячи раз общепринятые представления о возможной интенсивности сбоев данного типа. В среднем на один модуль DIMM пришлось 3751 корректируемых ошибок в течение года. В исследовании рассматривались разнообразные платформы от множества производителей, и различные типы динамической памяти, включая DDR1, DDR2 и FB-DIMM.

статистика проявления сбоев динамической памяти

В серверах Google применяется память со схемами коррекции ошибок (Error Correcting Code, ECC), которая обеспечивает исправление одиночных ошибок и регистрацию двойных. И в том и в другом случае есть возможность фиксировать информацию об их проявлении. В пользовательских системах, за редким исключением, используется память без ECC, поэтому сбои в DIMM могут сопровождаться разнообразнейшими эффектами и разрушением данных, но при этом непосредственного указания на первоисточник неприятностей пользователь не получит.

Отражение сложившихся представлений о надежности памяти можно найти в старом FAQ сайта AnandTech. Там приводятся данные IBM, полагающей вероятность проявления ошибок в модуле 128 Мб PC100 SDRAM на уровне одной в месяц, и Micron, говорящей об одной ошибке в течение полугода. Исследования, проведенные Google, заставляют пересмотреть столь благодушные надежды по поводу надежности динамической памяти.

И все же некоторые аспекты исследования можно трактовать оптимистично. Вот они:
- было обнаружено, что температурные условия слабо влияют на интенсивность проявления ошибок и, следовательно, героические усилия по охлаждению модулей в общем случае не нужны;
- ситуация не имеет тенденции к ухудшению. Большая плотность компоновки DRAM в более современных типах памяти не сопровождается пропорциональным ростом ошибок;
- нет существенных различий по надежности между модулями различных типов (DDR1, DDR2 или FB-DIMM), или между модулями от различных производителей. Следовательно, можно выбирать более выгодные по цене варианты (по меньшей мере, среди модулей с ECC);
- в среднем только 8% DIMM подвержены ошибкам в течение года. Меньше модулей – меньше проблем, и это утешительные новости для владельцев систем с небольшим объемом памяти.

Исследование выявило большую интенсивность проявления ошибок на системных платах определенных моделей, вне зависимости от производителей DIMM, которые на них использовались. Это означает, что некоторые платы реализованы неудачно с точки зрения влияния электромагнитных излучений от их компонентов друг на друга. Шины памяти, расположенные слишком близко к «шумным» компонентам, или «земля» недостаточного сечения – источники постоянных ошибок.

В завершение – еще немного любопытных статистических данных. «Неудачные» серверы существуют вне зависимости от платформы – на долю 20% систем с зарегистрированными ошибками пришлось долее чем 90% ошибок, зафиксированных на каждой из разновидностей платформ. Сбойные модули надо менять – в более чем 93% случаев количество корректируемых ошибок в следующем году хоть на одну превышало количество в предыдущем, то есть с течением времени DIMM не «самоисправляются». Ну и, наконец, полученные результаты развеивают сомнения в целесообразности применения памяти с ECC для серверов, и дают повод всерьез задуматься о переходе на ее массовое использование и для пользовательских систем.

Александр Харьковский, 3DNews


!

Если для Вас конкретно эта новость оказалась важной или интересной - пожалуйста, поделитесь ею в своей любимой социальной сети с помощью кнопок, расположенных под этим текстом. Это поможет нам в будущем делать более качественную подборку материалов, исходя из Ваших потребностей\интересов.




Коды для вставки в блог\форум

blog comments powered by Disqus


Вспомним другие новости из этого раздела?


Hard

←+Ctrl+→

Интересные новости
AMD сопоставила производительность Ryzen 3000 с Core i9 и Core i7 в реальных задачах и играхAMD сопоставила производительность Ryzen 3000 с Core i9 и Core i7 в реальных задачах и играх
Впервые в мире: LG создала игровые IPS-мониторы с временем отклика в 1 мсВпервые в мире: LG создала игровые IPS-мониторы с временем отклика в 1 мс
Aorus CV27Q: изогнутый игровой монитор с частотой обновления 165 ГцAorus CV27Q: изогнутый игровой монитор с частотой обновления 165 Гц
ASUS TUF Gaming FX505DV: игровой ноутбук с процессором AMD RyzenASUS TUF Gaming FX505DV: игровой ноутбук с процессором AMD Ryzen
Fujifilm Instax Mini LiPlay: камера мгновенной печати с функцией записи звукаFujifilm Instax Mini LiPlay: камера мгновенной печати с функцией записи звука
Блок рекламы


Похожие новости

Apple патентует дисплей для комфортной работы на улицеApple патентует дисплей для комфортной работы на улице
Компьютер Raspberry Pi 3 уменьшили до размеров планки SODIMMКомпьютер Raspberry Pi 3 уменьшили до размеров планки SODIMM
SSD-драйвы SanDisk ULLtraDIMM выглядят как модули RAMSSD-драйвы SanDisk ULLtraDIMM выглядят как модули RAM
Модули памяти Apacer Combo SDIMM оснащены слотом под SSD-накопителиМодули памяти Apacer Combo SDIMM оснащены слотом под SSD-накопители
A-Data начала выпуск памяти Premier DDR4 2133 UDIMMA-Data начала выпуск памяти Premier DDR4 2133 UDIMM
Transcend предлагает память DDR3 RDIMM для Mac ProTranscend предлагает память DDR3 RDIMM для Mac Pro
SanDisk выпускает первый в индустрии SSD с интерфейсом DIMMSanDisk выпускает первый в индустрии SSD с интерфейсом DIMM
Аналитик: iPad Mini станет «страшным кошмаром конкурентов»Аналитик: iPad Mini станет «страшным кошмаром конкурентов»
Transcend представила DDR3 RDIMM-модули ёмкостью до 32 ГбайтTranscend представила DDR3 RDIMM-модули ёмкостью до 32 Гбайт
Super Talent анонсировала компактные DDR3-модули типа RDIMM и UDIMMSuper Talent анонсировала компактные DDR3-модули типа RDIMM и UDIMM
Последние новости

Подгружаем последние новости