![]() |
Проблема с RAID массивом.
Я, как человек неопытный, прошу подсказать возможные причины следующего события.
На сервере реализован RAID 5-ого уровня (содержит 5 винтов по 120 Гб). Работал полгода без проблем, но в один прекрасный момент сервер начал издавать жуткие периодические писки. Очевидное решение пришло мгновенно: перегрузить, что я и сделал. Винда загрузилась, но не видно одного логического диска размером 400Гб (под виндой массив разбит на 2 логических винта - 100 и 400 Гб). Перегрузил машину. Зашёл в настройки масива и вижу - 2 винта в массиве самопроизвольно отключились (ушли в Offline). Я вернул их в нормальное состояние (Online) и всё вроде ок! Но в чём была проблема? То ли возникли ошибки контрольных сумм или ещё что-нить. Кто сталкивался с подобным помогите - подскажите или дайте ссылку где можно просветится относительно ошибок raid массивов и методов решения. Спасибо! |
Когда пикал, то скорее всего происходил ребилд. Возможно перезагрузкой ты не дал ему закончится
|
Kitsune
Дать полезную ссылку, не зная точной модели RAID-контроллера, увы, проблематично. :rolleyes: "Продвинутые" модели контроллеров помимо драйверов, имеют софт для мониторинга массива и управления им. Кроме того, этот софт ведет логи состояния массива. Логи могут быть либо "своими", т.е. читаться с помощью упомянутого софта, либо эти события могут заноситься в системный лог. Так что ищи у себя на компе софт, а заодно почитай системные логи (полезное занятие даже из общих соображений). З.Ы. Простое переключение дисков из состояния "Offline" в состояние "Online" без проведения соответствующих подготовительных процедур (опять же СИЛЬНО зависит от конкретного контроллера) -- деяние отнюдь не безобидное и вполне могущее привести к потере данных. В общем, читай доки по СВОЕМУ контроллеру. |
У меня Intel® RAID Controller SRCS16. К сожалению ничего ценного на диске к райду не нашёл ((
Буду очень признателен за любую инфу начиная с азов пользования RAID заканчивая возможными проблемами и путями решения. Спасибо! |
Kitsune
Я для интереса спросил у Яндекса одно-единственное слово: "SRCS16". В первом же результате -- http://developer.intel.ru/design/servers/RAID/srcs16/ инфы навалом. И RAID-калькулятор, и рекомендуемые конфигурвции, и софт, и чего только нету... :mad: |
Цитата:
Цитата:
|
dimonk
Тут ключевое слово "приличные". А писалось это до того, как автор сообщил модель контроллера. А я знаю случай, когда на каком-то то ли текраме то ли силиконе приятель у меня включил диск в он-лайн, и тю-тю инфа. А потом в мануале прочитал, что при добавлении/замене диска надо сначала кильнуть заменяемый диск, потом заменить, сделать ручной ребилд и только потом он сам в он-лайн включится... |
Цитата:
|
Наши клиенты вообще отказались от использования IDE-RAID контроллеров именно по этой причине - если к диску долго (пару часов) не обращаться - он засыпает. А просыпается с проблемами. Именно в режиме RAID5. Теперь используем лишние в зеркальном режиме в критических местах (контроллеры Escada 3ware).
|
На сервере реализован RAID 5-ого уровня, Intel SRCU42L, интересна сама реализация массива -> три скази и два из них зеркало, и один винт упал /контроллер пыщыыт/ ну я отлючил динамик с помощью StorCon'а, а дальше что? с пятеркой не имел вообще дело, кто нить может помочь разобраться с ним? как определить какой вылетел и вылетел ли, или может это просто программный сбой?
|
Mikitka
Если Цитата:
|
SinClaus
Ну, не знаю, с PCI контроллерами давно дела не имел, но с внешними контроллерами (IFT, SATA-to-SCSI) никаких проблем нет. Ничего не засыпает, все прекрасно рулится. Другое дело что SATA-to-SCSI дает на порядок менее стабильные потоки в видеоприложениях по сравнению с SCSI-to-SCSI. Цитата:
"сидят семь человек: три бабы и два мужика" (Зощенко) Так зеркало или RAID5? Ничего не разберу |
не правильно выразился, уж извиняйте
вообщем, контроллер Intel SRCU42L с поддержкой RAID5, но работает в режиме RAID1,/а может и нет, чертова утилита режимы не показывает/ большего не знаю. сервер не перезагружал, и тд, утилитой StorCon никогда не пользовался, седня только что смог сделать енто перекатал всю жизненно важную инфу, завтра буду ёкспёрёмёнтировать StorCon показывает статус смарт - гут, притом на всех трех хардах самое интересное енто то, что доков на сервак ну и на сам контроллер нет, скачал вот что-то сижу читаю, просвещаюся, если у кого есть, особенно на русском киньте ссылку :молись: |
Цитата:
меняешь винт, запускаешь ребилд и радуешься. в принципе, можно использовать ребилд в фоновом режиме, но сервер очень уж сильно тупить будет... |
Была такая проблема с массивом именно 5 уровня (т.е. винт показывал ошибку и уходил в offline). Проблема оказалась не в RADE (все тесты контроллера прошли нормально, да и винтами все проверки прошли успешно) а в системе, не разобрался конкретно в чем (время поджимало) а тупо восстановил систему из образа. И больше проблем с массивом не было.
|
Chifa
Скорее всего массив был на IDE дисках. И сам массив из недорогих. Такая фигня часто бывала, например, на MEDEA. Диск немного задерживался с откликом, и контроллер думал, что оно в офлайне. Достаточно было сделать ребил на тот же диск - и все работало. Но поскольку это все стемно, от такиз массивов мы отказались еще в 2001 году (эфир все-таки!) |
Именно MEDEA, IDE винты, постоянно проблемы. Поэтому перешли на SCSI.
|
vovik, диск пытается прочесть сбойный сектор, не отвечает Х времени. Рейдконтроллер переводит его в оффлайн. Начинает ребилд на hotspair. При большой нагрузке ещё 1 диск может не ответить вовремя. Вобщем принцип домино. WD сделал SATA диск RaidEdition.
Понятно, что SCSI лишены такой проблемы. |
Цитата:
просто hot plug и всё? а можно старый диск попробовать перестроить? и последовательность действий какая? |
Цитата:
И диск, как я говорил, может быть заново включен в RAID без переназначения секторов - ребилд проходит абсолютно нормально, и массив может после этого работать многие месяцы. Что касается самого ребилда, то у Медеи он идет в режиме "офлайн" - массив полностью недоступен. Возможно сейчас уже что-то изменилось, но было - полное г... |
vovik, я говорил вобщем. Причём тут "медленные" сектора? Диск может споткнуться на битом секторе. Скази его сочтёт мёртвым и заремапит, а саташный встанет на нём намертво. То, что диски переводятся в онлайн и работают, я знаю, но в третий раз, когда я так сделал, рейд сказал, что он умер. Пришлось переразбивать и делать рейд заново.
|
Цитата:
или можно в биосе контроллера подключить диск, но тогда сервер будет в дауне все время ребилда. |
все перестроил
Primary Defects - 600 на других за 1200, енто страшно или нет? |
Цитата:
Кстати, ни в одном их предыдущих постов не указан размер и модель диска. Поэтому не могу сказать, 1200 -- это мало или много. Думаю, что в самый раз ;) |
диски у меня MAXTOR ATLAS10K5_73SCA
Growing Defects - 1 :( но пока все работает, вообще, мне интрересно, с какой периодичностью стоит их менять и по каким показателям? зы спасибо всем, кто помогал :) |
Mikitka
на мой взгляд, данные в массиве достаточно надежно защищены (плюс не забываем про регулярное резервное копирование важных данных) и менять диски только в целях профилактики как-то не очень имеет смысл... |
здрасти еще раз,
у меня все-таки рухнул и новый винт /даже не распознаёться/ через два дня вылетел еще один.../Growing Defects 24/ вообщем системе пришел каюк :( у меня вопрос: в чем может быть проблема? в контроллере? в БП? в винтах? за полторамесяца три винта енто уже много... сейчас поставил зеркалом (Raid1) ибо в наличии только два винта /один новый и старый/ зы контроллер Intel SRCU42L диски MAXTOR ATLAS10K5_73SCA мать Intel SE7520BD2 два проца ХЕОN 2,8 3,5 гег оперативки |
К смерти винтов часто приводят:
скачки напряжения перегрев завышенное (достаточно пары десятых вольта) напряжение питания с БП и опять же перегрев, вызванный им проблемы при транспортировке низкое качество самих дисков и т.п. В общем сочуствую и рекомендую заняться проверкой. Кстати, что контроллер пишет про температуру? |
Цитата:
холодный можно сказать |
Mikitka, была проблема с корзиной, которая убивала диски, хотя Growing Defects - это дефекты, появившиеся в процессе эксплуатации. Говорят, что их по гарантии должны менять, даже если их 1 штука.
Смотрели их количество на оставшихся дисках? |
Growing Defects - 0 и смарт статус в порядке
то что меняют по гарантии без проблем, енто точно.. заменили.. а толку? он вылетел напрочь через полтора месяца |
Mikitka, действительно странно. Возможно брак. Если диски из одной партии.
В одном случае была глючная корзина для дисков. Поэтому диски приходилось довольно часто менять. Ежедневно проверяйте диски, если на них тоже начнут появляться дефекты, то надо смотреть дальше. Возможно всё же брак в партии дисков. |
хотелось бы думать, что енто брак...
|
Часовой пояс GMT +4, время: 13:46. |
Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.