Перегрев: не легенда, а план действий — пошаговый протокол для ферм

Перегрев — это не «неприятность, которую переживёт железо». Это момент, когда ошибки операторов превращаются в почасовые убытки, а иногда и в пожар. Здесь — именно рабочая инструкция: что сделать сразу, как правильно диагностировать и — главное — какие инженерные решения поставить, чтобы это больше не повторялось.
Перегрев: не легенда, а план действий — пошаговый протокол для ферм

Симптомы перегрева и первичные меры

Первое правило — не паниковать. Второе — думать о безопасности людей прежде всего.

Симптомы, которые должны заставить действовать немедленно:

  • внезапный рост температуры в логах (температура GPU/ASIC выросла на 10–20°C за короткий период);
  • частые перезапуски или падение хэша при тех же настройках;
  • запах гари или дым (даже намёк — повод для эвакуации);
  • резкий рост энергопотребления при падении производительности;
  • срабатывание автоматов или искрение в щите.

Мгновенные шаги (0–10 минут):

  1. Оцените ситуацию визуально и запахом. Если есть дым — эвакуируйте людей и звоните в службу спасения (112/101). Не пытайтесь тушить электрический пожар водой.
  2. Изолируйте проблемную зону. Отключите поражённый ряд от сети через выделенный автомат/контур. Не дергайте общий щит, если это можно сделать локально. Если у вас нет уверенности в действиях — вызовите электрика.
  3. Снизьте нагрузку. Если отключить питание полностью нельзя, уменьшите частоты/потребление (undervolt, снизьте power limit) на оставшемся железе через панель управления. Это быстро снижает тепло.
  4. Заведите инцидент-лог. Время, кто что сделал, показания приборов — всё фиксируйте. Фото и короткие видео пригодятся при анализе и страховке.
  5. Оповестите команду. Сообщите ответственным (оператор, инженер, менеджер площадки). Не молчите — лучше лишний раз.

Не делайте пока: вскрывать блоки питания под напряжением, перетыкать кабели без инструкций, пробовать «лечить» автоматические выключатели без понимания причины.

Диагностика: логи, термовизор, SMART

Когда ситуация стабилизирована, переходим к диагностике. Здесь важна системность — поспешные выводы убивают время.

  1. Соберите логи.
    • системные логи ОС и майнер-клиента;
    • логи BMS/UPS/SCADA (если есть);
    • показания PDU (кВт/фаза) и энергомониторинга;
    • время срабатывания автоматов. Это база RCA — root cause analysis.
  2. Термовизионная съемка. Сделайте снимки термовизором по всем стойкам, щитам и выходам воздуховодов. Точки перегрева видно сразу — горячие пятна на проводке и контактах часто первичны. Термоинспекция — самый быстрый способ понять направление потока тепла и «узкие места» в airflow.
  3. SMART и health-check оборудования. Проверьте SMART-диски, логи контроллеров, деградацию вентиляторов и показания температур датчиков внутри ASIC/GPU. Часто причина — не «один асик», а деградировавший вентилятор или грязный радиатор.
  4. Проверка электроцепей. Измерьте напряжение и баланс по фазам, убедитесь, что нет падений напряжения при пике. Нестабильное напряжение может увеличивать нагрев БП и плат.
  5. Анализ событий в контексте. Сопоставьте: погодные условия (высокая наружная температура), пиковые тарифы/нагрузки в сети, плановые работы кондиционирования. Иногда «перегрев» — просто следствие отключённой вентиляции или срабатывания компрессора.

Восстановление и когда можно включать обратно

Восстановление — не «включил и поехал». Это поэтапная проверка.

Шаги восстановления:

  1. Локальный тест. Включайте устройства по очереди. Первым идёт оборудование, которое не нагревалось или прошло профилактику.
  2. Мониторинг при включении. Наблюдайте температуру и энергопотребление в реальном времени первые 30–60 минут. Если есть аномалии — выключайте и разбираться.
  3. Тестовая нагрузка. Прогоните стресс-тест на одном устройстве, затем на группе. Цель — увидеть стабильность под нагрузкой.
  4. Аудит вентиляции и фильтрации. Очистите фильтры, проверьте направление потоков, скорости вентиляторов.
  5. Документирование RCA и мер. Что было причиной, что сделали, какие запчасти заменены, кто подписал восстановление. Это важно для страховки и улучшения процедур.

Когда можно считать площадку безопасной? Когда на протяжении 24–72 часов нет повторных температурных пиков, нет новых срабатываний защит и логи чистые. Если сомневаетесь — лучше держать часть мощности в резерве и наблюдать.

Инженерные решения: airflow, hot/cold aisles, N+1

Чтобы проблему не решать повторно, нужна инженерия.

  1. Организация потоков воздуха.
    • выстраивайте холодные ряды (cold aisle) и горячие ряды (hot aisle);
    • ставьте заглушки в пустующие слоты в стойках;
    • направляйте фронтальный приток холодного воздуха к лицевой части ригов, вытяжку — в hot aisle;
    • использование containment (ограничители) заметно повышает эффективность охлаждения.
  2. PUE и распределение нагрузки. Отслеживайте PUE, оптимизируйте layout, чтобы минимизировать потери. Простая перестановка стоек иногда даёт выигрыш в несколько процентов в эффективности.
  3. Резервирование N+1. Наличие резервного источника питания (UPS, аварийный дизель), резервных контурах охлаждения и хотя бы одного лишнего блока питания на стойку — стандарт промышленной практики. N+1 минимизирует риск полного простоя при выходе одного компонента.
  4. Мониторинг и алерты. Настройте threshold-алерты с SMS/Telegram уведомлениями — не только на абсолютные температуры, но и на скорость изменения (delta T). Быстрый рост температуры часто предшествует критике.
  5. План профилактики. Термоаудит раз в 3–6 месяцев, чистка фильтров еженедельно/ежемесячно по нагрузке, замена вентиляторов по графику, проверка контактов в щитах.

Чек-лист поддержки

  • Наличие аварийного контакта (электрик, пожарная служба, инженер) — 24/7.
  • Инструменты: термовизор, мультиметр, набор для замены вентиляторов.
  • Инцидент-лог и фотофиксация на месте.
  • Периодические термосъёмки и отчёты.
  • План отключения по секциям и схема щита с маркировкой.
  • N+1 в питании и охлаждении.
  • Регулярный тест UPS и генератора (если есть).
  • Политика уведомления клиентов/партнёров — шаблон письма.
  • Страховой полис и копии для ответственных.

Заключение

Перегрев — это не «кривой день» и не оправдание плохой инженерии. Это индикатор слабого места в системе. Быстрая реакция спасёт деньги и иногда жизни; хорошо продуманная архитектура — сэкономит нервные клетки и бюджеты в будущем. Планируйте, тестируйте и не стесняйтесь звать профессионалов. И ещё: если вы думаете, что «чуть подожду» с чисткой фильтров — поверьте, «чуть» быстро превращается в «надо эвакуировать».

#airflow #ASIC #асики #Безопасность #датацентр #диагностика #Энергетика #ферма #форуммайнеров #gpuмайнинг #инженерия #криптомайнинг #Криптовалюты #Майнинг #охлаждение #перегрев #профилактика #техникабезопасности #техподдержка