
Перегрев: не легенда, а план действий — пошаговый протокол для ферм

Симптомы перегрева и первичные меры
Первое правило — не паниковать. Второе — думать о безопасности людей прежде всего.
Симптомы, которые должны заставить действовать немедленно:
- внезапный рост температуры в логах (температура GPU/ASIC выросла на 10–20°C за короткий период);
- частые перезапуски или падение хэша при тех же настройках;
- запах гари или дым (даже намёк — повод для эвакуации);
- резкий рост энергопотребления при падении производительности;
- срабатывание автоматов или искрение в щите.
Мгновенные шаги (0–10 минут):
- Оцените ситуацию визуально и запахом. Если есть дым — эвакуируйте людей и звоните в службу спасения (112/101). Не пытайтесь тушить электрический пожар водой.
- Изолируйте проблемную зону. Отключите поражённый ряд от сети через выделенный автомат/контур. Не дергайте общий щит, если это можно сделать локально. Если у вас нет уверенности в действиях — вызовите электрика.
- Снизьте нагрузку. Если отключить питание полностью нельзя, уменьшите частоты/потребление (undervolt, снизьте power limit) на оставшемся железе через панель управления. Это быстро снижает тепло.
- Заведите инцидент-лог. Время, кто что сделал, показания приборов — всё фиксируйте. Фото и короткие видео пригодятся при анализе и страховке.
- Оповестите команду. Сообщите ответственным (оператор, инженер, менеджер площадки). Не молчите — лучше лишний раз.
Не делайте пока: вскрывать блоки питания под напряжением, перетыкать кабели без инструкций, пробовать «лечить» автоматические выключатели без понимания причины.
Диагностика: логи, термовизор, SMART
Когда ситуация стабилизирована, переходим к диагностике. Здесь важна системность — поспешные выводы убивают время.
- Соберите логи.
- системные логи ОС и майнер-клиента;
- логи BMS/UPS/SCADA (если есть);
- показания PDU (кВт/фаза) и энергомониторинга;
- время срабатывания автоматов. Это база RCA — root cause analysis.
- Термовизионная съемка. Сделайте снимки термовизором по всем стойкам, щитам и выходам воздуховодов. Точки перегрева видно сразу — горячие пятна на проводке и контактах часто первичны. Термоинспекция — самый быстрый способ понять направление потока тепла и «узкие места» в airflow.
- SMART и health-check оборудования. Проверьте SMART-диски, логи контроллеров, деградацию вентиляторов и показания температур датчиков внутри ASIC/GPU. Часто причина — не «один асик», а деградировавший вентилятор или грязный радиатор.
- Проверка электроцепей. Измерьте напряжение и баланс по фазам, убедитесь, что нет падений напряжения при пике. Нестабильное напряжение может увеличивать нагрев БП и плат.
- Анализ событий в контексте. Сопоставьте: погодные условия (высокая наружная температура), пиковые тарифы/нагрузки в сети, плановые работы кондиционирования. Иногда «перегрев» — просто следствие отключённой вентиляции или срабатывания компрессора.
Восстановление и когда можно включать обратно
Восстановление — не «включил и поехал». Это поэтапная проверка.
Шаги восстановления:
- Локальный тест. Включайте устройства по очереди. Первым идёт оборудование, которое не нагревалось или прошло профилактику.
- Мониторинг при включении. Наблюдайте температуру и энергопотребление в реальном времени первые 30–60 минут. Если есть аномалии — выключайте и разбираться.
- Тестовая нагрузка. Прогоните стресс-тест на одном устройстве, затем на группе. Цель — увидеть стабильность под нагрузкой.
- Аудит вентиляции и фильтрации. Очистите фильтры, проверьте направление потоков, скорости вентиляторов.
- Документирование RCA и мер. Что было причиной, что сделали, какие запчасти заменены, кто подписал восстановление. Это важно для страховки и улучшения процедур.
Когда можно считать площадку безопасной? Когда на протяжении 24–72 часов нет повторных температурных пиков, нет новых срабатываний защит и логи чистые. Если сомневаетесь — лучше держать часть мощности в резерве и наблюдать.
Инженерные решения: airflow, hot/cold aisles, N+1
Чтобы проблему не решать повторно, нужна инженерия.
- Организация потоков воздуха.
- выстраивайте холодные ряды (cold aisle) и горячие ряды (hot aisle);
- ставьте заглушки в пустующие слоты в стойках;
- направляйте фронтальный приток холодного воздуха к лицевой части ригов, вытяжку — в hot aisle;
- использование containment (ограничители) заметно повышает эффективность охлаждения.
- PUE и распределение нагрузки. Отслеживайте PUE, оптимизируйте layout, чтобы минимизировать потери. Простая перестановка стоек иногда даёт выигрыш в несколько процентов в эффективности.
- Резервирование N+1. Наличие резервного источника питания (UPS, аварийный дизель), резервных контурах охлаждения и хотя бы одного лишнего блока питания на стойку — стандарт промышленной практики. N+1 минимизирует риск полного простоя при выходе одного компонента.
- Мониторинг и алерты. Настройте threshold-алерты с SMS/Telegram уведомлениями — не только на абсолютные температуры, но и на скорость изменения (delta T). Быстрый рост температуры часто предшествует критике.
- План профилактики. Термоаудит раз в 3–6 месяцев, чистка фильтров еженедельно/ежемесячно по нагрузке, замена вентиляторов по графику, проверка контактов в щитах.
Чек-лист поддержки
- Наличие аварийного контакта (электрик, пожарная служба, инженер) — 24/7.
- Инструменты: термовизор, мультиметр, набор для замены вентиляторов.
- Инцидент-лог и фотофиксация на месте.
- Периодические термосъёмки и отчёты.
- План отключения по секциям и схема щита с маркировкой.
- N+1 в питании и охлаждении.
- Регулярный тест UPS и генератора (если есть).
- Политика уведомления клиентов/партнёров — шаблон письма.
- Страховой полис и копии для ответственных.
Заключение
Перегрев — это не «кривой день» и не оправдание плохой инженерии. Это индикатор слабого места в системе. Быстрая реакция спасёт деньги и иногда жизни; хорошо продуманная архитектура — сэкономит нервные клетки и бюджеты в будущем. Планируйте, тестируйте и не стесняйтесь звать профессионалов. И ещё: если вы думаете, что «чуть подожду» с чисткой фильтров — поверьте, «чуть» быстро превращается в «надо эвакуировать».