Майнинг Проблемы и риски 16.10.2025 15:03

Перегрев: не легенда, а план действий — пошаговый протокол для ферм

Перегрев — это не «неприятность, которую переживёт железо». Это момент, когда ошибки операторов превращаются в почасовые убытки, а иногда и в пожар. Здесь — именно рабочая инструкция: что сделать сразу, как правильно диагностировать и — главное — какие инженерные решения поставить, чтобы это больше не повторялось.

Симптомы перегрева и первичные меры

Первое правило — не паниковать. Второе — думать о безопасности людей прежде всего.

Симптомы, которые должны заставить действовать немедленно:

внезапный рост температуры в логах (температура GPU/ASIC выросла на 10–20°C за короткий период);
частые перезапуски или падение хэша при тех же настройках;
запах гари или дым (даже намёк — повод для эвакуации);
резкий рост энергопотребления при падении производительности;
срабатывание автоматов или искрение в щите.

Мгновенные шаги (0–10 минут):

Оцените ситуацию визуально и запахом. Если есть дым — эвакуируйте людей и звоните в службу спасения (112/101). Не пытайтесь тушить электрический пожар водой.
Изолируйте проблемную зону. Отключите поражённый ряд от сети через выделенный автомат/контур. Не дергайте общий щит, если это можно сделать локально. Если у вас нет уверенности в действиях — вызовите электрика.
Снизьте нагрузку. Если отключить питание полностью нельзя, уменьшите частоты/потребление (undervolt, снизьте power limit) на оставшемся железе через панель управления. Это быстро снижает тепло.
Заведите инцидент-лог. Время, кто что сделал, показания приборов — всё фиксируйте. Фото и короткие видео пригодятся при анализе и страховке.
Оповестите команду. Сообщите ответственным (оператор, инженер, менеджер площадки). Не молчите — лучше лишний раз.

Не делайте пока: вскрывать блоки питания под напряжением, перетыкать кабели без инструкций, пробовать «лечить» автоматические выключатели без понимания причины.

Диагностика: логи, термовизор, SMART

Когда ситуация стабилизирована, переходим к диагностике. Здесь важна системность — поспешные выводы убивают время.

Соберите логи.
- системные логи ОС и майнер-клиента;
- логи BMS/UPS/SCADA (если есть);
- показания PDU (кВт/фаза) и энергомониторинга;
- время срабатывания автоматов. Это база RCA — root cause analysis.
Термовизионная съемка. Сделайте снимки термовизором по всем стойкам, щитам и выходам воздуховодов. Точки перегрева видно сразу — горячие пятна на проводке и контактах часто первичны. Термоинспекция — самый быстрый способ понять направление потока тепла и «узкие места» в airflow.
SMART и health-check оборудования. Проверьте SMART-диски, логи контроллеров, деградацию вентиляторов и показания температур датчиков внутри ASIC/GPU. Часто причина — не «один асик», а деградировавший вентилятор или грязный радиатор.
Проверка электроцепей. Измерьте напряжение и баланс по фазам, убедитесь, что нет падений напряжения при пике. Нестабильное напряжение может увеличивать нагрев БП и плат.
Анализ событий в контексте. Сопоставьте: погодные условия (высокая наружная температура), пиковые тарифы/нагрузки в сети, плановые работы кондиционирования. Иногда «перегрев» — просто следствие отключённой вентиляции или срабатывания компрессора.

Восстановление и когда можно включать обратно

Восстановление — не «включил и поехал». Это поэтапная проверка.

Шаги восстановления:

Локальный тест. Включайте устройства по очереди. Первым идёт оборудование, которое не нагревалось или прошло профилактику.
Мониторинг при включении. Наблюдайте температуру и энергопотребление в реальном времени первые 30–60 минут. Если есть аномалии — выключайте и разбираться.
Тестовая нагрузка. Прогоните стресс-тест на одном устройстве, затем на группе. Цель — увидеть стабильность под нагрузкой.
Аудит вентиляции и фильтрации. Очистите фильтры, проверьте направление потоков, скорости вентиляторов.
Документирование RCA и мер. Что было причиной, что сделали, какие запчасти заменены, кто подписал восстановление. Это важно для страховки и улучшения процедур.

Когда можно считать площадку безопасной? Когда на протяжении 24–72 часов нет повторных температурных пиков, нет новых срабатываний защит и логи чистые. Если сомневаетесь — лучше держать часть мощности в резерве и наблюдать.

Инженерные решения: airflow, hot/cold aisles, N+1

Чтобы проблему не решать повторно, нужна инженерия.

Организация потоков воздуха.
- выстраивайте холодные ряды (cold aisle) и горячие ряды (hot aisle);
- ставьте заглушки в пустующие слоты в стойках;
- направляйте фронтальный приток холодного воздуха к лицевой части ригов, вытяжку — в hot aisle;
- использование containment (ограничители) заметно повышает эффективность охлаждения.
PUE и распределение нагрузки. Отслеживайте PUE, оптимизируйте layout, чтобы минимизировать потери. Простая перестановка стоек иногда даёт выигрыш в несколько процентов в эффективности.
Резервирование N+1. Наличие резервного источника питания (UPS, аварийный дизель), резервных контурах охлаждения и хотя бы одного лишнего блока питания на стойку — стандарт промышленной практики. N+1 минимизирует риск полного простоя при выходе одного компонента.
Мониторинг и алерты. Настройте threshold-алерты с SMS/Telegram уведомлениями — не только на абсолютные температуры, но и на скорость изменения (delta T). Быстрый рост температуры часто предшествует критике.
План профилактики. Термоаудит раз в 3–6 месяцев, чистка фильтров еженедельно/ежемесячно по нагрузке, замена вентиляторов по графику, проверка контактов в щитах.

Чек-лист поддержки

Наличие аварийного контакта (электрик, пожарная служба, инженер) — 24/7.
Инструменты: термовизор, мультиметр, набор для замены вентиляторов.
Инцидент-лог и фотофиксация на месте.
Периодические термосъёмки и отчёты.
План отключения по секциям и схема щита с маркировкой.
N+1 в питании и охлаждении.
Регулярный тест UPS и генератора (если есть).
Политика уведомления клиентов/партнёров — шаблон письма.
Страховой полис и копии для ответственных.

Заключение

Перегрев — это не «кривой день» и не оправдание плохой инженерии. Это индикатор слабого места в системе. Быстрая реакция спасёт деньги и иногда жизни; хорошо продуманная архитектура — сэкономит нервные клетки и бюджеты в будущем. Планируйте, тестируйте и не стесняйтесь звать профессионалов. И ещё: если вы думаете, что «чуть подожду» с чисткой фильтров — поверьте, «чуть» быстро превращается в «надо эвакуировать».