
Экстренные ситуации в майнинге: от перегрева до хакерских атак

Введение
Майнинг — бизнес с низкой маржой и высоким операционным риском. В отличие от стандартного IT-бизнеса, тут: высокая плотность тепла, мощные электропроводки, контакт с энергосистемой и физические объекты (фермы, склады). Любой сбой — это не только просто «потерянные часы», но иногда и пожар, травма или уголовный риск.
Этот гайд рассчитан на владельцев ферм, операторов колокаций, техников и менеджеров. Он даёт практические шаги — от «почему печалится нагрев» до «как оформлять страховой кейс» и «что делать, если в серверную залез вирус-майнер». В конце — шаблоны и чек-листы, которые можно распечатать и повесить у входа.
1. Перегрев оборудования: диагностика, немедленные шаги, долгосрочная профилактика
Почему перегрев опасен
— снижение хэшрейта и сбои в работе; — ускоренный износ вентиляторов, плат и конденсаторов; — риск возгорания; — потеря гарантии (отсутствие условий эксплуатации у производителя).
Признаки перегрева
— рост температуры в логах (GPU/ASIC temp > рекомендованного); — частые рестарты, ошибки hash-board; — шумные и постоянно работающие вентиляторы; — запах гари или дым; — снижение хэша при тех же настройках.
Немедленные шаги при подозрении на перегрев (аварийный протокол)
- Не паникуйте. Первое правило — дыхание.
- Отключите проблемное оборудование от питания (по цепи), если есть риск возгорания. Лучше выключить отдельный ряд или отдельный релейный контур, не рубить всего центра сразу (иначе потеряете контроль и логирование).
- Переведите нагрузку на резервные площадки или снизьте частоты/напряжение (undervolt). Быстрое снижение TDP снижает тепло.
- Включите аварийную вентиляцию (если есть). Если есть дизельные или батарейные вентиляторы аварийного питания — включите.
- Осмотр на предмет запаха/дыма. Если видите дым — эвакуация и звонок 01/112 + пожарной охране. Не пытайтесь гасить электротехнический пожар водой. Если есть CO₂/газовое/пенное пожаротушение с локальным отключением питания — используйте.
- Документируйте. Фото/видео, отметки времени, логи температур. Это важно для последующего анализа и для страховой.
Что делать после стабилизации (чек-лист на 24–72 часа)
— Пройтись по всем машинам: проверить артефакты, логи, SMART-данные дисков.
— Провести стресс-тест на одной машине в контролируемых условиях (нагрузка + мониторинг температуры).
— Проанализировать airflow: где застой, где теплые завихрения?
— Проверить систему электропитания: перегрузки, контакты, автоматические выключатели.
— Сопоставить пиковые нагрузки с тарифами и расписанием — может случился «тарифный сюр».
— Внедрить временные ограничения: снизить PWR_LIMIT, понизить частоту, включить экономичный режим.
Долгосрочная профилактика (лучшие практики)
— Профессиональный проект охлаждения: расчёт CFM, направление потоков (cold aisle / hot aisle), кондиционирование и ресайклинг воздуха.
— Разделение ферм по зонам с разной плотностью мощности.
— Термальный аудит и тепловизионные съёмки раз в год.
— Резервирование: N+1 в электропитании и системе охлаждения.
— Мониторинг и алерты: пороговые значения + SMS/telegram уведомления.
— План обслуживания вентиляторов и БП: замена подшипников, чистка радиаторов, замена термопасты.
— Использование энергосберегающих прошивок и undervolt-профилей для высокой плотности.
2. Вирусы-майнеры и malware: обнаружение, реагирование, восстановление
Что такое вирус-майнер (короче)
Это вредоносный софт, который заражает серверы/воркстейшены/контроллеры и использует их CPU/GPU для майнинга без вашего разрешения. Проблемы: снижение производительности, перегрев, утечка данных, доступ злоумышленника к сети.
Как они попадают
— фишинговые письма;
— забытые RDP/SSH слабыми паролями;
— вредоносные установщики / сомнительный софт;
— эксплойты в веб-интерфейсах оборудования (встроенные веб-серверы контроллеров);
— заражённые USB/накопители.
Признаки заражения
— внезапный рост загрузки CPU/GPU без видимых процессов;
— неизвестные процессы (watchdog, stranger miner) в top/htop;
— неожиданные сетевые соединения на порты майнинга/пулы;
— повышенный расход электричества и рост температуры;
— изменённые crontab или стартовые скрипты.
Немедленные шаги при обнаружении
- Изолируйте заражённую машину. Отключите её от сети (полная физическая изоляция — Ethernet pull). Не пытайтесь перезагрузить повторно без подготовки — иногда перезапуск уничтожает volatile артефакты, но может привести к «флешу» вредоносной активности.
- Снимите снимки памяти и логи. Если вы умеете — сделайте dump памяти (memory dump), снимите логи системные (/var/log), tick-так логи майнер-клиентов. Это нужно для форензики.
- Запишите список запущенных процессов, сетевых подключений и открытых портов. (ps aux; netstat -tulpn; ss -tunap).
- Очистите машину: предпочтительнее reinstall OS + restore из проверенной резервной копии. Не доверяйте «антивирусу» в продовой среде как окончательному решению.
- Смените пароли, проверьте ключи SSH и revoke compromised keys.
- Проведите аудит соседних машин. Часто заражение идёт латерально (по SMB/SSH).
Как восстановиться корректно
— Восстановление из чистой, проверенной резервной копии;
— Обновление всех пакетов OS до последних патчей;
— Пересмотр и усиление политики доступа (MFA, ключи без пароля, jumpbox);
— Запуск IDS/IPS (например, Wazuh, Suricata) и мониторинга процессов;
— Настройка ограничений: cgroups для Docker, user limits, мониторинг GPU процессов;
— Документирование инцидента, уведомление регуляторов/пользователей если требуется (по регуляторным требованиям).
Профилактика и управление уязвимостями
— Регулярные патчи и сегментация сети: management-net vs mining-net;
— Только управление через jump-host с MFA и IP-allowlist;
— Отказ от RDP/SSH с открытым доступом — VPN + IP-whitelisting;
— Контроль USB-портов;
— EDR/AV на серверах управления (не на майнерах) + мониторинг целостности файлов (AIDE, Tripwire);
— Политика минимальных привилегий и аудит cron/ansible playbook.
3. Кражи электроэнергии: как распознать, как реагировать, как защититься
Что такое кража электроэнергии в контексте майнинга
— незаконное подключение к сети (шунтирование счётчика),
— подключение через обманчивую «разделительную» систему,
— манипуляция с тарифами (подмена клиента),
— неофициальный подключ через трансформатор/распределительные щиты.
Как распознать кражу электроэнергии
— внезапно увеличенные потребления без соответствующего роста хешрейта;
— необычные потоки нагрузки в электрологах;
— перепады напряжения/качество сети ухудшилось;
— визуальные повреждения/следы вмешательства в счётчики;
— жалобы соседей на нестабильность напряжения и частые отключения.
Немедленные действия при подозрении
- Не трогайте фактический счётчик. Это вещь, которую не стоит «лечить» самостоятельно — можно получить криминальную ответственность.
- Документируйте: фото, временные метки, записи с логов.
- Свяжитесь с энергетической компанией/диспетчером. Они проводят поверку, измерения и могут приостановить подачу или провести выезд бригады.
- Вызовите электрика с лицензией. Он проверит щиты, схемы, кабеля, соединения.
- Если есть криминальные признаки (вмешательство, следы вскрытия) — звоните в полицию. Ничего не убирайте с места — это место преступления.
Как избежать краж
— официальные контракты с энергоснабжающей компанией;
— учёт всех подключений и их документирование;
— установка трансформаторов и счётчиков в секурных боксах с опломбированием;
— CCTV в электрощитовой, контроль доступа;
— регулярные сверки фактической мощности и billed kWh;
— использование AMR/AMI (smart metering) с удалённой телеметрией;
— обязательная запись тендеров и участников монтажа.
Юридические аспекты
— кража электроэнергии — уголовное/административное преступление во многих юрисдикциях;
— коммуникация с регуляторами должна быть документированной;
— страховка может не покрывать убытки, если подключение неофициальное;
— при массовой кражe подсчитайте репутационные риски.
4. Общий инцидент-реSPONSE: план на 0–72 часа, 72–168 часов
Немедленные 0–2 часа
— Обезопасить людей: травма/угроза жизни — эвакуировать.
— Отключить источник: электропитание/сеть/подключение.
— Документировать (фото/видео/логи).
— Вызвать службу спасения: служба 112/пожарная/охрана.
— Уведомить менеджмент и владельцев (через pre-approved contact list).
2–24 часа
— Зафиксировать события в incident log;
— Оценить масштаб поражения: сколько машин/кабельных линий пострадали;
— Снять логи, сделать образ диска/памяти для форензики;
— Обеспечить первичную коммуникацию с клиентами/партнёрами (стандартное сообщение);
— Начать координацию с энергетиками и страховой.
24–72 часа
— Принять решение: repair on-site vs restore from backup;
— Привлечь экспертов: forensic, электрик, пожарные инженеры;
— Анализ уязвимостей и root cause analysis (RCA);
— Коммуникация с регуляторами/полиции (если требуется).
72–168 часов
— Восстановление оборудования / заказ нового;
— Переключение на резервные площадки;
— Аудит политики безопасности;
— Определение мер компенсации/взаимодействия с клиентами;
— Обновление процедур и тренингов персонала.
Долгосрочные меры
— Переосмысление архитектуры электропитания и охлаждения;
— Разработка SLA/Insurance & Business Continuity Plan;
— Регулярные учения (DR drills);
— Инвестиции в мониторинг и автоматизированные ответные механизмы;
— Пересмотр контрактов с поставщиками услуг.
5. Готовые инструкции и шаблоны — распечатайте и повесьте
(Ниже — короткие, готовые к использованию виджеты. Скопируйте в локальные файлы, распечатайте, повесьте у щита.)
A. Быстрая инструкция: пожар/дым в серверной (1 лист)
- Оповестить всех в помещении: громкий звуковой сигнал.
- Отключить питание зонтика (если безопасно).
- Вызвать пожарную службу (112/101).
- Эвакуировать людей, закрыть двери, отключить вентиляцию.
- Фото/видео. Никому не входить до прибытия пожарных.
- Уведомить руководство и страховщика.
- Начать инцидент-лог.
B. Быстрая инструкция: найден неизвестный процесс / подозрение на майнер (1 лист)
- Немедленно отключить поражённую машину от сети.
- Зафиксировать процесс (ps aux), сетевые подключения (ss/netstat).
- Сделать снимки (screenshots) и фото консоли.
- Перевести нагрузку на резерв.
- Не перезагружать (для forensic).
- Сообщить in-house security / SOC.
- Приготовиться к восстановлению из чистой копии.
C. Быстрая инструкция: подозрение на кражу электроэнергии (1 лист)
- Сделать фото счётчиков и щитов; отметить время и показания.
- Ограничить доступ в щитовую — закрыть на замок.
- Вызвать авторизованного электрика; известить энергоснабжение.
- Сообщить внутреннему юристу; не перемещать следы.
- При наличии — CCTV footage review.
- Уведомить страховую и полицию при признаках взлома.
D. Шаблон уведомления инвесторам/клиентам
Уважаемые партнёры, Сегодня в [время] случился инцидент на площадке [name]. В данный момент ситуация находится под контролем — оборудование стабилизировано/пожар потушен/пострадавшие эвакуированы. Мы работаем с экстренными службами и даём приоритет сохранности людей и данных. Подробный отчёт ожидается в течение 48 часов. Спасибо за понимание. С уважением, [имя, должность, контакты]
6. Страхование, юридическая подготовка и отчётность
— Пересмотрите полисы страхования: что покрывается (пожар, кража, остановка бизнеса), какие исключения (умышленные действия, самовольные подключения).
— Заводите журнал проверок и maintenance log — это аргумент при страховом урегулировании.
— Держите контакт-лист: полиция, пожарная, энергетики, юрист, страховая, запасные поставщики.
— Внедрите процедуру уведомления клиентов и регуляторов (SLA по времени и содержанию).
7. Технические инструменты для мониторинга и алертинга
— Prometheus + Grafana для сбора метрик хэша/температуры;
— Telegraf/InfluxDB для агрегации энергопотребления;
— Zabbix/Nagios для алертов по потокам и состояниям;
— Wazuh/OSSEC для хост-IDS;
— SIEM для корреляции событий и уведомлений;
— CCTV + интеграция с access control в щитовой.
8. Культура и обучение персонала — самый недооценённый инструмент
— Регулярные тренинги по ТБ и пожарной безопасности;
— Учения реагирования (tabletop exercises и live drills);
— Прописанные регламенты на бумаге и в цифровом виде;
— Ротация операторов и аудиты для предотвращения инсайдерского риска.
9. Быстрый суммарный чек-лист
— Есть ли у вас аварийный контакт-лист?
— Повешены ли инструкции у электрических щитов?
— Настроены ли алерты по температуре и потреблению?
— Выполняется ли термовизионный аудит раз в 6–12 мес?
— Есть ли резервная площадка и схема переключения?
— Привит ли персонал базовый план эвакуации?
— Выполнены ли регулярные обновления и сегментация сети?
— Имеется ли insurance cover на пожар/простой/кражу?
Если хотя бы на один пункт ответ «нет» — пора действовать.
Заключение
Экстренные ситуации в майнинге — это не «если», а «когда». Кто-то думает «это со мной не случится», и потом печально удивляется. Лучшее, что вы можете сделать прямо сейчас — это простые вещи: поставить алерты, повесить инструкции у щита, протестировать эвакуацию, документировать все процессы и иметь резервный план. И — наверное, самое важное — не экономить на безопасности. Самая дешевая экономия часто превращается в самый дорогой ремонт.