Образование и гайды 24.11.2025 17:03

Гайд: Мониторинг и алерты: как настроить HiveOS/AwesomeMiner

Этот гайд — не академический трактат, а практическая инструкция «под ключ», чтобы мониторинг вашей фермы работал как будильник, а не как тревожный колокол. Здесь — набор метрик, разумные пороги, примеры правил для HiveOS/AwesomeMiner, интеграция с Prometheus и Telegram, и чёткие сценарии реагирования — от «проверить через 5 минут» до «выключить стойку немедленно».

Гайд

masslowdesign

Немного контекста. Мониторинг — это не только цифры. Это процесс: измерять, фильтровать шум, давать сигналы людям, которые реально что-то сделают. Если вы оператор — вам нужен не миллион графиков, а несколько разумных правил и план действий. Дальше — по шагам.

1. Базовые принципы мониторинга фермы

Сначала — здоровье машины. Потом — доход. Сначала — температура, питание, вентиляторы, сеть, затем хешрейт и пул.
Срабатывание алерта = действие. Каждый алерт должен иметь владельца и сценарий, что сделать дальше.
Меньше ложных срабатываний. Стоп-лоссы и «хистори» — используйте задержки и подтверждение (например, 3 срабатывания за 2 минуты → алерт).
Уровни критичности: INFO → WARNING → CRITICAL. Не все WARNING нужно разбудить в 3 утра.

2. Список критичных метрик (must-have)

Разделим на операционные и бизнес-метрики.

Операционные (жизненно важные)

Температура GPU (°C) — per-GPU и per-rig.
Частота вентиляторов (%) и RPM.
Потребление энергии (W) — per-rig и per-PDU.
Аптайм/статус хоста (online/offline).
Ошибки хешера (HW errors, rejected shares).
Температура в комнате/в шкафу (ambient).
Ошибки питания (undervoltage/overcurrent), события PS_ON.
Сеть: packet loss > X%, ping до пула > Y ms.
Температура блока питания (если есть датчик).

Бизнес-метрики (для операторов и владельцев)

Хешрейт (GH/s или MH/s) — per-rig и aggregated.
Доходность $/day (по пулу) — усреднённая и моментная.
% rejected shares — показатель «здоровья» майнера.
PUE (если доступно) — важный KPI для хостов.

3. Рекомендуемые пороги и логика алертов

Ниже — практичные пороги, которые спасут вам много нервов. Подстройте под свой климат, модели GPU и энергетику.

Температура GPU:

WARNING: > 70°C (устойчиво 3 минуты).
CRITICAL: > 85°C (1 минута) → немедленное снижение частоты/уменьшение вентиляторов или shutdown.

Вентиляторы:

WARNING: RPM ниже 60% от номинала или скорость постоянно растёт > 90% (возьмите в совокупности с temp).
CRITICAL: вентилятор перестал отвечать / RPM=0 → срочная проверка.

Потребление:

WARNING: рост потребления >20% от среднего за 15 мин (возможно короткое замыкание).
CRITICAL: пиковые скачки >40% или сработала защита PDU/Щита.

Сеть:

WARNING: потеря пакетов 5–10% за 5 минут.
CRITICAL: packet loss > 30% или ping к пулу > 200 ms → переключение пула/смена провайдера.

Хешрейт и rejected-shares:

WARNING: падение хешрейта > 10% от baseline за 10 минут.
CRITICAL: падение > 30% за 5 минут или rejected-shares > 5% за 10 минут.

Аптайм/статус:

CRITICAL: хост offline (без ответа) — начать скрипты перезапуска и оповещение теха.

4. Настройка в HiveOS — чек-лист

HiveOS даёт много готовых алертов; главная задача — настроить пороги и механизмы доставки.

Агент на каждом риге: установите последнюю версию.
Custom scripts: подготовьте скрипты для автоперезапуска майнера, изменения частоты вентиляторов и graceful shutdown.
Alerts → Email/Telegram/Webhook: подключите Telegram-бота (см. ниже) и webhook в Prometheus / Grafana.
Group-level templates: сделайте шаблоны алертов для похожих ферм (GPU семейство X = шаблон X).
Health checks: включите мониторинг PDU и SNMP (если есть).
Logging: храните лог минимум 30 дней (для RCA).

Пример: правило на падение хешрейта

условие: hash < baseline*0.85 for 10 min
действие: notify group + run script: restart miner (3 попытки) → если не помогло, escalate to on-call.

5. Настройка в Awesome Miner — чек-лист

Awesome Miner удобен для гибридов Windows/Linux.

Подключите все майнеры через API.
Настройте шаблоны алертов и политики (alert rules).
Используйте Automation Rules: auto-restart, throttle GPU, notify.
Integrations: Telegram, Slack, Prometheus (через exporter) и OpsGenie — всё подключаемо.
Запланируйте Maintenance windows — чтобы обновления не задевали ночные оповещения.

6. Prometheus + Grafana — зачем и как

Prometheus = сбор метрик, Grafana = красивые и полезные дашборды. Роль: централизованный сбор, агрегирование и настойка alertmanager.

Архитектура:

Exporters (node_exporter / custom exporter от HiveOS/AwesomeMiner) → Prometheus → Alertmanager → Telegram/Webhook/Grafana.
Хранение метрик: retention 30–90 дней (в зависимости от объёма).

Что экспортировать:

per-GPU temp, fans, hash, power, uptime, rejected shares.
PDU metrics: voltage, current per outlet.
Ambient temp и влажность. Пример правила Prometheus (alerting rule):

7. Интеграция с Telegram — быстрый старт

Telegram удобен, потому что мессенджер доступен всем.

Создайте бот через @BotFather → получите токен.
Создайте групповой чат / канал для алертов. Добавьте бот и получите chat_id.
В Alertmanager настроить webhook на Telegram API:

4. Формат сообщений: коротко + link to Grafana panel + кнопки (если используете interactive bot). Пример:

Доп: для действий (restart), используйте middleware: Telegram → your service → call HiveOS API to restart miner. Это даёт «кнопку» в чате «Restart».

8. Сценарии реагирования — «playbooks»

Каждый алерт должен иметь runbook. Примеры.

A. GPU temp WARNING (>70°C)

Оповестить on-call (Telegram).
Автоматический action: увеличить вентиляторы на +10% (скрипт).
Если temp не упал в 5 минут — send WARNING to operator.
Если temp >85 → CRITICAL → graceful shutdown rig.

B. Hash drop 15%

Проверить rejected shares. Если >2% — перезапуск майнера.
Если перезапуск не помог — изменить пул на backup (auto switch).
Если после switch hash не восстановился — escalate to engineer.

C. Network packet loss

Проверить local router (ping gateway).
Если локально всё ок — переключить rig на backup pool/мобильный канал (если доступен).
Если исчезло — расследовать isp.

9. Тестирование и отладка алертов

Стабильно тестируйте «firing» алертов в тестовом канале.
Делайте учения «simulated incident» раз в квартал — прогоните playbook с оператором.
Наличие false-positive metrics? Подправьте thresholds или добавьте for: duration.

10. Резервные механизмы и auto-heal

Auto-restart майнера (3 попытки) + send report.
Auto-throttle: при повышенной температуры уменьшение частоты на 5–10%.
Safe-shutdown: если питание пошло в critical state — выключаем риг безопасно.

11. Логирование, RCA и post-mortem

Храните журналы (logs) минимум 30 дней.
После инцидента: RCA документ (root cause, timeline, corrective actions) — 1 страница.
Track KPI: MTTR (mean time to recover), MTTD (mean time to detect), incidents per month.

12. Практические хитрости и «неочевидные» советы

Baseline: первый месяц соберите данные без алертов; потом выставляйте пороги по среднему+sigma.
Считайте «собственный прирост шума»: в ночной период хешрейт может падать, но это норм.
Всегда ставьте mute windows: плановые работы не должны дергать on-call.
Разделяйте алерты по ответственности: ops vs hardware vs network vs billing.

13. Примеры файлов/скриптов (коротко)

Скрипт для HiveOS: restart miner via CLI (miner stop/start), change fan speed.
Webhook handler: small Node.js/Python service to receive alert and call HiveOS API to restart miner.
Prometheus exporter: lightweight exporter reading HiveOS API and exposing metrics.

14. Внедрение «под ключ» — пошаговый план

Инвентаризация: соберите список ригов, PDU, IP, baseline метрик — 1 день.
Развёртывание Prometheus + Grafana + Alertmanager или настройка встроенных алертов HiveOS — 1–2 дня.
Подключение Telegram bot + тестовый канал — 0.5 дня.
Шаблоны алертов = по умолчанию (темп/фэн/пауэр/hash/net) — 1 день.
Скрипты автотерапии (restart, throttle) — 1–2 дня.
Учение и отладка: симуляция инцидента — 1 день. Итого минимальный MVP: 4–7 рабочих дней.

15. Заключение — что важно помнить

Мониторинг — это не про «поставить графики и забыть». Это цикл: метрика → алерт → действие → ретроспектива. Начните с малого: 6–8 ключевых алертов, проверенные скрипты автотерапии и честные runbooks. Дальше — расширяйте, добавляйте слои (Prometheus, Grafana) и автоматизацию.