Чек-лист системного администратора на Bulma CSS

🛡️ Безопасность и Защита (Security & Hardening)

Аудит правил файрвола.

Регулярно пересматривайте правила доступа, чтобы убедиться, что открыты только необходимые порты.

Управление патчами и обновлениями (Patch Management).

Наличие политики для тестирования и развертывания критических патчей безопасности в установленные сроки.

Принудительное использование MFA.

Убедитесь, что MFA включена для всех административных учетных записей и удаленного доступа (VPN, SSH).

Аудит учетных записей и привилегий.

Отключите неиспользуемые учётные записи и убедитесь, что права доступа соответствуют ролям сотрудников.

Проверка антивирусной защиты / EDR.

Убедитесь, что агенты активны, сигнатуры актуальны и нет незакрытых угроз.

⚙️ Инфраструктура и Автоматизация (Infrastructure & Automation)

Управление конфигурациями (Configuration Management).

Используйте инструменты вроде Ansible, Puppet или Chef для автоматического и последовательного конфигурирования серверов.

Автоматизация рутинных задач.

Пишите скрипты (PowerShell, Bash, Python) для автоматизации повторяющихся задач, таких как создание пользователей или очистка дисков.

Резервирование критичных сервисов.

Ключевые службы (контроллеры домена, файловые ресурсы) должны быть отказоустойчивыми.

Версионирование конфигураций и скриптов.

Храните все код и конфиги в системе контроля версий (Git).

💾 Резервное копирование и Аварийное восстановление (Backup & DR)

Следование правилу "3-2-1" для бэкапов.

Три копии данных, на двух разных носителях, одна из которых находится за пределами основной площадки (off-site).

Тестирование процедур восстановления по расписанию.

Ежеквартально проводите учения по восстановлению случайного файла, целой ВМ или базы данных.

Проверка целостности бэкапов.

Регулярно проверяйте, что файлы внутри резервных копий не повреждены.

Защита бэкапов от ransomware.

Обеспечьте изоляцию резервных копий от основной сети и используйте immutable-хранилища.

📊 Мониторинг и Контроль состояния (Monitoring & Health Checks)

Мониторинг срока действия SSL/TLS сертификатов.

Настройте оповещения за 30, 14 и 7 дней до истечения срока действия, чтобы избежать внезапных сбоев.

Планирование емкости (Capacity Planning).

Анализируйте тренды использования диска, CPU и RAM, чтобы прогнозировать, когда потребуются дополнительные ресурсы.

Централизованный сбор логов (SIEM).

Настройте сбор и анализ логов с критических систем для оперативного выявления инцидентов.

Проверка физического здоровья систем.

Мониторинг состояния дисков (SMART), температуры компонентов, состояния ИБП.

📋 Управление инцидентами и изменениями (Incident & Change Management)

Ведение журнала изменений.

Фиксируйте все проводимые работы на инфраструктуре для последующего аудита и анализа.

Наличие регламента реагирования на инциденты.

Определите порядок действий и ответственных при возникновении сбоев.