Чек-лист системного администратора

Ключевые задачи для поддержания стабильной и безопасной IT-инфраструктуры.

🛡️ Безопасность и Защита (Security & Hardening)

Регулярно пересматривайте правила доступа, чтобы убедиться, что открыты только необходимые порты.

Наличие политики для тестирования и развертывания критических патчей безопасности в установленные сроки.

Убедитесь, что MFA включена для всех административных учетных записей и удаленного доступа (VPN, SSH).

Отключите неиспользуемые учётные записи и убедитесь, что права доступа соответствуют ролям сотрудников.

Убедитесь, что агенты активны, сигнатуры актуальны и нет незакрытых угроз.

⚙️ Инфраструктура и Автоматизация (Infrastructure & Automation)

Используйте инструменты вроде Ansible, Puppet или Chef для автоматического и последовательного конфигурирования серверов.

Пишите скрипты (PowerShell, Bash, Python) для автоматизации повторяющихся задач, таких как создание пользователей или очистка дисков.

Ключевые службы (контроллеры домена, файловые ресурсы) должны быть отказоустойчивыми.

Храните все код и конфиги в системе контроля версий (Git).

💾 Резервное копирование и Аварийное восстановление (Backup & DR)

Три копии данных, на двух разных носителях, одна из которых находится за пределами основной площадки (off-site).

Ежеквартально проводите учения по восстановлению случайного файла, целой ВМ или базы данных.

Регулярно проверяйте, что файлы внутри резервных копий не повреждены.

Обеспечьте изоляцию резервных копий от основной сети и используйте immutable-хранилища.

📊 Мониторинг и Контроль состояния (Monitoring & Health Checks)

Настройте оповещения за 30, 14 и 7 дней до истечения срока действия, чтобы избежать внезапных сбоев.

Анализируйте тренды использования диска, CPU и RAM, чтобы прогнозировать, когда потребуются дополнительные ресурсы.

Настройте сбор и анализ логов с критических систем для оперативного выявления инцидентов.

Мониторинг состояния дисков (SMART), температуры компонентов, состояния ИБП.

📋 Управление инцидентами и изменениями (Incident & Change Management)

Фиксируйте все проводимые работы на инфраструктуре для последующего аудита и анализа.

Определите порядок действий и ответственных при возникновении сбоев.