Серверы и виртуальные машины

Планировщик ввода-вывода Linux: Noop, mq-deadline и BFQ в хостинге

Планировщик ввода-вывода Linux определяет, как система сортирует, приоритезирует и отправляет на устройство операции чтения и записи на SSD, NVMe и HDD. В этом руководстве я объясню на практических примерах, когда Noop, mq-deadline и BFQ являются лучшим выбором для хостинга – включая настройку, тестирование и четкие шаги действий.

Центральные пункты

Noop: минимальные накладные расходы на SSD/NVMe и в виртуальных машинах
mq-deadline: Сбалансированная задержка и пропускная способность для серверов
BFQ: Справедливость и быстрая реакция при многопользовательском режиме
blk-mq: Многоочередная конструкция для современного оборудования
Тюнинг: Тесты по рабочей нагрузке вместо жестких правил

Как работает планировщик ввода-вывода в Linux-хостинге

Планировщик ввода-вывода Linux упорядочивает запросы ввода-вывода в очереди, выполняет слияние и принимает решение о доставке на устройство, чтобы Латентность и повысить пропускную способность. Современные ядра используют blk-mq, то есть Multi-Queue, чтобы несколько ядер ЦП могли параллельно запускать ввод-вывод. Это подходит для SSD-накопителей NVMe, которые предлагают много очередей и высокую степень параллелизма, сокращая таким образом очереди. В хостинге часто встречаются широкие смешанные нагрузки: веб-серверы предоставляют много мелких чтений, базы данных генерируют синхронные записи, резервные копии создают потоки. Подходящий планировщик уменьшает заторы, поддерживает стабильное время отклика и защищает Сервер-Опыт работы под нагрузкой.

blk-mq на практике: none vs. noop и настройки ядра по умолчанию

Начиная с ядра 5.x, стандартным является многоочередной дизайн. При этом нет эквивалент „Noop“ для blk-mq, в то время как noop исторически происходит из пути с одной очередью. На устройствах NVMe обычно используется только нет доступно; на SATA/SAS часто можно увидеть mq-deadline, опционально bfq и, в зависимости от дистрибутива, также kyber. Настройки по умолчанию варьируются: NVMe обычно запускается с нет, SCSI/SATA часто с mq-deadline. Поэтому я всегда проверяю доступные варианты через cat /sys/block//queue/scheduler и принимаю решение по каждому устройству. Где только нет выбирается, это сделано намеренно – дополнительная сортировка практически не приносит никакой пользы.

Noop в использовании на сервере: когда минимализм побеждает

Noop в основном выполняет слияние соседних блоков, но не сортирует их, что значительно снижает нагрузку на ЦП. низкий держится. На SSD и NVMe контроллеры и прошивка принимают на себя интеллектуальную сортировку, поэтому дополнительная сортировка в ядре практически бесполезна. В виртуальных машинах и контейнерах я часто планирую Noop, потому что гипервизор все равно планирует всеобъемлюще. На вращающихся дисках я отказываюсь от Noop, поскольку отсутствие сортировки увеличивает время поиска. Если вы хотите четко разграничить контекст оборудования, сначала посмотрите на тип памяти — здесь поможет взгляд на NVMe, SSD и HDD, прежде чем я запущу планировщик устанавливаю.

mq-deadline: сроки, последовательность и четкие приоритеты

mq-deadline устанавливает короткие сроки для операций чтения и позволяет операциям записи ждать немного дольше, чтобы Время отклика заметно повысить безопасность. Планировщик также сортирует по адресам блоков, сокращая время поиска, что особенно полезно для жестких дисков и массивов RAID. В веб-хостах и хостах баз данных mq-deadline обеспечивает хороший баланс между задержкой и пропускной способностью. Я люблю использовать его, когда рабочие нагрузки смешанные и постоянно ожидают как чтение, так и запись. Для тонкой настройки я проверяю глубину запроса, поведение обратной записи и кэш контроллера, чтобы логика Deadline была последовательной. Хватает.

BFQ: справедливость и отзывчивость для множества одновременных пользователей

BFQ распределяет пропускную способность пропорционально и выделяет бюджеты для каждого процесса, что заметно ярмарка работает, когда многие пользователи параллельно генерируют ввод-вывод. Интерактивные задачи, такие как административные оболочки, редакторы или вызовы API, остаются быстрыми, хотя в фоновом режиме выполняются резервные копии. На жестких дисках BFQ часто достигает высокой эффективности, поскольку использует последовательные фазы и разумно применяет короткие окна простоя. На очень быстрых SSD возникает небольшая дополнительная нагрузка, которую я сопоставляю с заметной отзывчивостью. Те, кто использует cgroups и ioprio, могут с помощью BFQ создать четкие гарантии и таким образом избежать неприятностей из-за шумных соседей. Избегайте.

QoS в повседневной жизни: ioprio, ionice и Cgroups v2 с BFQ

Для чистоты Расстановка приоритетов Я комбинирую BFQ с правилами процессов и cgroup. На уровне процессов я устанавливаю с помощью ionice Классы и приоритеты: ionice -c1 (в реальном времени) для чтения с критической задержкой, ionice -c2 -n7 (Best-Effort, низкий) для резервного копирования или индексации, ionice -c3 (Idle) для всего, что должно работать только в режиме простоя. В Cgroups v2 я использую io.weight для относительных долей (например, 100 против 1000) и io.max для жестких ограничений, например echo "259:0 rbps=50M wbps=20M" > /sys/fs/cgroup//io.max. С помощью BFQ веса очень точно преобразуются в доли полосы пропускания — идеально подходит для виртуального хостинга и контейнерных хостов, на которых Справедливость важнее, чем максимальная грубая мощность.

Сравнение практик: какой выбор подходит для оборудования

Выбор во многом зависит от типа памяти и архитектуры очереди, поэтому сначала я проверяю Устройство и контроллеры. SSD и NVMe чаще всего выигрывают от Noop/none, HDD работают более стабильно с mq-deadline или BFQ. В RAID-конфигурациях, SAN и универсальных хостах я часто предпочитаю mq-deadline, потому что логика Deadline и сортировка хорошо гармонируют. Многопользовательские среды с большим количеством интерактивных сессий часто выигрывают от BFQ. В следующей таблице наглядно представлены преимущества и целевые области применения. вместе:

планировщик	Оборудование	Сильные стороны	Слабые стороны	Сценарии хостинга
Нет/нет	SSD, NVMe, виртуальные машины	Минимальные накладные расходы, чистое слияние	Без сортировки на жестких дисках невыгодно	Флэш-сервер, контейнер, управляемый гипервизором
mq-deadline	Жесткий диск, RAID, универсальный сервер	Строгий приоритет чтения, сортировка, стабильная задержка	Больше логики, чем Noop	Базы данных, веб-бэкэнды, смешанные нагрузки
BFQ	HDD, многопользовательские, похожие на настольные хосты	Справедливость, реактивность, хорошие последовательности	Немного больше накладных расходов на очень быстрых SSD-накопителях	Интерактивные услуги, виртуальный хостинг, серверы для разработчиков

Конфигурация: проверка планировщика и его постоянная настройка

Сначала я проверяю, какой планировщик активен, например, с помощью cat /sys/block/sdX/queue/scheduler, и запиши Вариант в квадратных скобках. Чтобы временно переключиться, я пишу, например echo mq-deadline | sudo tee /sys/block/sdX/queue/scheduler. Для постоянных настроек я использую правила udev или параметры ядра, такие как scsi_mod.use_blk_mq=1 и mq-deadline в командной строке. Для устройств NVMe я проверяю пути в /sys/block/nvme0n1/queue/ и выбери вариант для каждого устройства. Важно: я документирую изменения, чтобы обслуживание и откат не вызывали вопросов. преуспеть.

Устойчивость и автоматизация в эксплуатации

В повседневной жизни я предпочитаю повторяемость автоматизации. Три способа хорошо себя зарекомендовали:

Правила udev: Пример для всех жестких дисков (ротационный=1) echo 'ACTION=="add|change", KERNEL=="sd*", ATTR{queue/rotational}=="1", ATTR{queue/scheduler}="mq-deadline"' > /etc/udev/rules.d/60-io-scheduler.rules, то udevadm control --reload-rules && udevadm trigger.
systemd-tmpfiles: Для конкретных устройств я определяю /etc/tmpfiles.d/blk.conf с такими строками, как w /sys/block/sdX/queue/scheduler - - - - mq-deadline, которые записываются при загрузке.
Управление конфигурацией: В Ansible/Salt я создаю классы устройств (NVMe, HDD) и распределяю согласованные настройки по умолчанию вместе с документацией и откатом.

Примечание: лифт= в качестве параметра ядра применялся для старого пути с одной очередью. В blk-mq я определяю выбор на устройство. Для стеков (dm-crypt, LVM, MD) я устанавливаю настройку по умолчанию на верхнем устройстве, подробнее об этом ниже.

Рабочие нагрузки в хостинге: распознавание закономерностей и правильные действия

Сначала я анализирую нагрузку: множество мелких чтений указывает на веб-интерфейсы, синхронизация с большим объемом записей — на базы данных и конвейеры журналов, большие последовательные потоки — на резервное копирование или Архив. Инструменты, такие как iostat, vmstat и blktrace показывают очереди, задержки и эффекты слияния. В случае заметного простоя ЦП из-за ввода-вывода я ссылаюсь на Понимание I/O-Wait, чтобы устранить узкие места структурированным образом. Затем я тестирую 1–2 кандидата в планировщики в идентичных временных интервалах. Решающими являются только результаты измерений, а не интуиция или мифы.

Углубление практики измерений: воспроизводимые эталонные показатели

Для принятия обоснованных решений я использую контролируемые fio-Профили и подтверждение с помощью реальных тестов приложений:

Случайные чтения (Веб/кэш): fio --name=rr --rw=randread --bs=4k --iodepth=32 --numjobs=4 --runtime=120 --time_based --filename=/mnt/testfile --direct=1
Случайный микс (DB): fio --name=randmix --rw=randrw --rwmixread=70 --bs=8k --iodepth=64 --numjobs=8 --runtime=180 --time_based --direct=1
Последовательно (Резервное копирование): fio --name=seqw --rw=write --bs=1m --iodepth=128 --numjobs=2 --runtime=120 --time_based --direct=1

Параллельно я вхожу в систему iostat -x 1, pidstat -d 1 и запишите задержки P95/P99 fio. Для глубокой диагностики я использую blktrace или инструменты eBPF, такие как биолатентность Важно: я измеряю в одно и то же время суток, с одинаковыми нагрузками и одинаковыми размерами файлов. Я минимизирую эффекты кэша с помощью direct=1 и чистые предварительные условия (например, предварительное заполнение на томе).

Файловые системы и планировщик ввода-вывода: важное значение взаимодействия

Файловая система влияет на характеристики ввода-вывода, поэтому я тщательно проверяю ее режим ведения журнала, глубину очереди и поведение синхронизации. именно. EXT4 и XFS эффективно работают с mq-deadline, в то время как ZFS многое буферизует и агрегирует самостоятельно. На хостах с ZFS я часто наблюдаю меньший эффект планировщика, потому что ZFS уже формирует вывод. Для сравнения я использую идентичные параметры монтирования и рабочие нагрузки. Те, кто взвешивает варианты, найдут в EXT4, XFS или ZFS полезные перспективы на Хранение-Тюнинг.

Обратная запись, кэш и барьеры: часто упускаемая половина

Планировщики могут работать только настолько эффективно, насколько позволяет подсистема обратной записи. Поэтому я всегда проверяю:

параметр dirty: sysctl vm.dirty_background_bytes, vm.dirty_bytes, vm.dirty_expire_centisecs управлять тем, когда и насколько агрессивно ядро записывает данные. Для баз данных я часто снижаю пиковые нагрузки, чтобы P99 оставался стабильным.
Барьеры/Смыв: Опции, такие как EXT4 барьер Я сохраняю XFS Default-Flushes только в том случае, если аппаратное обеспечение (например, BBWC) их принимает. „nobarrier“ без защиты от перебоев в электропитании рискованный.
Кэш записи устройства: Я проверяю настройки кэша записи контроллера, чтобы fsync действительно попадает на носитель, а не только в кэш.

Сглаживание Writeback снижает нагрузку на планировщик — сроки остаются надежными, и BFQ не приходится так активно бороться с внезапными волнами флеша.

Виртуализация, контейнеры и облако: кто действительно планирует?

В виртуальных машинах гипервизор управляет физическим потоком ввода-вывода, поэтому я часто выбираю Noop/none в гостевой системе, чтобы избежать двойного логика На самом хосте я использую mq-deadline или BFQ в зависимости от устройства и задачи. В случае облачных томов (например, сетевого блочного хранилища) часть планирования находится в бэкэнде, поэтому я измеряю реальные задержки, а не полагаюсь на предположения. Для контейнерных хостов с сильно смешанной нагрузкой BFQ часто обеспечивает лучшую интерактивность. В однородных пакетных кластерах с только флэш-памятью преобладает Noop, потому что каждое время ЦП имеет значение, а контроллеры эффективны. работа.

RAID, LVM, MD и Multipath: где работает планировщик

В сложенных стеках блоков я устанавливаю планировщик на Лучшее устройство , поскольку там находятся соответствующие очереди:

LVM/dm-crypt: Планировщик на /dev/dm-* соответственно /dev/mapper/ . Физические PV я обычно оставляю на нет, чтобы слияние/сортировка не происходили дважды.
MD-RAID: Am /dev/mdX решать; нижележащие sdX Устройства остаются спокойными нет. Аппаратный RAID обрабатывается как одно блочное устройство.
Многолучевость: На мультипутевом картографе (/dev/mapper/mpatha); устройства пути под ним на нет.

Важно: я разделяю тесты по бассейн и уровень избыточности (RAID1/10 против RAID5/6). RAID с контролем четности более чувствительны к случайным записям; в этом случае mq-deadline часто выигрывает благодаря последовательным срокам чтения и упорядоченному выводу.

Стратегии настройки: шаг за шагом к надежной производительности

Я начну с базовых измерений: текущее время отклика, пропускная способность, 95/99-й процентиль и загрузка ЦП.Загрузить. Затем я изменяю только один фактор, как правило, планировщик, и повторяю ту же нагрузку. Такие инструменты, как fio помогают контролировать, но я подтверждаю каждую гипотезу с помощью реальных тестов приложений. Для баз данных подходят собственные тесты, которые отображают транзакции и поведение fsync. Только когда измерение стабильно, я фиксирую выбор и документирую его. Почему.

Глубина очереди, предварительное чтение и аффинность ЦП

Помимо планировщика, на практику сильно влияют параметры очереди:

Глубина очереди: /sys/block//queue/nr_requests Ограничение количества ожидающих запросов на каждую аппаратную очередь. NVMe поддерживает высокую глубину (высокую пропускную способность), HDD выигрывают от умеренной глубины (более стабильная задержка).
Предварительное чтение: /sys/block//queue/read_ahead_kb соответственно blockdev --getra/setra. Для последовательных рабочих нагрузок установите немного выше, для случайных — держите на низком уровне.
rq_affinityС /sys/block//queue/rq_affinity 2. Я слежу за тем, чтобы завершение ввода-вывода предпочтительно попадало на создающий его ядро процессора — это снижает затраты на перекрестную коммуникацию между процессорами.
ротационный: Я подтверждаю, что SSD-накопители ротационный=0 , чтобы ядро не применяло эвристические алгоритмы HDD.
Слияния: /sys/block//queue/nomerges Может уменьшить количество слияний (2=выкл.). Для NVMe с микрозадержкой частично целесообразно, для HDD в большинстве случаев невыгодно.
io_poll (NVMe): опрос может снизить задержки, но требует ресурсов ЦП. Я включаю его специально при Низкая задержка-Требования.

Настройки планировщика в деталях

В зависимости от планировщика доступны следующие полезные настройки:

mq-deadline: /sys/block//queue/iosched/read_expire (мс, типично малое), write_expire (больше), fifo_batch (размер пакета), front_merges (0/1). Я считаю read_expire коротко, чтобы защитить P95-читания, и настроить fifo_batch в зависимости от устройства.
BFQ: slice_idle (время простоя для использования последовательности), низкая задержка (0/1) для быстрой реакции и интерактивности. С bfq.weight В Cgroups я очень точно регулирую относительные доли.
none/noop: Практически нет регулировочных винтов, но Окрестности (глубина очереди, предварительное чтение) определяет результаты.

Я всегда изменяю только один параметр и строго фиксирую изменения – так остается ясно, что повлияло на какой эффект.

Частые ошибки и как их избежать

Смешанные пулы HDD и SSD за RAID-контроллером искажают результаты тестов, поэтому я разделяю измерения по Группа. Я не забываю, что планировщик действует на каждое блочное устройство — LVM-мапперы и MD-устройства я рассматриваю отдельно. Персистентность часто проскальзывает: без правила udev или параметра ядра после перезагрузки снова устанавливается значение по умолчанию. Cgroups и приоритеты ввода-вывода часто остаются неиспользованными, хотя они значительно повышают справедливость. И я всегда проверяю глубину очереди, Writeback и опции файловой системы, чтобы выбранная логика реализовала свой потенциал. показывает.

Устранение неполадок: внимательно изучите симптомы

Когда показатели изменяются, я интерпретирую закономерности и вывожу конкретные шаги:

Высокая задержка P99 при большом количестве чтений: Проверить, вытесняют ли записи чтения. Протестировать с помощью mq-deadline, read_expire снизить, сгладить обратное списание (vm.dirty_* подстроиться).
100% util на HDD, низкая пропускная способность: Доминируют поиски. Попробуйте BFQ или mq-deadline, уменьшите Readahead, умерьте глубину очереди.
Хорошая пропускная способность, но интерфейс пользователя работает с задержками: страдает интерактивность. Активировать BFQ, критические службы через ionice -c1 или веса Cgroup.
Сильная вариативность в зависимости от времени суток: Разделенные ресурсы. Изолируйте с помощью Cgroups, выбирайте планировщик для каждого пула, переносите резервное копирование на непиковые часы.
Таймауты NVMe в dmesg: бэкэнд или прошивка. io_poll Отключите на время, проверьте прошивку/драйвер, проверьте избыточность пути (Multipath).

Краткое резюме: четкие решения для повседневной работы с хостингом

Для флэш-памяти и гостей я часто выбираю Noop, чтобы сэкономить на накладных расходах и дать возможность контроллерам работать. В универсальных серверах с HDD или RAID mq-deadline обеспечивает надежную задержку и высокую полезность. При большом количестве активных пользователей и интерактивной нагрузке BFQ обеспечивает справедливое распределение и заметную отзывчивость. Перед каждой фиксацией я измеряю реальные рабочие нагрузки и наблюдаю за эффектами на P95/P99. Таким образом, я принимаю обоснованные решения, поддерживаю быстродействие систем и стабилизирую Сервер-Эффективность в повседневной деятельности.

Текущие статьи

Wordpress

Почему Ajax в админке WordPress часто является настоящим убийцей производительности

WordPress Admin Ajax вызывает проблемы с производительностью. Узнайте о причинах, инструментах диагностики и практических решениях для оптимизации скорости работы вашего сайта.

27 января 2026 года Комментариев нет

Сервер с панелью управления хостингом для обеспечения ресурсов и безопасности

Плэск

Панели управления в хостинге: потребление ресурсов и аспекты безопасности

Панели управления в хостинге: анализ потребления ресурсов и аспектов безопасности Plesk и cPanel. Оптимизация **нагрузки на сервер** и производительности.

27 января 2026 года Комментариев нет

Сравнение производительности версий MySQL Графический сервер

Базы данных

Производительность версии MySQL: влияние на скорость и масштабируемость

Сравнение производительности версий MySQL: от 8.0 до 9.2 увеличение QPS на 30-50%. Советы по настройке сервера и хостингу баз данных.

27 января 2026 года Комментариев нет