Серверы и виртуальные машины

Обработка прерываний на серверах: как прерывания процессора влияют на производительность

Прерывания процессора контролируют скорость реакции сервера на сетевые пакеты, события в хранилище и таймеры. Неправильно распределенные или слишком частые прерывания ощутимо замедляют работу приложений. Сервер с чистой обработкой прерываний уменьшает количество переключений контекста, снижает задержки и стабилизирует время отклика во время пиковых нагрузок.

Центральные пункты

Прежде чем перейти к деталям, я кратко изложу следующие ключевые аспекты:

Нагрузка прерывания понять: Когда процентные значения становятся критическими
Параллелизм Управление: Одновременные прерывания и наихудшие задержки
MSI-X использовать: Больше новостей, лучшее распространение
RSS & Affinity: распределение прерываний сетевой карты по ядрам
Мониторинг установить: Читайте цифры, действуйте целенаправленно

Что вызывает прерывания процессора на серверах

Прерывание - это сигнал Сигнал, который немедленно выводит процессор из текущей задачи и запускает обработчик. Сетевые карты сообщают о новых пакетах, контроллеры хранения данных сигнализируют о завершении ввода-вывода, таймеры запускают часы - каждое из этих прерываний стоит время процессора. При высокой активности эти события складываются в большое количество переключений контекста и пропусков кэша. Поэтому я слежу за тем, как часто и как долго процессор в ядре выполняет ISR и DPC. Если вы поймете эту динамику, то сможете надежно контролировать время отклика и обеспечивать заметно более плавную работу приложений.

Почему большое время прерывания снижает производительность

В здоровой среде перерывы в работе системы обычно составляют от 0,1-2% CPU, 3-7% возможны в краткосрочной перспективе. Если время прерывания регулярно остается выше 5-10%, за этим часто стоит проблема с драйверами, неисправное оборудование или неправильная настройка. Начиная с 30% все становится серьезнее, а после 50% возникает угроза Узкие места и медленное время отклика. Приложения теряют пропускную способность, задержки скачут, а предсказуемость страдает. В первую очередь я проверяю версии драйверов, прошивки, сродства и модерацию прерываний на сетевых картах.

Одновременные прерывания: понимание задержек

Одиночное прерывание редко остается Проблема; Это становится сложным, когда несколько событий сталкиваются друг с другом. Если высокоприоритетное прерывание происходит во время низкоприоритетного прерывания, его обработка увеличивается за счет последующих прерываний. Пример: если высокоприоритетный путь требует 75 циклов, а низкоприоритетный - 50, то задержка низкоприоритетного пути легко увеличивается до 125 циклов - дальнейшие наложения увеличивают задержку. Худший случай-Замедление быстро увеличивается. Такое поведение делает системы непредсказуемыми. Поэтому я планирую привязки и приоритеты ядра таким образом, чтобы горячие пути не блокировали друг друга.

MSI и MSI-X в повседневной жизни

Современные хосты используют MSI или MSI-X, вместо отправки классических линейных сигналов (линий IRQ). MSI передает сообщение как запись в память, тем самым уменьшая задержку и восприимчивость к помехам. MSI-X расширяет эту концепцию: больше сообщений, отдельные очереди, более точное распределение по ядрам. Это уменьшает коллизии прерываний и улучшает Масштабирование с высокой пропускной способностью. Я активирую MSI-X для сетевых карт и контроллеров NVMe, если драйверы и прошивка стабильно поддерживают это.

механизм	Макс. Сообщения	Обращение к сайту	Распределение по ядрам	Типичный эффект
Устаревший IRQ	1 на устройство/линию	Линейный сигнал	Ограниченный	Выше Латентность, больше столкновений
MSI	До ~32	Запись в память (16 бит)	Хорошо	Меньше накладных расходов, более стабильные траектории
MSI-X	До 2048 года	Запись в память (32-бит)	Очень хорошо	Подробнее Распространение, более высокий параллелизм

DMA, DPC и правильный путь передачи данных

С помощью DMA устройства могут хранить данные непосредственно в Память Процессор запускает только процедуры обработки. Это экономит прерывания, поскольку нужно сигнализировать о меньшем количестве промежуточных состояний. Я слежу за тем, чтобы DPC связывали фактическую работу, а не делали слишком много в ISR. Это позволяет сократить время пребывания в критической секции и Латентность более предсказуемой. В целом процессор получает больше времени для работы с логикой приложения.

Специально настройте RSS и сродство процессора

Масштабирование на стороне приема распределяет сетевые очереди и их прерывания между несколькими ядра. Я привязываю все очереди, включая прерывания, DPC и пользовательские потоки, к одному ядру или кластеру ядер, чтобы избежать межъядерных пробуждений. Если в поток вовлечены разные ядра, увеличивается количество пропусков кэша и переключений контекста. Структурированный план сродства заметно предотвращает такие потери на трение. Если вы хотите углубиться, то можете найти компактную статью Сродство к процессору-Обзор для хостинговых установок.

Обезвреживание прерываний хранения и путей ввода-вывода

При хранении также образуется множество Прерывания, особенно при большом количестве малых IOPS. Я использую MSI-X на контроллерах NVMe и назначаю очереди на фиксированные ядра, чтобы вход и выход оставались локальными. Кроме того, подходящий Планировщик ввода/вывода, чтобы сгладить нагрузку на каждую очередь. Варианты Deadline, BFQ или MQ реагируют по-разному в зависимости от рабочей нагрузки. Если вы правильно проведете тестирование, вы уменьшите джиттер и увеличите Пропускная способность.

Сетевые штормы, SYN-флуд и модерация прерываний

Внезапные наплывы посылок приводят в движение ISR-скорость и перехватывает дыхание процессора. Я активирую модерацию прерываний на сетевой карте, чтобы пакеты поступали разумными очередями, не создавая пиков задержки. В сценариях DoS устойчивый Защита от наводнений SYN таблицу соединений на ранней стадии. В то же время я измеряю, не слишком ли медленно реагирует сама модерация - затем я корректирую значения. Цель - добиться плавного потока пакетов, равномерно распределяющего DPC. корма.

Мониторинг: чтение и действия на основе цифр

Я начинаю с нескольких, четких МетрикиОбщее использование процессора, время прерывания, время DPC, переключение контекста и очередь процессора. Если CPU обычно остается ниже 50%, я реагирую спокойно; при 50-80% я наблюдаю пики и горячие точки; выше 80% я планирую масштабирование или настройку. Если время прерывания поднимается выше 30%, я проверяю драйвер, прошивку и сродства. Проверка задержки аудио/видео косвенно показывает, насколько детерминированно реагирует ядро. Важно: я изменяю только один Переменная за один пробный прогон, а затем повторите измерение.

Топология NUMA и локальность PCIe

На многосокетных хостах я всегда определяю привязку прерываний в контексте NUMA-Топология. Сетевая карта или контроллер NVMe физически подключены к корневому комплексу PCIe и, следовательно, к узлу NUMA. Если я настрою очереди и их прерывания на далекий ядра, данные перемещаются по каналам UPI/QPI - задержки увеличиваются, пропускная способность уменьшается. Поэтому я проверяю, к какому узлу NUMA приписано устройство, привязываю его очереди к локальным ядрам и убеждаюсь, что связанные с ним пользовательские потоки используют тот же узел. В Windows я обращаю внимание на группы процессоров и настройки устройства для предпочтительного узла NUMA; в Linux я последовательно привязываю IRQ, softirqs и потоки приложений к локальному узлу. Результат: меньше межузлового трафика, более стабильная работа Джиттер-значения и вычисляемые наихудшие задержки.

Правильное использование выгрузки, NAPI и коалесценции

Разгрузка - это мощный рычаг для борьбы с потоками прерываний, но ее необходимо использовать для Рабочая нагрузка подходит. Грубо говоря: TSO/GSO переносят сегментацию на сетевую карту, LRO/GRO суммируют входящие сегменты, RSC на хосте имеет схожий с LRO эффект. Для массовых передач (резервное копирование, репликация) эти функции увеличивают пропускную способность и значительно снижают частоту ISR. Однако для потоков, критичных к задержкам (RPC, торговля, VoIP), большие скопления могут негативно влиять на скорость ISR. Время реагирования расширяться. Поэтому я выбираю умеренные настройки: GRO - да, но не переусердствуйте; LRO - только если нет устройств среднего пути или брандмауэров, вызывающих проблемы; TSO/GSO оставьте активными, как правило.

NAPI в Linux с момента загрузки переключается с режима чистого прерывания на режим опроса. Это сглаживает пики и заставляет процессор работать в режиме DPC, а не запускать тысячи коротких ISR. Вместе с Модерация прерываний (коалесценция), создается план: короткие таймеры для интерактивных профилей, более длинные таймеры для массовых. Я тестирую интервалы с шагом в микросекунду, наблюдаю за падениями, уровнем заполнения кольца и задержками, чтобы найти оптимальный вариант. В стеке хранения аналоговые регулировочные винты (глубина очереди, NCQ, оптимизация blk-mq) дают тот же эффект: меньше стаккато, больше Эффективность.

Балансировка IRQ в сравнении со статическим подключением

Автоматическая балансировка IRQ распределяет нагрузку приемлемо - но не идеально. В однородных веб-средах я часто оставляю ее включенной и контролирую только горячие точки. В критичных к задержкам или асимметричных системах Статическое крепление выше: Я определяю фиксированные наборы процессоров для каждой очереди и устройства, поддерживаю их постоянство при перезагрузках и свожу к минимуму миграцию softirqs. Кроме того, я резервирую „домашние“ ядра для фоновой работы (таймеры, Kthreads), чтобы производительные ядра оставались свободными. В Windows я использую управление прерываниями и маски аффинити для каждой очереди; в Linux я работаю с аффинити для каждого IRQ и управлением Softirq. Девиз: столько автоматизации, сколько необходимо, столько Детерминизм как можно больше.

Виртуализация и SR-IOV/virtio

В виртуальных машинах возникают дополнительные расходы: виртуальные прерывания означают Выходы ВМ, задержки при планировании и общие очереди. Я подключаю vCPU с интенсивным вводом-выводом к подходящим pCPU, избегаю избыточной коммисии на узлах ввода-вывода и отделяю потоки панели данных от нагрузки управления. Там, где это возможно, я использую SR-IOVВиртуальные функции переносят MSI-X на гостевую ВМ и снижают нагрузку на гипервизор. Для общих рабочих нагрузок virtio с ускорением vhost обеспечивает хорошие результаты; в высокопроизводительных сценариях я сопоставляю очереди 1:1 с vCPU и поддерживаю постоянство аффинити от гостя к хосту. Важно: те же правила для RSS, коалесценции и NUMA применимы и к виртуальным машинам - только Прозрачность ниже, поэтому я измеряю более тщательно.

Управление питанием и детерминированные задержки

Функции энергосбережения хороши для баланса, но вредны для жесткости Бюджеты задержки. Глубокие C-состояния увеличивают время пробуждения, а агрессивные изменения частоты вызывают джиттер. На хостах со строгими SLO я устанавливаю профили производительности, ограничиваю глубокие C-состояния пакетов и разрешаю турбо только там, где тепловой запас достаточно велик. Решения по таймерам (таймеры высокого разрешения против более низкой частоты прерываний) также влияют на объем и скорость работы ядра. В системах близких к реальному времени помогают режимы tickless и изолированные ядра: прикладные потоки на изолированных ядрах, системная работа на выделенных „домашних“ ядрах - таким образом, критические Hotpath без помех для огня.

Инструменты и методология измерений для каждой ОС

Я храню свои Диагностическая цепочка бережливый и воспроизводимый. В Linux я начинаю с /proc/interrupts и /proc/softirqs, проверяю счетчики per-queue через ethtool и изучаю настройки коалесценции и разгрузки. mpstat, vmstat и sar показывают макротренды; perf выявляет "горячие точки" в ISR/DPC. Я соотношу счетчики пакетов и падений с временем работы ядра и метриками потока. В Windows индикаторы производительности по времени прерывания/DPC, прерываниям/сек и DPC/сек дают чистую картину; трассировка показывает, какие драйверы устанавливают часы. Важным является общий Шкала времениЯ регистрирую все синхронно, чтобы пики, спады и скачки задержки совпадали.

Руководство по устранению неполадок и антипаттерны

Моя процедура последовательна: сначала Посетите сайт, затем гипотеза, затем изменение. Типичные причины: очередь или устройство с растущей частотой ISR, неисправная прошивка, слишком высокие (жесткая система) или слишком низкие (шторм ISR) значения коалесценции, слишком большая выгрузка или потоки, тянущие очереди через узлы NUMA. Я изолирую пострадавшее устройство, тестирую консервативные настройки по умолчанию, настраиваю драйверы/BIOS и распределяю нагрузку оптимальным образом. Антипаттерн: перемещение всего одновременно, беспорядочные откаты, отсутствие базовой линии или показаний без контекста. Если вы постоянно используете Переменная за другим, вы быстро получите стабильную конфигурацию.

Чертежи для хостов 10/25/100G и NVMe

Для сетевых карт 10G я рассчитываю 4-8 очередей RSS, в зависимости от производительности процессора и профиля пакетов. Я начинаю коалесцировать умеренно (например, с малых двузначных микросекунд), GRO включен, LRO осторожен. При 25 Гбит/с я масштабирую до 8-16 очередей и сохраняю строго NUMA-локальную привязку. Начиная с 40/100 Гбит/с, архитектура очередей становится Основная задачаМного очередей, чистое распределение по ядрам, активная разгрузка, NAPI вступает в силу под нагрузкой. Для NVMe-хранилищ я выделяю как минимум одну очередь на ядро и поддерживаю глубину очереди, соответствующую рабочей нагрузке - небольшие операции ввода-вывода выигрывают от большего параллелизма, большие последовательные передачи - от стабильной политики коалесценции и планировщика, который сглаживает всплески. Цель остается прежней: постоянные задержки, отсутствие горячих ядер и переполненных колец.

Практический контрольный список для быстрого достижения успеха

Я обновляю первым Драйверы и BIOS/прошивки, поскольку неисправные состояния часто увеличивают нагрузку на прерывания. Затем, если возможно, я переключаюсь на MSI-X и чисто распределяю очереди по ядрам. Я настраиваю RSS так, чтобы сродство потоков было правильным, а горячие пути оставались последовательными. На сетевой карте я адаптирую модерацию к профилю трафика и наблюдаю за влиянием на задержки. Если я продолжаю находить отклонения, я ищу неисправное оборудование, неправильные опции или проблемные устройства с помощью процедуры исключения и отдельной процедуры Профилирование.

Реалистично оценивать затраты и выгоды

Не каждая система нуждается в максимальном количестве Тонкая настройка. Я отдаю предпочтение узлам с высокой пакетной нагрузкой, большим количеством малых IOPS или жесткими требованиями к задержкам. Несколько часов настройки окупаются сторицей, поскольку меньшее количество прерываний сразу же освобождает процессор для приложения. Для некритичных серверов достаточно базовой конфигурации с последними драйверами и MSI-X. Я руководствуюсь измеренными значениями, а не интуицией или Допущения.

Резюме: Что я включаю в ежедневное обслуживание

Я постоянно наблюдаю Прерывание- и времени работы DPC, поддерживаю драйверы и прошивку в актуальном состоянии и по возможности использую MSI-X. Я планирую RSS и аффинити для каждой рабочей нагрузки так, чтобы потоки, DPC и потоки оставались локальными. Я адаптирую модерацию сетевых карт к шаблонам трафика, распределяю очереди хранения чистым образом и использую подходящие пути ввода-вывода. Если мониторинг показывает отклонения от нормы, я работаю напрямую через драйверы, оборудование и конфигурацию. Таким образом, сервер обработки прерываний остается предсказуемым, а мои рабочие нагрузки работают стабильно. Производительность.