Главная » Хабрахабр » [Перевод] Эффективное использование памяти при параллельных операциях ввода-вывода в Python

[Перевод] Эффективное использование памяти при параллельных операциях ввода-вывода в Python

Существует два класса задач где нам может потребоваться параллельная обработка: операции ввода-вывода и задачи активно использующие ЦП, такие как обработка изображений. Python позволяет реализовать несколько подходов к параллельной обработке данных. Рассмотрим их применительно к операциям ввода-вывода.

До версии Python 3.5 было два способа реализации параллельной обработки операций ввода-вывода. Нативный метод — использование многопоточности, другой вариант — библиотеки типа Gevent, которые распараллеливают задачи в виде микро-потоков. Python 3.5 предоставил встроенную поддержку параллелизма с помощью asyncio. Мне было любопытно посмотреть, как каждый из них будет работать с точки зрения памяти. Результаты ниже.

Подготовка тестовой среды

Для тестирования я создал простой скрипт. Хотя в нем и не так много функций, он демонстрирует реальный сценарий использования. Скрипт скачивает с сайта цены на автобусные билеты за 100 дней и готовит их для обработки. Потребление памяти измерялось с помощью memory_profiler. Код доступен на Github.

Поехали!

Синхронная обработка

Я реализовал однопоточную версию скрипта, которая стала эталоном для остальных решений. Использование памяти было довольно стабильным на протяжении всего исполнения, и очевидным недостатком стало время выполнения. Без какого-либо параллелизма сценарий занял около 29 секунд.

image

ThreadPoolExecutor

Работа с многопоточностью реализована в стандартной библиотеке. Самый удобный API предоставляет ThreadPoolExecutor. Однако, использование потоков связано с некоторыми недостатками, один из них — значительное потребление памяти. С другой стороны, существенное увеличение скорости выполнения является причиной, по которой мы хотим использовать многопоточность. Время выполнения теста ~17 секунд. Это значительно меньше ~29 секунд при синхронном выполнении. Разница — это скорость операций ввода-вывода. В нашем случае задержки сети.

image

Gevent

Gevent — это альтернативный подход к параллелизму, он приносит корутины в код Python до версии 3.5. Под капотом у нас легкие псевдо-потоки «гринлеты» плюс несколько потоков для внутренних нужд. Общее потребление памяти сходно с мультипаточностью.

image

Asyncio

С версии Python 3.5 корутины доступны в модуле asyncio, который стал частью стандартной библиотеки. Чтобы воспользоваться преимуществами asyncio, я использовал aiohttp вместо requests. asyncio — асинхронный эквивалент requests со схожей функциональностью и API.

Наличие соответствующих библиотек — основной вопрос, который надо прояснить перед началом разработки с asyncio, хотя наиболее популярные IO библиотеки  —  requests, redis, psycopg2 — имеют асинхронные аналоги.

image

С asyncio потребление памяти значительно меньше. Оно схоже с однопоточной версией скрипта без параллелизма.

Пора начинать использовать asyncio?

Параллелизм — очень эффективный путь ускорения приложений с большим количеством операций ввода-вывода. В моем случае это ~40% прироста производительности в сравнении с последовательной обработкой. Различия в скорости для рассмотренных способов реализации параллелизма незначительны.

ThreadPoolExecutor и Gevent — мощные инструменты, способные ускорить существующие приложения. Их основное преимущество состоит в том, что в большинстве случаев они требуют незначительных изменений кодовой базы. Если говорить об общей производительности, то лучший инструмент — asyncio. Его потребление памяти значительно ниже по сравнению с другими методами параллелизма, что не влияет на общую скорость. За плюсы приходится платить специализированными библиотеками, заточенными под работу с asyncio.


x

Ещё Hi-Tech Интересное!

[Перевод] Почему важна SRE-документация. Ч.1

Всем добрый вечер! Не успели сентябрьские студенты закончить второй месяц курса «Devops — практики и инструменты», как у нас открывается следующий поток. Интенсивность запусков у нас меняется от месяца к месяцу. Так что мы снова готовы делиться с вами полезными ...

Конспект доклада «Монолит для сотен версий клиентов» (HL2018, Badoo, Владимир Янц)

Продолжаю серию конспектов с HL2018. В проверке этого конспекта мне помогали ребята из Badoo (Владимир Янц vyants и Николай Крапивный), за что им большой спасибо. Надеюсь, это положительно сказалось на качестве донесения идеи доклада. Особенности процесса разработки: Ответственность разработчика не ...