Эффективно загружать файлы асинхронно с запросами

Question

Эффективно загружать файлы асинхронно с запросами

Я хочу загружать файлы как можно быстрее с python. Вот мой код

import pandas as pd
import requests
from requests_futures.sessions import FuturesSession
import os
import pathlib
from timeit import default_timer as timer


class AsyncDownloader:
    """Download files asynchronously"""

    __urls = set()
    __dest_path = None
    __user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'
    __read_timeout = 60
    __connection_timeout = 30
    __download_count = 0  # unlimited
    # http://www.browserscope.org/?category=network
    __worker_count = 17  # No of threads to spawn
    __chunk_size = 1024
    __download_time = -1
    __errors = []

    # TODO Fetch only content of a specific type from a csv
    # TODO Improve code structure so that it can be used as a commandline tool

    def set_source_csv(self, source_path, column_name):
        self.source_path = source_path
        self.column_name = column_name

        try:
            my_csv = pd.read_csv(source_path, usecols=[self.column_name], chunksize=10)
        except ValueError:
            print("The column name doesn't exist")
            return
        else:
            # No exception whatsoever
            for chunk in my_csv:
                AsyncDownloader.__urls.update(set(getattr(chunk, self.column_name)))

    def set_destination_path(self, dest_path):
        if dest_path.endswith('/'):
            dest_path = dest_path[:-1]
        self.dest_path = dest_path
        # TODO Add exception in case we can't create the directory
        pathlib.Path(self.dest_path).mkdir(parents=True, exist_ok=True)
        if os.access(self.dest_path, os.W_OK):
            AsyncDownloader.__dest_path = pathlib.Path(self.dest_path).resolve()

    def set_user_agent(self, useragent):
        self.useragent = useragent
        AsyncDownloader.__user_agent = self.useragent

    def set_connection_timeout(self, ctimeout_secs):
        self.timeout_secs = ctimeout_secs
        if self.timeout_secs >= 0:
            AsyncDownloader.__connection_timeout = self.timeout_secs

    def set_read_timeout(self, rtimeout_secs):
        self.timeout_secs = rtimeout_secs
        if self.timeout_secs >= 0:
            AsyncDownloader.__read_timeout = self.timeout_secs

    def set_download_count(self, file_count):
        self.file_count = file_count
        if self.file_count > 0:
            AsyncDownloader.__download_count = self.file_count

    def set_worker_count(self, worker_count):
        self.worker_count = worker_count
        if self.worker_count > 0:
            AsyncDownloader.__worker_count = self.worker_count

    def set_chunk_size(self, chunk_size):
        self.chunk_size = chunk_size
        if self.chunk_size > 0:
            AsyncDownloader.__chunk_size = self.chunk_size

    def print_urls(self):
        print(AsyncDownloader.__urls)

    def get_download_time(self):
        return AsyncDownloader.__download_time

    def get_errors(self):
        return AsyncDownloader.__errors

    def download(self):
        start = timer()
        try:
            session = FuturesSession(max_workers=AsyncDownloader.__worker_count)
            session.headers.update({'user-agent': AsyncDownloader.__user_agent})
            session.request(AsyncDownloader.__connection_timeout,
                            AsyncDownloader.__connection_timeout, stream=True)

            results = []
            # Give an accurate file count even if we don't have to download it as it a;ready exist
            file_count = 0

            for url in AsyncDownloader.__urls:
                filename = os.path.basename(url)
                # check if we need only a limited number of files
                if AsyncDownloader.__download_count != 0:
                    # No need to download file if it already exist
                    if pathlib.Path(AsyncDownloader.__dest_path / filename).is_file():
                        file_count += 1
                        continue
                    else:
                        if file_count < AsyncDownloader.__download_count:
                            file_count += 1
                            results.append(session.get(url))
                else:
                    if not pathlib.Path(AsyncDownloader.__dest_path / filename).is_file():
                        results.append(session.get(url))

            for result in results:
                # wait for the response to complete, if it hasn't already
                response = result.result()
                filename = os.path.basename(response.url)
                if response.status_code == 200:
                    with open(pathlib.Path(AsyncDownloader.__dest_path / filename).resolve(), 'wb') as fd:
                        for chunk in response.iter_content(chunk_size=AsyncDownloader.__chunk_size):
                            if chunk:  # filter out keep-alive new chunks
                                fd.write(chunk)

            end = timer()
            AsyncDownloader.__download_time = end - start

        except requests.exceptions.HTTPError as errh:
            AsyncDownloader.__errors.append("Http Error:" + errh)
            # print("Http Error:", errh)
        except requests.exceptions.ConnectionError as errc:
            AsyncDownloader.__errors.append("Error Connecting:" + errc)
            # print("Error Connecting:", errc)
        except requests.exceptions.Timeout as errt:
            AsyncDownloader.__errors.append("Timeout Error:" + errt)
            # print("Timeout Error:", errt)
        except requests.exceptions.RequestException as err:
            AsyncDownloader.__errors.append("OOps: Something Else" + err)
        else:
            return

Следующий код делает очень плохое предположение. На самом деле я предполагаю, что первый URL закончится первым, что, конечно, не правильно.

# wait for the response to complete, if it hasn't already
response = result.result()

Как я могу гарантировать, что обрабатываются только те запросы, которые были выполнены, а не принимать предположения, подобные приведенным выше, эффективным способом?

Буду признателен за любые другие предложения о том, как улучшить производительность.

С уважением

15

python python-3.x performance python-requests requests-futures

Источник

user2650277 05 фев '18 в 17:49

4 ответа

Решение

Самый простой способ сделать это не требует какого-либо многопоточности или специального асинхронного кода: просто используйте обычный requests библиотека и ее встроенная опция потоковой передачи. Ты говоришь response = session.get(url, stream=True) а затем использовать response.iter_content(chunk_size=1024) (например) для доступа к загруженной информации по одному фрагменту за раз. Вот функциональный пример:

import requests
import os

def stream_multiple(urls):
    responses = {url: requests.get(url, stream=True) for url in urls)
    streams = {url: responses[url].iter_content(chunk_size=1024)
            for url in urls}
    handles = {url: open(os.path.basename(url), 'wb') for url in urls}
    while streams:
        for url in list(streams.keys()):
            try:
                chunk = next(streams[url])
                print("Received {} bytes for {}".format(len(chunk), url))
                handles[url].write(chunk)
            except StopIteration: # no more contenet
                handles[url].close()
                streams.pop(url)

Образец вывода:

rat@pandion:~/tmp$ python smu.py
Received 1296 bytes for http://www.gutenberg.org/files/9490/9490-0.txt
Received 1882 bytes for http://www.gutenberg.org/ebooks/21497.txt.utf-8
Received 1524 bytes for http://www.gutenberg.org/files/1729/1729-0.txt
Received 1508 bytes for http://www.gutenberg.org/ebooks/21790.txt.utf-8
Received 1826 bytes for http://www.gutenberg.org/files/9490/9490-0.txt
Received 2349 bytes for http://www.gutenberg.org/ebooks/21497.txt.utf-8
Received 1834 bytes for http://www.gutenberg.org/files/1729/1729-0.txt
Received 1838 bytes for http://www.gutenberg.org/ebooks/21790.txt.utf-8
Received 2009 bytes for http://www.gutenberg.org/files/9490/9490-0.txt
...

Вероятно, вы могли бы добиться чуть более высокой производительности, используя потоки или многопроцессорность, но я сомневаюсь, что это будет значительно лучше. Практически во всех случаях запись ваших данных на диск будет значительно быстрее, чем получение их из сети.

5

Источник

user9200529 11 фев '18 в 22:27

Для работы с вашим кодом я создал .csv файл, содержащий ссылки на несколько robots.txt файлы с нескольких сайтов в следующем порядке: GitHub,UDemy,YouTube.

После отладки первый результат в

response = result.result()

было (в таком порядке): UDemy, YouTube, GitHub. Для записи, размер каждого robots.txt увеличивается в том же порядке, в котором я получил результаты. Это означает, что не было никаких проблем с начала, несмотря на то, что я настраивал .csv файл в определенном порядке, результаты пришли в том порядке, в котором файлы были впервые загружены.

Буду признателен за любые другие предложения о том, как улучшить производительность.

Что касается производительности, вы можете повысить скорость, создав поток для записи ответа в файл или используя асинхронную библиотеку ввода-вывода, такую как https://github.com/Tinche/aiofiles.

Если вы хотите пойти еще дальше, вы можете попробовать повысить производительность самой программы, используя альтернативную реализацию Python, такую как PyPy.

4

Источник

user9334808 09 фев '18 в 08:04

Ты можешь использовать gevent если вы не беспокоитесь о "обезьяна патч"

import gevent.monkey
import requests

CONNECTIONS = 10

gevent.monkey.patch_all()  # debug in PyCharm: https://blog.jetbrains.com/pycharm/2012/08/gevent-debug-support/

import gevent.pool


def your_request_without_any_changes(url):
    return requests.get(url)


pool = gevent.pool.Pool(CONNECTIONS)
for response in pool.imap_unordered(your_request_without_any_changes, ['http://www.google.com'] * 100):
    print(response.status_code)

gevent используйте "цикл обработки событий" и библиотеку запросов на исправления (на самом деле это происходит на более низком уровне) для переключения на другую задачу, когда мы ожидаем ответа.

1

Источник

user3369315 11 фев '18 в 23:06

Другие вопросы по тегам python python-3.x performance python-requests requests-futures

user1129015 09 фев '18 в 07:41 2018-02-09 07:41 · Accepted Answer · 2018-02-09 07:41

Даже если соединения были выполнены по порядку, вы все равно обрабатываете файлы последовательно. Второй файл должен ждать записи первого и так далее. Таким образом, лучшее, что вы можете сделать, - это обрабатывать все параллельно (это можно сделать, несмотря на GIL, поскольку операции ввода-вывода, такие как запись на диск и чтение из сети, будут освобождать его). В основном, используйте регулярные requests библиотека (не requests-futures) и создать будущее / поток на запрос + обработка файла.

Есть еще больше способов сделать это быстрее, например, продолжать загружать куски во время записи (то есть два потока, один для запроса и один для обработки файлов). И чтение кусков параллельно, делая multi-part запросов, что является территорией "ускорителя загрузки", и вы можете не захотеть такого рода сложности в своем коде.

Редактировать: Кроме того, загрузка фрагментированных файлов ленива, что означает, что вы делаете только начальные запросы параллельно, но фактическая загрузка фрагментированных файлов выполняется последовательно, так как это делается в основном потоке. Итак, ваш текущий подход не намного лучше, чем полностью синхронный. Приведенный выше совет остается в силе.