多线程与多进程爬取数据（多线程python爬虫）

citgpt 2024-09-09 02:17 15 浏览 0 评论

爬取的网站为：https://materialsweb.org/

代码：

#导入相关库
import os
import numpy as np
import urllib
import re
from urllib.request import urlopen
from bs4 import BeautifulSoup
import time
from multiprocessing.pool import ThreadPool
from multiprocessing import Pool as ProcessPool
from urllib.request import urlretrieve

#获取要下载的url，存入urls。
urls=
for i in range(1,781):
url="https://materialsweb.org/static/inputs/mw-"+str(i)+"_POSCAR"
urls.append(url)

#undownloaded存储未被下载的链接，可后面下再次尝试下载。
undownloaded=
def download(url):
#下载url文件，如出现异常，输出“Not Found”。
try:
urlretrieve(url, url[39:])
except:
print('Not Found')
undownloaded.append(url)


def thread_pool(num):
#初始化线程池p，参数num为欲采用的线程数。
p = ThreadPool(num)
start_time = time.time
#p.map的第一个参数为函数名，第二个参数为存储函数对应的参数，应可迭代。
ret = p.map(download, urls)
p.close
p.join
print("thread_pool %d, costTime: %fs ret.size: %d" % (num, (time.time - start_time), len(ret)))

def process_pool(num):
#初始化进程池p，参数num为欲采用的进程数。
p = ProcessPool(num)
start_time = time.time
#p.map的第一个参数为函数名，第二个参数为存储函数对应的参数，应可迭代。 ret = p.map(download, urls)
p.close
p.join
print("process_pool %d, costTime: %fs ret.size: %d" % (num, (time.time - start_time), len(ret)))

if __name__ == "__main__":
#分别采用4,5,6,7,8个进程和线程进行爬取，可以比较结果，看谁最快。
for i in range(4, 9):
thread_pool(i)
process_pool(i)
print("=====")

略去"Not FOund", 运行结果如下：

thread_pool 4, costTime: 311.579127s ret.size: 780

process_pool 4, costTime: 340.535949s ret.size: 780

thread_pool 5, costTime: 251.317034s ret.size: 780

process_pool 5, costTime: 481.923806s ret.size: 780

thread_pool 6, costTime: 259.729788s ret.size: 780

process_pool 6, costTime: 214.018717s ret.size: 780

thread_pool 7, costTime: 187.721970s ret.size: 780

process_pool 7, costTime: 184.847098s ret.size: 780

thread_pool 8, costTime: 162.505511s ret.size: 780

process_pool 8, costTime: 190.380221s ret.size: 780

多线程多进程

上一篇：Java，多个CPU，多核CPU，多进程，多线程，进程调度
下一篇：AI实践:如何应用多进程Multiprocessing编程?

多线程与多进程爬取数据（多线程python爬虫）

相关推荐

取消回复欢迎你发表评论:

专业软文推广代发公司软文推广代理平台

VB6.0中SQL经典接法（vb sql语句）

一键生成通用高亮代码块到剪贴板，可粘贴到在线编辑器

十大免费的软文推广平台，帮助企业提高品牌知名度、曝光度

西门子触摸屏VBScript编程系列教程(1)——简介

QML性能优化的一些建议!（qml优缺点）

C++栈溢出攻击（栈溢出攻击）

链动2+1模式与推三返一模式:电商营销策略的融合与创新

高防CDN在游戏行业中的应用(提供稳定流畅的游戏体验)

开源调试器x64dbg-Browse/snapshots

多线程与多进程爬取数据（多线程python爬虫）

相关推荐

取消回复欢迎 你 发表评论:

专业软文推广代发公司 软文推广代理平台

VB6.0中SQL经典接法（vb sql语句）

一键生成通用高亮代码块到剪贴板，可粘贴到在线编辑器

十大免费的软文推广平台，帮助企业提高品牌知名度、曝光度

西门子触摸屏VBScript编程系列教程(1)——简介

QML性能优化的一些建议!（qml优缺点）

C++栈溢出攻击（栈溢出 攻击）

链动2+1模式与推三返一模式:电商营销策略的融合与创新

高防CDN在游戏行业中的应用(提供稳定流畅的游戏体验)

开源调试器x64dbg-Browse/snapshots

取消回复欢迎你发表评论:

专业软文推广代发公司软文推广代理平台

C++栈溢出攻击（栈溢出攻击）