百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术流 > 正文

爬虫入门必学:多线程与多进程的区别

citgpt 2024-09-09 02:15 8 浏览 0 评论

爬虫刚入门的童鞋,往往搞不清楚,什么是多线程,什么是多进程。

进程(process)和线程(thread)是操作系统的基本概念,但是它们比较抽象,确实不容易掌握。

爬虫入门必学:多线程与多进程的区别

线程是程序中一个单一的顺序控制流程。进程内一个相对独立的、可调度的执行单元,是系统独立调度和分派CPU的基本单位指运行中的程序的调度单位。在单个程序中同时运行多个线程完成不同的工作,称为多线程。

一个进程中可以包含若干个线程,它们可以利用进程所拥有的资源,在引入线程的操作系统中,通常都是把进程作为分配资源的基本单位,而把线程作为独立运行和独立调度的基本单位。

由于线程比进程更小,基本上不拥有系统资源,故对它的调度所付出的开销就会小得多,能更高效地提高系统内多个程序间并发执行的程度,从而显著提高系统资源的利用率和吞吐量。

关于进程和线程,最经典的一句话是:

“进程是资源分配的最小单位,线程是CPU调度的最小单位”。

举个简单的例子:

在一台计算机中,我们可以同时打开许多软件,比如开一个浏览器,这就打开了一个浏览器进程;在浏览器中打开了网页,有的网页在播放电影、有的网页显示新闻、有的网页在聊天,它们可以同时运行,互不干扰,这就是浏览器的多个线程。

爬虫中线程与进程的关系如下图所示:


那什么场景下需要使用多进程、多线程呢?

1.采集的网站数据量很多

当要采集的网站数据量很大时,可使用多线程采集,成倍提高采集速度。

2.采集多个网站数据

想快速同时采集多个网站时,可使用多线程、多进程进行采集,既能降低服务器的压力,又能提高采集效率。


ForeSpider数据采集分析引擎,采用全C++编写的自研内核,可以实现高性能高效率快速采集。用户可自行设置采集线程数和进程数,既可开多个线程进行采集,也可同时打开多个进程进行采集,实现快速采集海量网站数据,大大提高采集速度。



在ForeSpider爬虫软件中,线程数目越大,采集速度越大。一个爬虫客户端运行的时候,占用的操作系统资源,线程设置的越高,采集越快,但CPU和内存占用率越高,使用者可根据自身机器配置适当设置。

ForeSpider爬虫服务器版本最多可开16个进程,多进程同时采集可智能并行分配采集任务。


ForeSpider采集速度如下所示:

①笔记本电脑400万条/天

注:此速度为理论情况下的客观数据,是指对方网站的带宽正常,下载爬虫的电脑带宽正常,采集的网站不防爬的情况下

②服务器4000万条/天

注:服务器分为单机多进程和多机多进程,次数据指的是单机多进程,2G内存对应一个进程,现规定每台服务器最多开16个进程。

③台式机单机采集能力可达4000-8000万,日采集能力超过500万。服务器集群环境的采集能力可达8亿-16亿,日采集能力超过4000万。并行情况下可支撑百亿以上规模数据链接,堪与百度等搜索引擎系统媲美。


l 前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!

相关推荐

js中arguments详解

一、简介了解arguments这个对象之前先来认识一下javascript的一些功能:其实Javascript并没有重载函数的功能,但是Arguments对象能够模拟重载。Javascrip中每个函数...

firewall-cmd 常用命令

目录firewalldzone说明firewallzone内容说明firewall-cmd常用参数firewall-cmd常用命令常用命令 回到顶部firewalldzone...

epel-release 是什么

EPEL-release(ExtraPackagesforEnterpriseLinux)是一个软件仓库,它为企业级Linux发行版(如CentOS、RHEL等)提供额外的软件包。以下是关于E...

FullGC详解  什么是 JVM 的 GC
FullGC详解 什么是 JVM 的 GC

前言:背景:一、什么是JVM的GC?JVM(JavaVirtualMachine)。JVM是Java程序的虚拟机,是一种实现Java语言的解...

2024-10-26 08:50 citgpt

使用Spire.Doc组件利用模板导出Word文档
  • 使用Spire.Doc组件利用模板导出Word文档
  • 使用Spire.Doc组件利用模板导出Word文档
  • 使用Spire.Doc组件利用模板导出Word文档
  • 使用Spire.Doc组件利用模板导出Word文档
跨域(CrossOrigin)

1.介绍  1)跨域问题:跨域问题是在网络中,当一个网络的运行脚本(通常时JavaScript)试图访问另一个网络的资源时,如果这两个网络的端口、协议和域名不一致时就会出现跨域问题。    通俗讲...

微服务架构和分布式架构的区别

1、含义不同微服务架构:微服务架构风格是一种将一个单一应用程序开发为一组小型服务的方法,每个服务运行在自己的进程中,服务间通信采用轻量级通信机制(通常用HTTP资源API)。这些服务围绕业务能力构建并...

深入理解与应用CSS clip-path 属性
深入理解与应用CSS clip-path 属性

clip-pathclip-path是什么clip-path 是一个CSS属性,允许开发者创建一个剪切区域,从而决定元素的哪些部分可见,哪些部分会被隐...

2024-10-25 11:51 citgpt

HCNP Routing&Switching之OSPF LSA类型(二)
  • HCNP Routing&Switching之OSPF LSA类型(二)
  • HCNP Routing&Switching之OSPF LSA类型(二)
  • HCNP Routing&Switching之OSPF LSA类型(二)
  • HCNP Routing&Switching之OSPF LSA类型(二)
Redis和Memcached的区别详解
  • Redis和Memcached的区别详解
  • Redis和Memcached的区别详解
  • Redis和Memcached的区别详解
  • Redis和Memcached的区别详解
Request.ServerVariables 大全

Request.ServerVariables("Url")返回服务器地址Request.ServerVariables("Path_Info")客户端提供的路...

python操作Kafka

目录一、python操作kafka1.python使用kafka生产者2.python使用kafka消费者3.使用docker中的kafka二、python操作kafka细...

Runtime.getRuntime().exec详解

Runtime.getRuntime().exec详解概述Runtime.getRuntime().exec用于调用外部可执行程序或系统命令,并重定向外部程序的标准输入、标准输出和标准错误到缓冲池。...

promise.all详解 promise.all是干什么的
promise.all详解 promise.all是干什么的

promise.all详解promise.all中所有的请求成功了,走.then(),在.then()中能得到一个数组,数组中是每个请求resolve抛出的结果...

2024-10-24 16:21 citgpt

Content-Length和Transfer-Encoding详解
  • Content-Length和Transfer-Encoding详解
  • Content-Length和Transfer-Encoding详解
  • Content-Length和Transfer-Encoding详解
  • Content-Length和Transfer-Encoding详解

取消回复欢迎 发表评论: