百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术流 > 正文

SpringBatch-分区Step开发(大数据量批处理利器)

citgpt 2024-06-27 19:59 8 浏览 0 评论

适用版本

  1. SpringBatch 3.0.8

  2. Spring4.3

    SpringBatch-分区Step开发(大数据量批处理利器)

依赖:

本文中的示例依赖[SpringBath-使用MyBatis],我头条中另一篇文章

分区原理

如果任务需要处理的数据量非常大,单线程处理在性能上肯定不能满足要求,通常的做法是使用多线程,而SpringBatch中的ItemReader和ItemWriter因为要记录状态数据(以便任务可以重启)所以是线程不安全的,即使通过牺牲性能,将ItemReader改为线程安全(reader方法添加synchronized),也会牺牲SpringBatch的一些特性,比如任务重启。所以SpringBatch通过分区机制来解决大数据量的批处理任务。

根据分区策略将一个任务拆分为多个区,每个区有独立的数据读、处理、写操作。每个区由一个单独的线程来执行。

简单来说就是:将一张大表根据where条件拆分为N块,每一块都是一个线程来处理,每个线程都是独立的数据读、处理、写操作,每一块SpringBatch都独立记录状态数据,保证其重启等特性正常运转。

分区核心:分区策略

SpringBatch提供一个分区接口,我们需要根据实际情况来实现自己的分区逻辑。在分区策略实现中,将分区的标识放到ExecutionContext上下文中,ItemReader通过#{stepExecutionContext[自定义Key]}来从上下文中拿分区标识。

分区策略

分区策略

分区核心配置

关注点:

  • 分区需要单独配置一个Step,指定分区的个性,引用分区策略,引用数据读、处理、写的Step

  • 数据读、处理、写的Step配置在Job之外

  • 分区策略配置

  • 【关键点】在ItemReader中定义分区策略标识,用于将数据分为多个区:_minRecord和_maxRecord变量是分区策略类中定义的

分区配置1

分区配置2

运行结果

在BATCH_STEP_EXECUTION表中可以看到如下数据:partitionStep是XML中定义的定义名称,可以看到该步骤被拆分为partitionReadWriteDB:partition0,partitionReadWriteDB:partition1、partitionReadWriteDB:partition2三个区,分别执行和记录状态数据。

  • partitionStep记录了三个分区处理的总的结果:一共处理了10000条数据,提交数据库12次

  • partitionReadWriteDB:partition0分区:一共处理334条数据,提交数据库4次

处理结果

相关推荐

js中arguments详解

一、简介了解arguments这个对象之前先来认识一下javascript的一些功能:其实Javascript并没有重载函数的功能,但是Arguments对象能够模拟重载。Javascrip中每个函数...

firewall-cmd 常用命令

目录firewalldzone说明firewallzone内容说明firewall-cmd常用参数firewall-cmd常用命令常用命令 回到顶部firewalldzone...

epel-release 是什么

EPEL-release(ExtraPackagesforEnterpriseLinux)是一个软件仓库,它为企业级Linux发行版(如CentOS、RHEL等)提供额外的软件包。以下是关于E...

FullGC详解  什么是 JVM 的 GC
FullGC详解 什么是 JVM 的 GC

前言:背景:一、什么是JVM的GC?JVM(JavaVirtualMachine)。JVM是Java程序的虚拟机,是一种实现Java语言的解...

2024-10-26 08:50 citgpt

使用Spire.Doc组件利用模板导出Word文档
  • 使用Spire.Doc组件利用模板导出Word文档
  • 使用Spire.Doc组件利用模板导出Word文档
  • 使用Spire.Doc组件利用模板导出Word文档
  • 使用Spire.Doc组件利用模板导出Word文档
跨域(CrossOrigin)

1.介绍  1)跨域问题:跨域问题是在网络中,当一个网络的运行脚本(通常时JavaScript)试图访问另一个网络的资源时,如果这两个网络的端口、协议和域名不一致时就会出现跨域问题。    通俗讲...

微服务架构和分布式架构的区别

1、含义不同微服务架构:微服务架构风格是一种将一个单一应用程序开发为一组小型服务的方法,每个服务运行在自己的进程中,服务间通信采用轻量级通信机制(通常用HTTP资源API)。这些服务围绕业务能力构建并...

深入理解与应用CSS clip-path 属性
深入理解与应用CSS clip-path 属性

clip-pathclip-path是什么clip-path 是一个CSS属性,允许开发者创建一个剪切区域,从而决定元素的哪些部分可见,哪些部分会被隐...

2024-10-25 11:51 citgpt

HCNP Routing&Switching之OSPF LSA类型(二)
  • HCNP Routing&Switching之OSPF LSA类型(二)
  • HCNP Routing&Switching之OSPF LSA类型(二)
  • HCNP Routing&Switching之OSPF LSA类型(二)
  • HCNP Routing&Switching之OSPF LSA类型(二)
Redis和Memcached的区别详解
  • Redis和Memcached的区别详解
  • Redis和Memcached的区别详解
  • Redis和Memcached的区别详解
  • Redis和Memcached的区别详解
Request.ServerVariables 大全

Request.ServerVariables("Url")返回服务器地址Request.ServerVariables("Path_Info")客户端提供的路...

python操作Kafka

目录一、python操作kafka1.python使用kafka生产者2.python使用kafka消费者3.使用docker中的kafka二、python操作kafka细...

Runtime.getRuntime().exec详解

Runtime.getRuntime().exec详解概述Runtime.getRuntime().exec用于调用外部可执行程序或系统命令,并重定向外部程序的标准输入、标准输出和标准错误到缓冲池。...

promise.all详解 promise.all是干什么的
promise.all详解 promise.all是干什么的

promise.all详解promise.all中所有的请求成功了,走.then(),在.then()中能得到一个数组,数组中是每个请求resolve抛出的结果...

2024-10-24 16:21 citgpt

Content-Length和Transfer-Encoding详解
  • Content-Length和Transfer-Encoding详解
  • Content-Length和Transfer-Encoding详解
  • Content-Length和Transfer-Encoding详解
  • Content-Length和Transfer-Encoding详解

取消回复欢迎 发表评论: