일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- boj
- Spring #Java #Spring Boot #싱글톤
- kakaocloudschool
- Java #코딩테스트
- 11054
- 백준
- 알고리즘
- sequelize
- 15552
- Spring #Java #Spring Boot #@BeforeEach #@AfterEach
- SpringTokenizer
- node
- java
- kakaocloud
- 11053
- 카카오클라우드스쿨
- 2447
- 1110
- 파이썬
- Spring #Spring Boot #Java
- 24479
- 카카오 클라우드 스쿨
- 9020
- Java #오븐시계 #백준
- Spring
- Java #백준 #코딩테스트
- 코딩테스트
- Spring #Java #Spring Boot
- 7568
- python
- Today
- Total
YoungSoo
Spring Batch 본문
스프링 배치(Spring Batch)는 대량의 데이터 처리를 위한 오픈 소스 배치 처리 프레임워크입니다. 스프링 프레임워크의 일부로 개발되어, 스프링의 모든 장점을 갖고 있습니다. 스프링 배치는 대용량 데이터 처리를 위해 설계되어 있으며, 일괄 처리, 마이그레이션, ETL(Extract, Transform, Load) 등 다양한 비즈니스 처리 작업을 수행할 수 있습니다.
스프링 배치는 Job, Step, Tasklet, Chunk 등의 요소로 이루어져 있습니다. Job은 배치 처리를 수행하는 최상위 개념이며, 하나 이상의 Step으로 이루어져 있습니다. Step은 배치 처리 과정에서 실행될 단위 작업을 말하며, Tasklet 또는 Chunk로 구성됩니다. Tasklet은 단일 작업으로 구성된 Step을 위한 인터페이스입니다. Chunk는 Step을 여러 개의 작은 덩어리로 분할하여 처리하는 방식으로, 대용량 데이터를 처리하는 데 유리합니다.
스프링 배치는 다양한 기능을 제공하며, 높은 확장성과 유연성을 가지고 있습니다. 또한, 대용량 데이터 처리에 최적화된 아키텍처를 제공하여, 안정적인 성능을 보장합니다. 스프링 배치를 사용하면 비즈니스 처리 과정에서 발생하는 오류나 예외 상황을 처리하고, 재시작 기능을 통해 중단된 작업을 다시 시작할 수 있습니다.
Spring Batch의 장점
- 대용량 데이터 처리를 위한 효율적인 방법을 제공합니다.
- 작업의 실행 상태를 관리하고 모니터링할 수 있습니다.
- 복구 가능한 작업을 제공하며, 중단된 작업을 복원하거나 재시작할 수 있습니다.
- 다양한 작업 실행 전/후 처리 기능을 제공합니다.
- 다양한 데이터 소스(데이터베이스, 파일, 메시지 큐 등)와의 연동을 지원합니다.
따라서 대규모 데이터 처리가 필요한 시스템에서는 스프링 배치를 사용하여 안정적이고 효율적인 일괄 처리를 구현할 수 있습니다.
Spring Batch의 주요 용어
Job은 배치처리 과정을 하나의 단위로 만들어 놓은 객체입니다. 또한 배치처리 과정에 있어 전체 계층 최상단에 위치하고 있습니다.
Step은 한번에 처리될 하나의 덩어리라고 생각하면 됩니다. Step은 Tasklet이나 Chunk로 구성될 수 있습니다.
Tasklet은 Step을 구성하는 간단한 단일 작업입니다. Tasklet은 Step의 시작과 끝에서 실행되며, 처리하는 데이터가 없습니다. Tasklet은 Spring Batch에서 주어진 작업을 수행하기 위한 인터페이스를 구현하며, 간단한 처리 로직을 담을 수 있습니다. 예를 들어, 파일을 삭제하는 등의 단순한 작업에 적합합니다.
Chunk는 Step을 여러 개의 작은 덩어리로 분할하여 처리하는 방식입니다. Chunk는 Reader에서 데이터를 읽어와 Processor에서 가공한 후, Writer에서 DB에 저장하는 방식으로 데이터를 처리합니다. 한번에 처리될 덩어리의 크기는 chunk size로 설정할 수 있으며, 일반적으로 대량의 데이터를 처리하는 데 유리합니다. Chunk 방식은 대용량 데이터를 효율적으로 처리할 수 있으며, 오류 발생 시 해당 청크에서만 롤백할 수 있어 안전성을 보장합니다.
JobRepository는 다양한 저장소와 연동이 가능하며, 기본적으로는 데이터베이스를 사용합니다. 데이터베이스를 사용하는 경우, Spring Batch는 테이블 생성 스크립트를 제공하며, 해당 테이블을 사용하여 Job 및 Step 관련 데이터를 저장합니다.
JobParameter는 Job 실행 시 외부에서 전달되는 파라미터를 의미합니다. JobParameter를 사용하면 Job 실행 시에 외부에서 전달되는 파라미터를 동적으로 변경할 수 있습니다. JobParameter는 ExecutionContext에 저장되어 Job 실행 중에도 참조할 수 있습니다.
JobExecution은 Job을 실행하는 동안 JobInstance와 JobParameters를 추적하고, Job의 실행 상태와 관련된 정보를 제공합니다. 이 정보에는 JobExecution의 시작 시간, 종료 시간, 실행 상태, 실패 이유 등이 포함됩니다. 또한 JobExecution은 Job의 실행 상태를 추적하기 위해 StepExecution 객체들의 집합을 포함하고 있습니다.
StepExecution은 Step의 실행 상태를 나타내는 객체입니다. Step을 실행할 때마다 StepExecution 객체가 생성되며, Step 실행 중에 발생하는 정보와 상태를 담고 있습니다. StepExecution 객체는 JobExecution과 마찬가지로 ExecutionContext를 가지고 있습니다. StepExecution은 JobRepository에 저장되어 Job 재시작 시 실행 정보를 유지하고 관리합니다.
ExecutionContext는 StepExecution과 JobExecution의 실행 상태를 담고 있는 Map 객체입니다. ExecutionContext는 JobRepository를 통해 저장되며, Job과 Step 간에 데이터를 공유하기 위해 사용됩니다. ExecutionContext는 JobParameter와 함께 사용되어 JobExecution과 StepExecution이 실행되는 동안 필요한 모든 데이터를 저장하고 공유할 수 있습니다. ExecutionContext를 사용하여 JobExecution과 StepExecution 사이에서 데이터를 공유하거나 Job 또는 Step의 상태를 관리할 수 있습니다.
ItemReader는 데이터베이스, 파일, 메시지 큐 등의 다양한 소스에서 데이터를 읽어와서 ItemProcessor나 ItemWriter로 전달하는 역할을 수행합니다.
ItemProcessor는 ItemReader로부터 읽은 하나의 아이템을 가공하고 필요한 데이터를 추출하여 ItemWriter에 전달하는 역할을 합니다. Java에서 제공하는 함수형 인터페이스인 Function을 구현하거나, 람다식으로 작성됩니다. 이를 통해 ItemProcessor는 단순하게 데이터를 가공하거나 복잡한 비즈니스 로직을 수행할 수 있습니다.
ItemWriter는 ItemProcessor로부터 전달받은 데이터를 실제 저장소(예: 데이터베이스, 파일 등)에 쓰는 역할을 합니다. 대개 데이터 저장소와 관련된 API를 사용하여 데이터를 저장합니다.
Spring Batch의 동작 원리
스프링 배치의 동작 원리는 크게 3가지 단계로 구분됩니다.
- Job Configuration 첫 번째 단계는 Job을 구성하는 것입니다. Job은 하나 이상의 Step으로 구성됩니다. 각 Step은 하나 이상의 Tasklet 또는 Chunk로 구성됩니다. Job Configuration 단계에서는 스프링 배치가 사용할 각각의 Job, Step, Tasklet, Chunk 등을 설정합니다.
- Job Execution 두 번째 단계는 Job을 실행하는 것입니다. Job을 실행하기 위해서는 JobLauncher 인터페이스를 이용해 Job을 실행해야 합니다. JobLauncher는 JobExecution을 생성하고, JobRepository에 JobExecution을 저장합니다. 이후 JobExecution을 실행하는데 필요한 Job, Step, Tasklet, Chunk 등의 정보를 읽어와 실제 작업을 수행합니다.
- Job Repository 세 번째 단계는 Job의 실행 상태와 관련된 정보를 JobRepository에 저장하는 것입니다. JobRepository는 Job의 실행 상태, JobExecution의 상태, StepExecution의 상태 등을 저장합니다. 이 정보는 Job 실행 중에 사용되며, Job이 완료된 후에는 JobRepository에서 삭제됩니다.
스프링 배치는 이러한 단계들을 순차적으로 진행하며, 이를 통해 대량의 데이터 처리를 안정적으로 수행할 수 있습니다. 각각의 단계에서는 다양한 기능을 제공하여 작업의 실행 상태를 관리하고 모니터링할 수 있습니다. 또한, 복구 가능한 작업을 제공하며, 중단된 작업을 복원하거나 재시작할 수 있습니다.
'BE > Spring' 카테고리의 다른 글
Spring-Data-Jpa의 saveAll()과 Dirty Checking (0) | 2023.04.10 |
---|---|
왜 Spring Batch를 사용해야할까? (0) | 2023.04.10 |
Spring의 DB (0) | 2023.03.23 |
Spring? (0) | 2023.03.22 |
Spring MVC의 구조와 흐름 (0) | 2023.03.22 |