Spark Dataframe 이란?
: 기존의 pandas dataframe처럼 행과 열로 이루어진 테이블구조이지만, 내부적으로는 대용량 데이터를 여러 컴퓨터에 나누어 담아 빠르게 처리할 수 있는 분산 데이터 시스템
스파크 데이터프레임의 특징
- Schema Support
- 컬럼에 대한 이름과 타입을 알기 때문에, 쉽게 접근하고 표현할 수 있음
- Lazy Evaluation
- 데이터를 작업하기 전에 실현화하지 않음
- Distributed and Parallel Processing
- 분산 시스템을 사용할 수 있게 함
- Optimization
- 쿼리 실행 계획을 자동으로 최적화
- Integration
- 추출 : DF - High level(structured) | RDD - low level(key-value pairs)
- 사용 용이성 : DF - Simple | RDD - requires more effort to use
- 사용 사례 : DF - 정형/반정형 데이터 | RDD - 비정형
SparkSQL 이란?
- 기존 SQL구문을 스파크 위에서 그대로 실행할 수 있게 해줌
SparkSQL의 이점
- Ease of Use
- 기존 SQL을 알고 있다면 쉽게 사용 가능
- Integration with Spark
- 쿼리 결과를 DF와 Dataset API와 쉽게 통합 가능
- Performance
- optimzer가 자동으로 바꾸기 때문에 보다 빠르게 처리 가능
- Flexibility
- 다양한 데이터 포맷을 처리하고 외부 데이터베이스와 통합
- Unified Analytics
- 대규모 분석을 위해 SQL의 직관적인 표현력과 스파크의 강력한 분산 컴퓨팅 능력을 하나로 결합
'IT 정리 > 아파치 스파크' 카테고리의 다른 글
| SparkSQL 기초(2) (0) | 2026.05.04 |
|---|---|
| SparkSQL 기초(1) (0) | 2026.05.03 |
| Spark 기초(2) (0) | 2026.05.01 |
| Spark 기초(1) (0) | 2026.05.01 |
| Spark 환경 설정 (0) | 2026.04.30 |