DF과 SparkSQL 소개

IT 정리/아파치 스파크

유정임 2026. 5. 1. 14:22

: 기존의 pandas dataframe처럼 행과 열로 이루어진 테이블구조이지만, 내부적으로는 대용량 데이터를 여러 컴퓨터에 나누어 담아 빠르게 처리할 수 있는 분산 데이터 시스템

스파크 데이터프레임의 특징

Schema Support
- 컬럼에 대한 이름과 타입을 알기 때문에, 쉽게 접근하고 표현할 수 있음
Lazy Evaluation
- 데이터를 작업하기 전에 실현화하지 않음
Distributed and Parallel Processing
- 분산 시스템을 사용할 수 있게 함
Optimization
- 쿼리 실행 계획을 자동으로 최적화
Integration
- 추출 : DF - High level(structured) | RDD - low level(key-value pairs)
- 사용 용이성 : DF - Simple | RDD - requires more effort to use
- 사용 사례 : DF - 정형/반정형 데이터 | RDD - 비정형

- 기존 SQL구문을 스파크 위에서 그대로 실행할 수 있게 해줌

SparkSQL의 이점

기록기록기룩끼룩끼룩

손들엇

기록기록기룩끼룩끼룩