IT 정리/아파치 스파크

DF과 SparkSQL 소개

유정임 2026. 5. 1. 14:22

Spark Dataframe 이란?

: 기존의 pandas dataframe처럼 행과 열로 이루어진 테이블구조이지만, 내부적으로는 대용량 데이터를 여러 컴퓨터에 나누어 담아 빠르게 처리할 수 있는 분산 데이터 시스템

 

스파크 데이터프레임의 특징

  • Schema Support
    • 컬럼에 대한 이름과 타입을 알기 때문에, 쉽게 접근하고 표현할 수 있음
  • Lazy Evaluation
    • 데이터를 작업하기 전에 실현화하지 않음
  • Distributed and Parallel Processing
    • 분산 시스템을 사용할 수 있게 함
  • Optimization
    • 쿼리 실행 계획을 자동으로 최적화
  • Integration
    • 추출 : DF - High level(structured) | RDD - low level(key-value pairs)
    • 사용 용이성 : DF - Simple | RDD - requires more effort to use
    • 사용 사례 : DF - 정형/반정형 데이터 | RDD - 비정형

SparkSQL  이란?

- 기존 SQL구문을 스파크 위에서 그대로 실행할 수 있게 해줌

 

SparkSQL의 이점

  • Ease of Use
    • 기존 SQL을 알고 있다면 쉽게 사용 가능
  • Integration with Spark
    • 쿼리 결과를 DF와 Dataset API와 쉽게 통합 가능
  • Performance
    • optimzer가 자동으로 바꾸기 때문에 보다 빠르게 처리 가능
  • Flexibility
    • 다양한 데이터 포맷을 처리하고 외부 데이터베이스와 통합
  • Unified Analytics
    • 대규모 분석을 위해 SQL의 직관적인 표현력과 스파크의 강력한 분산 컴퓨팅 능력을 하나로 결합

 

'IT 정리 > 아파치 스파크' 카테고리의 다른 글

SparkSQL 기초(2)  (0) 2026.05.04
SparkSQL 기초(1)  (0) 2026.05.03
Spark 기초(2)  (0) 2026.05.01
Spark 기초(1)  (0) 2026.05.01
Spark 환경 설정  (0) 2026.04.30