spark

Spark 설치하기 in Linux - ubuntu

코드모헨 2023. 12. 22. 17:17

분산처리 프레임워크 Spark를 설치하는 법을 알아보자

 

과정

1. Spark 다운받기
2. linux 환경 변수 및 설정
3. spark 테스트

 

 

1. Spark 다운받기

linux에서 스파크를 다운 받기 위해서는 다양한 방법이있다.

 

1. gui를 사용가능하다면 https://spark.apache.org/downloads.html스파크 공식홈페이지에 접속하여 다운받으면 된다.

2. terminal을 이용하고자 한다면

wget https://dlcdn.apache.org/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz  

명령어를 이용하여 자신의 홈폴더에 다운받도록 하자.

 

 압축풀기

tar -xvf {spark-tgz file}

tar 커멘드를 통해 압축을 풀어주자. 

spark 3.5 버전 tgz 파일과 압축해제한 파일

 

spark-3.5.0-bin-hadoop3 이 directory가 이제 spark의 home directory가 될 것이다.

하지만 이름이 너무 기니 spark로 바꿔 주도록 하겠다.

mv명령어를 이용해 이름을 바꿔주면 된다.

 

2. 자바 다운로드

spark는 apache 재단에서 관리하는 프레임워크다

 

그렇다 apache재단 프레임 워크들의 특징인 jvm이 spark를 사용하는데 있어 필수다.

sudo apt-get install openjdk-8-jdk

 

터미널에 위의 명령어를 통해 쉽게 다운 받을 수있다.

 

자바를 설치 후

 which java

명령어를 통해 java의 설치 경로를 확인한다.

자바의 경로에서 jvm 바로 아래 경로 까지를 자신의 home .bashrc 혹은 (bash_profile)에 입력한다. 

예시) export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

※ 이 떄 /bin/을 포함해 뒤에 더 경로를 붙이면 안된다. 

자바는 23년 12월기준 21버전까지 있으나 보통 8,11,17 같이 LTS 버전들이 선호된다.

 

3. linux 환경변수 바꾸기

자신의 home directory에 있는 .bashrc 혹은 .bash_profile로 가서 환경변수를 등록해준다.

export SPARK_HOME=/home경로/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

 

$PATH:{파일 경로} , {파일 경로}:$PATH 이 두개의 차이는 {파일 경로}를 환경변수의 맨 뒤($PATH:경로) 혹은
맨 앞(경로:$PATH)에 저장한다는 차이가 있다. 리눅스의 환경변수는 언제나 맨 앞을 기준으로 읽어오기 때문에 혹시라도 자신이 환경 변수를 등록했는데도 제대로 작동이 안된다면 순서가 잘못되었는지 확인하길 바란다.

 

위의 설정을 저장한 뒤 

source .bashrc 

명령어를 통해 설정을 적용한다.

 

 

4. 실행 확인

스파크를 실행하는 방법은 여러가지지만 

spark-shell을 이용하여 spark의 정상 작동을 확인한다.

 

이런 글자가 뜨면 스파크가 정상적으로 실행된 것이다.

'spark' 카테고리의 다른 글

spark 와 db연동 하기  (0) 2025.01.22
spark memory 관리  (0) 2024.02.27
Repartiotion 방법  (0) 2024.02.16
Spark partition 이해하기  (1) 2024.02.16
자주사용되는 spark config  (0) 2024.02.13