[SCRIPT] 명령 한 번으로 Ubuntu에 Pyspark 환경 생성

0. INTRO

  • Spark는 대표적인 Data 분석 언어로 모국어(?)는 Scala지만 python, jave, R 등의 언어로도 충분히 기능들을 사용할 수 있도록 지원해주고 있다.
  • pip3 install pyspark로 라이브러리를 install 할 수 있지만 install 했다고 바로 사용할 수 있는 것은 아니다. Docker가 아닌 로컬에서 사용하기 위해서는 그에 맞도록 환경 구성도 되어야 하는데 이 과정이 약간 귀찮고 복잡할 수 있다. 아래 shell script를 통해 명령 한 번에 pyspark 환경을 구성해보자!

1. PYSPARK INSTALL SCRIPT

  • pyspark_install.sh
#!/bin/bash

# 1. 필요 패키지들 설치
sudo apt-get update
sudo apt-get install openjdk-8-jdk -y
sudo apt install python3-pip -y
sudo pip3 install findspark
sudo pip3 install jupyter
sudo pip3 install pyspark

# 2. spark 파일 저장
wget https://archive.apache.org/dist/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz

# 3. java 설치 경로 확인
readlink -f $(which java) >> java 설치 경로 확인

# 4. 환경변수 선언
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/
export SPARK_HOME=/home/ubuntu/pyspark/spark-3.1.2-bin-hadoop3.2

bash pyspark_install.sh

Leave a comment