프로그래밍
[Window Spark] Window OS에 Spark 설치
RainIron
2021. 6. 10. 11:36
반응형
※ 환경
Windows 10
Java version: 1.8.0_281
Python version: 3.8.5
RAM: 8.00GB
※ 설치
1. Apache Spark 다운로드
https://spark.apache.org/downloads.html
Downloads | Apache Spark
Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS. Note that, Spark 2.x is pre-built with Scala 2.11 except version 2.4.2, which is pre-built with Scala 2.12. Spar
spark.apache.org
2. 압축 해제 후, C:/spark/에 위치
3. wintuils.exe File을 추가(https://github.com/cdarlint/winutils)
Hadoop이 Linux 기반에서 돌아가는 시스템이기 때문에, 호환하기 위해 프로그램 추가
C:/hadoop/bin에 파일 추가(없다면 디렉터리를 생성하고 추가)
4. 환경변수 설정
- SPARK_HOME 환경변수 추가
- HADOOP_HOME 환경변수 추가
- 기존 PATH에도 추가(%SPARK_HOME%\bin, %HADOOP_HOME%\bin)
5. cmd 창을 관리자 권한으로 열고, spark-shell 실행
or pyspark 실행
6. Test
rdd = spark.sparkContext.textFile('/labs/sample.txt')
rdd.collect()
7. Jupyter Notebook 연동
- 환경 변수 추가
PYSPARK_DRIVER_PYTHON = "jupyter"
PYSPARK_DRIVER_PYTHON_OPTS = "notebook"
- Anaconda Prompt에서 아래와 같이 입력
$ python -m pip install findspark
반응형