pyspark 3

[pyspark] pyspark 프로그래밍 예제2

※ employees.csv를 spark DataFrame으로 읽은 후, 아래 질의를 수행 - 급여(Salary)가 5000이상인 50번 부서 소속의 직원들을 대상으로 이름, 부서번호, 급여액을 표시 employee_sdf = spark.read.csv('C:\\labs\\employees.csv', header = True, inferSchema = True) employee_sdf.printSchema() employee_sdf.show() # SQL을 사용한 결과 employee_sdf.createOrReplaceTempView('employees') spark.sql('SELECT LAST_NAME, DEPARTMENT_ID, SALARY FROM employees WHERE SALARY >= 5..

프로그래밍 2021.06.11

[pyspark] pyspark 프로그래밍 예제

※ 3행 3열의 정수 행렬을 생성하고, pandas DataFrame으로 로드한다. import pandas as pd import numpy as np matrix = pd.DataFrame(np.random.randint(0, 100, size = (3, 3)), columns = ['a', 'b', 'c']) matrix ※ pandas DataFrame을 다시 spark.DataFrame으로 변환하여 example.csv로 저장한다. sdf = spark.createDataFrame(matrix) sdf.show() sdf.toPandas().to_csv('C:\\labs\\random.csv', sep=',', index=False) ※ example.csv 파일을 읽어서 spark DataFr..

프로그래밍 2021.06.10

[Spark] Ubuntu 20.04 Spark

※ Apache Spark - RDD(Resilitent(유연한, 탄력적인) Distributed Dataset): 분산된 데이터를 처리할 수 있는 시스템 -> DataFrame으로 발전(가상의 테이블을 만들기 때문에 SQL을 적용할 수 있음) - MLlib: Machine Learning Library, 머신러닝이 가능한 모듈을 가지고 있음 - GraphFrame: 시각화도구 ※ 설치 1. File Download wget https://downloads.apache.org/spark/spark-3.0.2/spark-3.0.2-bin-hadoop3.2.tgz https://downloads.apache.org/spark/spark-3.0.2/ Index of /spark/spark-3.0.2 downl..

프로그래밍 2021.06.09