'pyspark' 태그의 글 목록

pyspark 3

※ employees.csv를 spark DataFrame으로 읽은 후, 아래 질의를 수행 - 급여(Salary)가 5000이상인 50번 부서 소속의 직원들을 대상으로 이름, 부서번호, 급여액을 표시 employee_sdf = spark.read.csv('C:\\labs\\employees.csv', header = True, inferSchema = True) employee_sdf.printSchema() employee_sdf.show() # SQL을 사용한 결과 employee_sdf.createOrReplaceTempView('employees') spark.sql('SELECT LAST_NAME, DEPARTMENT_ID, SALARY FROM employees WHERE SALARY >= 5..

프로그래밍 2021.06.11

[pyspark] pyspark 프로그래밍 예제

※ 3행 3열의 정수 행렬을 생성하고, pandas DataFrame으로 로드한다. import pandas as pd import numpy as np matrix = pd.DataFrame(np.random.randint(0, 100, size = (3, 3)), columns = ['a', 'b', 'c']) matrix ※ pandas DataFrame을 다시 spark.DataFrame으로 변환하여 example.csv로 저장한다. sdf = spark.createDataFrame(matrix) sdf.show() sdf.toPandas().to_csv('C:\\labs\\random.csv', sep=',', index=False) ※ example.csv 파일을 읽어서 spark DataFr..

프로그래밍 2021.06.10

[Spark] Ubuntu 20.04 Spark

※ Apache Spark - RDD(Resilitent(유연한, 탄력적인) Distributed Dataset): 분산된 데이터를 처리할 수 있는 시스템 -> DataFrame으로 발전(가상의 테이블을 만들기 때문에 SQL을 적용할 수 있음) - MLlib: Machine Learning Library, 머신러닝이 가능한 모듈을 가지고 있음 - GraphFrame: 시각화도구 ※ 설치 1. File Download wget https://downloads.apache.org/spark/spark-3.0.2/spark-3.0.2-bin-hadoop3.2.tgz https://downloads.apache.org/spark/spark-3.0.2/ Index of /spark/spark-3.0.2 downl..

프로그래밍 2021.06.09

일상 정리하기

26살! 계획과 실행을 좋아합니다:) 소프트웨어 전공생

HTML, r, SQL, matplotlib, 실습, oracle, pyspark, Pandas, 로지스틱회귀분석, CSS, hive, SpringMVC, SQL튜닝, Python, spring, 빅데이터분석기사, 모델평가, jsp, PL/SQL, 회계관리,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

pyspark 3

티스토리툴바