hive 3

[Sqoop] Ubuntu 20.04 Sqoop 활용(2) - 예시

※ 요구사항 1. Hive를 통해 HDFS에 로컬 파일을 저장한다. 2. MySQL로 확인했을 때, HDFS에 있는 파일을 테이블로 읽어들일 수 있어야 한다. 3. HDFS에 저장한 로컬 파일을 삭제한다. 4. Sqoop을 사용하여 MySQL에 있는 데이터를 Hive를 거쳐 HDFS 영역에 다시 저장한다. 0. CSV파일 전처리 기존 파일을 확인하니 오타가 있어서 이를 처리하기 위해, 전처리를 시행 import sys import csv with open('biostats.csv', 'w', newline='') as f: writer = csv.writer(f) header = sys.stdin.readline(); for line in sys.stdin.readlines(): tmp_list = li..

프로그래밍 2021.06.08

[Hive] MySQL 설치 - Hive 연동

※ MySQL 설치 OS: ubuntu 20.04 1. MySQL Application repository 설치 $ wget https://dev.mysql.com/get/mysql-apt-config_0.8.16-1_all.deb -> 파일 다운로드(wget 명령어 사용) $ sudo dpkg -i mysql-apt-config_0.8.16-1_all.deb -> 압축 해제 2. Ubuntu Server update $ sudo apt update * MySQL 8.0 정책 확인 $ sudo apt-cache policy mysql-server 3. MySQL 8.0 설치 $ sudo apt install mysql-client mysql-community-server mysql-server -> Ro..

프로그래밍 2021.06.04

[Hive] Hive 설치 및 환경 조성

※ Hive(Hadoop Ecosystem) - 대용량 분산환경에서 데이터 처리(통계 함수 등)를 할 수 있는 프레임워크 - 사용 언어: HiveQL(Hive SQL) - HiveQL을 사용하면 MapReduce 코드 생성/실행 - HiveQL을 사용하여 데이터 추가하면 HDFS에 파일 데이터로 저장 - derby, MySQL: Metadata 저장하는 용도 - HiveQL을 이용하여 DB 사용하듯이 할 수 있지만 결국 HDFS 영역에 파일로 저장된다 ※ Hive 설치 및 환경 설정 1. wget https://downloads.apache.org/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz 파일 다운로드 및 압축 해제 2. .bashrc에 환경 변수 추가 $ nano..

프로그래밍 2021.06.02