Python 10

[Python] Text Data Analysis(2)

※ 한글 형태소 분석 * Hannanum * Kkma * Okt * KoNLPy 1. Hannanum from konlpy.tag import Hannanum han = Hannanum() 이 때, " SystemError: java.nio.file.InvalidPathException: Illegal char at index 55: C:\ProgramData\Anaconda3\Lib\site-packages\konlpy\java\* " 라고 에러가 발생하는 경우가 있다. 그럴 때, 아래 단계대로 수행하여 해결하자. 1) JPype를 설치 2) https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 3) JPype1-1.2.0-cp38-cp38-win_amd64.whl ..

프로그래밍 2021.06.06

[Python] Matplotlib 활용(1)

1. Import import matplotlib.pyplot as plt import pandas as pd import numpy as np 2. plt.plot() plt.plot([1, 2, 3, 4]) plt.show() 예시) x, y를 산점도로 표현(x: 0~100 임의의 정수 100개, y: 0~10 임의의 정수 100개) x = np.random.randint(0, 100, 100) y = np.random.randint(0, 10, 100) plt.plot(x, y, 'bo') plt.show() * 정규분포를 구성하는 데이터 1000개를 산점도로 표시(평균 0, 표준편차 1) normal_x = np.arange(1000) normal_y = np.random.randn(1000) p..

프로그래밍 2021.05.09

[Python] Data Aggregation

1. Import import pandas as pd import numpy as np 2. Groupby * DataFrame.groupby(그룹으로 묶고 싶은 컬럼) SQL로 group으로 묶을 경우 Avg, Sum, Mean, Count 등의 함수를 썼듯이, 마찬가지로 보고 싶은 집계 함수를 써야한다. => return Series emp = pd.DataFrame({'num': [1, 2, 3, 4, 5], 'name': ['smith', 'kali', 'timo', 'echo', 'shco'], 'deptno': [10, 10, 20, 20, 50], 'salary': [1000, 2000, 4000, 5000, 10000]}) deptno_salary = emp['salary'].groupby..

프로그래밍 2021.05.09

[Python] Pandas Library(Series)(2)

7. 공분산과 상관계수 * 공분산(Covariance): 2개의 확률변수의 선형 관계를 나타내는 값 - cov > 0 : 관계있음 - cov = 0 : 관계없음 - cov < 0 : 관계없음 - cov가 0보다 클 경우에만 유의한 정보로 활용될 수 있다. 단, 관계의 강도를 알 수 없다. * 상관계수(Correlation): 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관관계의 정도를 수치적으로 나타낸 값 - 0 < corr < 1: 양의 상관관계 - corr = 0: 서로 독립적 - -1 < corr < 0 : 음의 상관관계 - 상관계수를 통해 관계의 강도를 측정할 수 있다. ser1 = pd.Series(np.random.randint(50, size = 100)) ser2 = pd.Seri..

프로그래밍 2021.05.06

[Python] Pandas Library 활용(Series)(1)

1. Import import pandas as pd # as pd는 pandas를 줄여서 간편하게 쓰기 위해 지칭하는 것 2. Series(1) Index라는 구조가 추가된 자료구조 Series 구조 Index Value 0 42 1 24 2 17 3 3 a = pd.Series([42, 24, 17, 3]) b = pd.Series([42, 24, 17, 3], index=['a', 'b', 'c', 'd']) ''' a 42 b 24 c 17 d 3 ''' b.values ''' array([42, 24, 17, 3], dtype=int64) ''' b.index ''' Index(['a', 'b', 'c', 'd'], dtype='object') ''' print(b[0]) print(b['a']..

프로그래밍 2021.05.05