Pandas 5

[Python] Data Aggregation

1. Import import pandas as pd import numpy as np 2. Groupby * DataFrame.groupby(그룹으로 묶고 싶은 컬럼) SQL로 group으로 묶을 경우 Avg, Sum, Mean, Count 등의 함수를 썼듯이, 마찬가지로 보고 싶은 집계 함수를 써야한다. => return Series emp = pd.DataFrame({'num': [1, 2, 3, 4, 5], 'name': ['smith', 'kali', 'timo', 'echo', 'shco'], 'deptno': [10, 10, 20, 20, 50], 'salary': [1000, 2000, 4000, 5000, 10000]}) deptno_salary = emp['salary'].groupby..

프로그래밍 2021.05.09

[Python] Pandas Library(Series)(2)

7. 공분산과 상관계수 * 공분산(Covariance): 2개의 확률변수의 선형 관계를 나타내는 값 - cov > 0 : 관계있음 - cov = 0 : 관계없음 - cov < 0 : 관계없음 - cov가 0보다 클 경우에만 유의한 정보로 활용될 수 있다. 단, 관계의 강도를 알 수 없다. * 상관계수(Correlation): 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관관계의 정도를 수치적으로 나타낸 값 - 0 < corr < 1: 양의 상관관계 - corr = 0: 서로 독립적 - -1 < corr < 0 : 음의 상관관계 - 상관계수를 통해 관계의 강도를 측정할 수 있다. ser1 = pd.Series(np.random.randint(50, size = 100)) ser2 = pd.Seri..

프로그래밍 2021.05.06

[Python] Pandas Library 활용(Series)(1)

1. Import import pandas as pd # as pd는 pandas를 줄여서 간편하게 쓰기 위해 지칭하는 것 2. Series(1) Index라는 구조가 추가된 자료구조 Series 구조 Index Value 0 42 1 24 2 17 3 3 a = pd.Series([42, 24, 17, 3]) b = pd.Series([42, 24, 17, 3], index=['a', 'b', 'c', 'd']) ''' a 42 b 24 c 17 d 3 ''' b.values ''' array([42, 24, 17, 3], dtype=int64) ''' b.index ''' Index(['a', 'b', 'c', 'd'], dtype='object') ''' print(b[0]) print(b['a']..

프로그래밍 2021.05.05