Python 데이터분석 기초 1 - Numpy(합, 평균, 분산, 표준편차)

코딩탕탕 2022. 10. 28. 13:00

# Numpy는 C언어로 구현된 파이썬 라이브러리로써, 고성능의 수치계산과 선형대수학을 위해 제작되었다.
# Numerical Python의 줄임말이기도 한 Numpy는 벡터 및 행렬 연산에 있어서 매우 편리한 기능을 제공한다.

grades = [1, 3, -2, 4] # 변량

def grades_sum(grades): # 합을 구하는 함수
    tot = 0
    for g in grades:
        tot += g
    return tot

def grades_avg(grades): # 평균값을 구하는 함수
    tot = grades_sum(grades)
    ave = tot / len(grades)
    return ave

def grades_variance(grades): # 편차제곱의 평균 : 분산
    ave = grades_avg(grades)
    vari = 0
    for su in grades:
        vari += (su - ave) ** 2 # 요소 - 평균값  제곱근은 ** 이다
    return vari / len(grades)   # 평균값 / 요소갯수(파이썬 방법)
    # return vari / (len(grades) - 1) # R은 자유도를 사용한다.

def grades_std(grades):
    return grades_variance(grades) ** 0.5 # 루트는 ** 0.5이다.

print('합은', grades_sum(grades))
print('평균은', grades_avg(grades))
print('분산은', grades_variance(grades))
print('표준편차는', grades_std(grades))

print('numpy 함수 사용')

import numpy

print('합은', numpy.sum(grades))
print('평균은', numpy.mean(grades))
print('분산은', numpy.var(grades))
print('표준편차는', numpy.std(grades))

<console>
합은 6
평균은 1.5
분산은 5.25
표준편차는 2.29128784747792
numpy 함수 사용
합은 6
평균은 1.5
분산은 5.25
표준편차는 2.29128784747792

Numpy는 고성능의 수치계산과 선형대수학을 위해 제작된 라이브러리이다. 이것을 사용하면 위처럼 함수를 만들지 않아도 사용하기 편리하다.

제곱근 = ** 2

루트 = ** 0.5

R에서는 분산을 구할 때 요소갯수 - 1(자유도)로 나누지만 Python에서는 요소갯수로 나눈다.