코드잇

[기초 통계와 시각화]

봉그리봉봉 2024. 7. 5. 04:43

📊 통계 

어떤 상황을 쉽게 이해할 수 있도록 숫자로 정리하는 것

기술 통계 : 기술하다에 집중 

describe : 기술하다

descriptive statistics: 기술 통계

ex _ 배달 별점, 타율, 백분율에 따른 등급

 

 

 

 

 

 


앞으로 사용할  Seaborn : statistical Data Visualization

: 통계 기반 데이터 시각화 툴 


01. 통계 기본 상식

수치형 데이터 : Numerical data 
계산과 크고 작음을 비교 가능

 

평균 : average

중간값 : median 

정렬 후 중간에 있는 값

 

median을 기준으로 양 옆을 또 다시 median

그러면

1사분위 수(25%) , 3사분위수(75%/)

4수분위 수 = 최댓값 100 %

2사분위 수는 중간값이 됨.  50 %

 

 

 

 

짝수 개의 경우 중간에 있는 두 값의 평균 

가장 작은 값 = 최솟값 : minimum value

가장 큰 값 = 최대값 : maximum value


범주형 데이터 : Categorical data 
어떤 값이 가장 많이 등장하는 지, 살펴 볼 수 있음

ex ) A,B,C,D ... 

 

최빈값 : MODE : 가장 많이 등장하는 값

값의 종류가 몇가지 인 지 살펴보기도 함 UNIQUE ! 

 

 

Describe()함수는 기본적으로 수치형 데이터만 요약정보를 보여줌 

범주형 데이터의 요약 정보까지 살펴보고 싶다면 


02. 통계에서 제일 많이 사용되는 평균과 중간값

 

03.  사분위수 계산하기 

다음에는 1사분위수를 구해 볼게요. 먼저 1사분위수가 몇 번 인덱스에 있는 값인지 구해야 하는데요. 데이터에서 특정 퍼센트 지점의 인덱스를 구하려면 데이터의 개수에서 1을 뺀 뒤, 여기에 원하는 숫자를 곱해 주면 됩니다. 지금은 데이터의 개수가 총 8개니까, 
(8−1)×0.25
를 해서 1.75라는 결과물을 얻을 수 있습니다. 참고로 데이터 개수에서 1을 빼는 건, 파이썬에서 인덱스가 0부터 시작하니까 이를 보정해 주기 위한 거라고 보시면 됩니다!