📊 통계
어떤 상황을 쉽게 이해할 수 있도록 숫자로 정리하는 것
기술 통계 : 기술하다에 집중
describe : 기술하다
descriptive statistics: 기술 통계
ex _ 배달 별점, 타율, 백분율에 따른 등급
앞으로 사용할 Seaborn : statistical Data Visualization
: 통계 기반 데이터 시각화 툴
01. 통계 기본 상식
수치형 데이터 : Numerical data
계산과 크고 작음을 비교 가능
평균 : average
중간값 : median
정렬 후 중간에 있는 값
median을 기준으로 양 옆을 또 다시 median
그러면
1사분위 수(25%) , 3사분위수(75%/)
4수분위 수 = 최댓값 100 %
2사분위 수는 중간값이 됨. 50 %
짝수 개의 경우 중간에 있는 두 값의 평균
가장 작은 값 = 최솟값 : minimum value
가장 큰 값 = 최대값 : maximum value
범주형 데이터 : Categorical data
어떤 값이 가장 많이 등장하는 지, 살펴 볼 수 있음
ex ) A,B,C,D ...
최빈값 : MODE : 가장 많이 등장하는 값
값의 종류가 몇가지 인 지 살펴보기도 함 UNIQUE !
Describe()함수는 기본적으로 수치형 데이터만 요약정보를 보여줌
범주형 데이터의 요약 정보까지 살펴보고 싶다면
02. 통계에서 제일 많이 사용되는 평균과 중간값
03. 사분위수 계산하기
다음에는 1사분위수를 구해 볼게요. 먼저 1사분위수가 몇 번 인덱스에 있는 값인지 구해야 하는데요. 데이터에서 특정 퍼센트 지점의 인덱스를 구하려면 데이터의 개수에서 1을 뺀 뒤, 여기에 원하는 숫자를 곱해 주면 됩니다. 지금은 데이터의 개수가 총 8개니까,
(8−1)×0.25
를 해서 1.75라는 결과물을 얻을 수 있습니다. 참고로 데이터 개수에서 1을 빼는 건, 파이썬에서 인덱스가 0부터 시작하니까 이를 보정해 주기 위한 거라고 보시면 됩니다!
'코드잇' 카테고리의 다른 글
이것저것 공부노트 (0) | 2025.02.21 |
---|---|
[Data science toolkit] - ing (0) | 2024.07.04 |