일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Mac
- dataframe
- Google Excel
- Python
- hive
- c#
- Java
- Tkinter
- matplotlib
- array
- Google Spreadsheet
- numpy
- PySpark
- math
- Redshift
- google apps script
- string
- SQL
- PANDAS
- list
- 파이썬
- Excel
- gas
- PostgreSQL
- Apache
- Github
- django
- Kotlin
- GIT
- Today
- Total
달나라 노트
Python statistics : median(), median_low(), median_high() (중앙값, 낮은 중앙값, 높은 중앙값) 본문
Python statistics : median(), median_low(), median_high() (중앙값, 낮은 중앙값, 높은 중앙값)
CosmosProject 2022. 6. 12. 14:35
중앙값은 어떠한 숫자들에 대해서 가장 중간에 있는 값을 의미합니다.
예를들어
1, 3, 5, 8, 10
이렇게 5개의 숫자가 있다면 이 숫자들을 오름차순 또는 내림차순으로 정렬했을 때 가장 가운데에 있는 숫자가 있을겁니다.
위 경우에는 5가 가장 중앙에 있네요.
따라서 위 숫자들의 집단에서 중앙값은 5입니다.
1, 3, 4, 5, 8, 10
만약 위처럼 6개의 숫자가 있다면 이 숫자들을 오름차순 또는 내림차순으로 정렬했을 때 가장 중앙에 있는 하나의 숫자를 말할 수 없습니다.
왜냐면 숫자의 개수가 짝수개이기 때문에 정 중앙에 위치하는 값을 찾을 수 없죠.
이런 경우에는 중앙값을 가장 가운데에 위치하는 4와 5의 평균인 4.5로 계산합니다.
즉, 위 경우에 중앙값은 4.5가 됩니다.
근데 이 경우에 4.5가 아닌 4 또는 5를 중앙값으로 선택하는 방법도 있습니다.
중앙값인 4.5와 가장 가까이 위치한 숫자는 4, 5입니다.
여기서 내가 낮은 중앙값을 선택하고 싶다면 그 결과는 4가 되며,
높은 중앙값을 선택하고 싶다면 그 결과는 5입니다.
지금 위에서 설명한 모든 기능을 statistics library에서 제공합니다.
Syntax - median()
median(list)
median() method는 숫자들이 담긴 list를 받으며 그 list에 있는 숫자들의 중앙값을 return합니다.
Syntas - median_low()
median_low(list)
median_low() method는 숫자들이 담긴 list를 받으며 그 list에 있는 숫자들의 낮은 중앙값을 return합니다.
Syntas - median_high()
median_high(list)
median_high() method는 숫자들이 담긴 list를 받으며 그 list에 있는 숫자들의 높은 중앙값을 return합니다.
다음은 중앙값 method들을 실제 사용한 예시입니다.
먼저 list에 홀수개의 숫자가 담긴 경우입니다.
import statistics as st
list_values = [1, 3, 5, 8, 10]
val_median = st.median(list_values)
val_median_low = st.median_low(list_values)
val_median_high = st.median_high(list_values)
print('median :', val_median)
print('median low :', val_median_low)
print('median high :', val_median_high)
-- Result
median : 5
median low : 5
median high : 5
list에 홀수개의 숫자가 담겨있으니
중앙값(median), 낮은 중앙값(median_low), 높은 중앙값(median_high) 모두 중간에 있는 값인 5가 retrun 됩니다.
이번에는 list에 짝수개의 숫자가 들어있는 경우입니다.
import statistics as st
list_values = [1, 3, 4, 5, 8, 10]
val_median = st.median(list_values)
val_median_low = st.median_low(list_values)
val_median_high = st.median_high(list_values)
print('median :', val_median)
print('median low :', val_median_low)
print('median high :', val_median_high)
-- Result
median : 4.5
median low : 4
median high : 5
list_values를 오름차순 정렬하면 가장 중간에 있는 2개의 숫자는 4와 5가 됩니다.
중앙값(mean)은 중간과 가장 가까운 2개의 숫자인 4와 5의 평균인 4.5가 return됩니다.
낮은 중앙값(mean_low)은 중간과 가장 가까운 2개의 숫자인 4와 5중 더 작은 숫자인 4가 return됩니다.
높은 중앙값(mean_high)은 중간과 가장 가까운 2개의 숫자인 4와 5중 더 큰 숫자인 5가 return됩니다.
'Python > Python statistics' 카테고리의 다른 글
Python statistics : mean(), geometric_mean(), harmonic_mean() (평균, 산술 평균, 기하 평균, 조화 평균) (0) | 2022.06.12 |
---|