HW5

bigdata

Author

tiger

Published

<<<<<<< HEAD

July 30, 2024

=======

July 29, 2024

>>>>>>> 6cbbb7eade37dee30b9807f3594b0c1fd3e6305a

<<<<<<< HEAD

#파일 불러오기, 컬럼명 변경경
import pandas as pd
import seaborn as sns    
import numpy as np    
import matplotlib.pyplot as plt    
!pip install pyreadstat
raw_welfare=pd.read_spss('data/Koweps_hpwc14_2019_beta2.sav')
welfare=raw_welfare.copy()

welfare=welfare.rename(
    columns={"h14_g3": "sex",
             "h14_g4": "birth",
             "h14_g10": "marriage_type",
             "h14_g11": "religion",
             "p1402_8aq1": "income",
             "h14_eco9" : "code_job",
             "h14_reg7" : "code_region"})
             
welfare=welfare[["sex","birth","marriage_type","religion","income","code_job","code_region"]]


[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip

Requirement already satisfied: pyreadstat in c:\ds\python\python312\lib\site-packages (1.2.7)
Requirement already satisfied: pandas>=1.2.0 in c:\ds\python\python312\lib\site-packages (from pyreadstat) (2.2.2)
Requirement already satisfied: numpy>=1.26.0 in c:\ds\python\python312\lib\site-packages (from pandas>=1.2.0->pyreadstat) (2.0.0)
Requirement already satisfied: python-dateutil>=2.8.2 in c:\ds\python\python312\lib\site-packages (from pandas>=1.2.0->pyreadstat) (2.9.0.post0)
Requirement already satisfied: pytz>=2020.1 in c:\ds\python\python312\lib\site-packages (from pandas>=1.2.0->pyreadstat) (2024.1)
Requirement already satisfied: tzdata>=2022.7 in c:\ds\python\python312\lib\site-packages (from pandas>=1.2.0->pyreadstat) (2024.1)
Requirement already satisfied: six>=1.5 in c:\ds\python\python312\lib\site-packages (from python-dateutil>=2.8.2->pandas>=1.2.0->pyreadstat) (1.16.0)

# 성별 전처리
welfare["sex"].value_counts()
welfare["sex"].isna().sum()
welfare["sex"]=np.where(welfare["sex"]==1.0, "male","female")

# 월급 전처리 & 평균 , 시각화
sex_income=welfare.dropna(subset="income").groupby("sex",as_index=False)[["income"]].mean() 
sns.barplot(data=sex_income, x="sex", y="income")
plt.show()

HW5

1. n-1로 나눈 것을 s_2, n으로 나눈 것을 k_2로 정의하고, s_2의 분포와 k_2의 분포를 그려주세요! (10000개 사용)

각 성별 95% 신뢰구간 계산후 그리기. norm.ppf() 사용해서 그릴 것. 모분산은 표본 분산을 사용해서 추정

2. 각 분포 그래프에 모분산의 위치에 녹색 막대를 그려주세요.

3. 결과를 살펴보고, 왜 n-1로 나눈 것을 분산을 추정하는 지표로

사용하는 것이 타당한지 써주세요!