HW0

bigdata
Author

tiger

Published

July 22, 2024

204page

Q1

mpg데이터의 cty와 hwy간의 어떤 관계가 있는지 알아보려고 합니다. 
x축은 cty, y축은 hwy로 된 산점도를 만들어 보세요.
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
mpg=pd.read_csv('data/mpg.csv')
mpg.head()
manufacturer model displ year cyl trans drv cty hwy fl category
0 audi a4 1.8 1999 4 auto(l5) f 18 29 p compact
1 audi a4 1.8 1999 4 manual(m5) f 21 29 p compact
2 audi a4 2.0 2008 4 manual(m6) f 20 31 p compact
3 audi a4 2.0 2008 4 auto(av) f 21 30 p compact
4 audi a4 2.8 1999 6 auto(l5) f 16 26 p compact
sns.scatterplot(mpg, x="cty",y="hwy")
plt.show()

Q2

미국의 지역별 인구통계 정보를 담은 midwest.csv 를 이용해 전체 인구와 아시아인 
인구 간에 어떤 관계가 있는지 알아보려고 합니다. x축은 poptotal, y축은 popasian으로 된 
산점도를 만들어 보세요. 전체 인구는 50만 명 이하, 아시아인 인구는 1만 면 이하인 지역만 
산점도에 표시되게 설정하세요. 
midwest=pd.read_csv('data/midwest.csv ')
midwest.head()
PID county state area poptotal popdensity popwhite popblack popamerindian popasian ... percollege percprof poppovertyknown percpovertyknown percbelowpoverty percchildbelowpovert percadultpoverty percelderlypoverty inmetro category
0 561 ADAMS IL 0.052 66090 1270.961540 63917 1702 98 249 ... 19.631392 4.355859 63628 96.274777 13.151443 18.011717 11.009776 12.443812 0 AAR
1 562 ALEXANDER IL 0.014 10626 759.000000 7054 3496 19 48 ... 11.243308 2.870315 10529 99.087145 32.244278 45.826514 27.385647 25.228976 0 LHR
2 563 BOND IL 0.022 14991 681.409091 14477 429 35 16 ... 17.033819 4.488572 14235 94.956974 12.068844 14.036061 10.852090 12.697410 0 AAR
3 564 BOONE IL 0.017 30806 1812.117650 29344 127 46 150 ... 17.278954 4.197800 30337 98.477569 7.209019 11.179536 5.536013 6.217047 1 ALU
4 565 BROWN IL 0.018 5836 324.222222 5264 547 14 5 ... 14.475999 3.367680 4815 82.505140 13.520249 13.022889 11.143211 19.200000 0 AAR

5 rows × 28 columns

sns.scatterplot(midwest, x="poptotal", 
                         y="popasian").set(xlim=[0,500000],ylim=[0,10000])


211 page

Q1

어떤 회사에서 생산한 suv 차종의 도시 연비가 높은지 알아보려고 합니다. 
suv 차종을 대상으로 cty 평균이 가장 높은 회사 다섯 곳을 막대그래프로 표현해 보세요. 
막대는 연비가 높은 순으로 정렬하세요. 
plt.clf()
mpg_suv=mpg.query('category=="suv"').groupby('manufacturer')["cty"].mean().sort_values(ascending=False).head()
sns.barplot(mpg_suv)
plt.show()

Q2

자동차 중에 어떤 category가 많은지 알아보려고 합니다. sns.barplot() 을 이용해 자동차 종류별 빈도를 표현한 막대그래프를 만들어 보세요. 막대는 빈도가 높은 순으로 정렬하세요. 
plt.clf()
mpg_c=mpg.groupby('category')['category'].count().sort_values(ascending=False)
sns.barplot(mpg_c).set(ylim=[0,100])
plt.xticks(rotation=45)
plt.title("Frequency barplot by category")
plt.show()