데이터를 빠르게 찾아보고 유의미한 특성을 찾아내는 작업

matplotlib와 seaborn을 사용

스크린샷 2024-01-25 오후 10.28.38.png

plot : 시간에 따른 데이터 분포

scatter : 두 값 간의 관계를 표현 (양,음의 상관관계 파악)

hist : 히스토그램 (빈도,빈도밀도,확률 등의 분포를 그릴 때 사용)

boxplot : 수치적 자료를 표현하는 그래프 최소값,1사분위값,2사분위값,3사분위값,최대값의 5분위값을 기준으로 표현

bar : 범주형데이터의 수치를 요약 표현

#나이대별 총이용금액 분포를 박스 그래프로 그리기
df.boxplot(by="by_age", column="avg_bill", figsize=(16,8))
plt.show()

스크린샷 2024-01-25 오후 10.40.28.png

seaborn

matplotlib을 기반으로 더 화려하고 통계적 기능이 강화된 라이브러리