데이터 시각화

topics	100-데이터분석 & AI 106 시각화 101 머신러닝 103 데이터 분석,처리
types	실습 도구
tags	#matplotlib #seaborn #visualization #python

seaborn이 Matplotlib위에 만들어진 라이브러리
이케사용가능

import seaborn as sns
import matplotlib.pyplot as plt

sns.boxplot(x='species', y='sepal_length', data=df)
plt.title('Sepal Length by Species')   # plt로 제목 추가
plt.xlabel('Species')                  # plt로 x축 라벨 추가
plt.ylabel('Sepal Length')             # plt로 y축 라벨 추가
plt.show()

주요 함수들

https://diane-space.tistory.com/128
시본시각화

함수	주요 용도	대표 시각화
kdeplot	연속형 데이터 분포	밀도곡선
pairplot	다변량 변수간 관계, 분포	산점도/히스토그램
countplot	범주형 데이터 빈도	막대그래프
heatmap	2D 데이터의 값 크기/패턴	색상 행렬
boxplot	수치형 데이터 분포/이상치	상자수염그림

import matplotlib.pyplot as plt
# 원형차트로 벨류의 비율을 보여주고픔
plt.figure(figsize = (8, 5))
df['voc_trt_perd_itg_cd'].value_counts().plot(kind = 'pie', autopct = '%.2f%%')
plt.show() 

# 특정 컬럼의 값의 데이터를 10개의 구간으로 나눠 히스토그램으로
plt.hist(wine['alcohol'], bins=10)

# 산점도
# 아래 둘다 같음
wine.plot.scatter(x='rat_ca', y='quality')
plt.scatter(wine['rat_ca'], wine['quality'])

# 선그래프
plt.plot(range(1, 51), accs) # 순서대로 x, y 값
# 여러 옵션들
plt.title('Accuracy')
plt.xlabel('epochs')
plt.ylabel('accuracy')
plt.legend()
plt.grid(True)

# 막대그래프 
df.plot.bar() 
# 박스플롯 
df.plot.box()

# 시본 버전
import seaborn as sns
# 산점도
tips = sns.load_dataset("tips")
sns.scatterplot(x="total_bill", y="tip", data=tips)

# 막대그래프
sns.barplot(x="day", y="total_bill", data=tips)

# 히스토그램
sns.histplot(x="total_bill", data=tips, bins=20, kde=True)

# 페어플롯 (여러 변수 간 관계 시각화)
iris = sns.load_dataset("iris")
sns.pairplot(data=iris, hue="species")

---