Pandas 기초

topics	100-데이터분석 & AI 103 데이터 분석,처리
types	실습 도구
tags	#pandas #python #data-analysis

판다스는 numpy위에 구축된 생긴 라이브러리

기본

인덱스,시리즈,데이터프레임
DataFrame 데이터 접근 방법
loc,iloc

데이터 확인함수

import pandas as pd

# 불러오기
df = pd.read_csv("경로")

# 확인 상하위 5개
df.head()
df.tail()

# 데이터프레임 정보출력
df.info() # 컬럼, not-null 개수, dtype 

# 각컬럼의 통계 요약, count는 결측치가 아닌 것의 개수
df.describe() # count, mean, std, min, 25%, 50%, 75%, max

# 행을 식별하는 라벨 ( 보통 인덱스라고 부름)
# 행의 길이와 같음, 기본적으론 rangeindex가 부여
df.index

# 열을 식별하는 라벨
df.columns 

# 각 열에 어떤 값이 있는지
df.values

# 특정열 value의 개수를 확인
# 시리즈를 반환
# normalize=True 하면 비율 알려줌
df["열이름"].value_counts()

# df 에서 각 열의 타입
df.dtypes
# 시리즈에서의 타입 
df.dtype

# 행열 개수 반환
df.shape # 결과 : (행,열)

# 행열 바꾸기 
df.T

# 결측치가 몇개 존재하는지 
df.isnull().sum() 

# 특정값이 몇개 존재하는 지 
(df['column명'] == '특정').sum()
df2=df1.replace('_',None)

value_counts 옵션들

https://zzinnam.tistory.com/entry/pandas-valuecounts-%ED%95%A8%EC%88%98

옵션	설명	기본값
normalize	비율로 반환할지 여부	False
sort	결과를 정렬할지 여부	True
ascending	오름차순 정렬 여부	False
dropna	결측치(NaN)를 제외할지 여부	True

Pandas 기초

기본

데이터 확인함수

value_counts 옵션들

데이터 drop