Pandas 기초
| topics | 100-데이터분석 & AI 103 데이터 분석,처리 |
| types | 실습 도구 |
| tags | #pandas #python #data-analysis |
판다스는 numpy위에 구축된 생긴 라이브러리
기본
인덱스,시리즈,데이터프레임
DataFrame 데이터 접근 방법
loc,iloc
데이터 확인함수
import pandas as pd
# <span id="불러오기"></span>불러오기
df = pd.read_csv("경로")
# <span id="확인-상하위-5개"></span>확인 상하위 5개
df.head()
df.tail()
# <span id="데이터프레임-정보출력"></span>데이터프레임 정보출력
df.info() # 컬럼, not-null 개수, dtype
# <span id="각컬럼의-통계-요약-count는-결측치가-아닌-것의-개수"></span>각컬럼의 통계 요약, count는 결측치가 아닌 것의 개수
df.describe() # count, mean, std, min, 25%, 50%, 75%, max
# <span id="행을-식별하는-라벨-보통-인덱스라고-부름"></span>행을 식별하는 라벨 ( 보통 인덱스라고 부름)
# <span id="행의-길이와-같음-기본적으론-rangeindex가-부여"></span>행의 길이와 같음, 기본적으론 rangeindex가 부여
df.index
# <span id="열을-식별하는-라벨"></span>열을 식별하는 라벨
df.columns
# <span id="각-열에-어떤-값이-있는지"></span>각 열에 어떤 값이 있는지
df.values
# <span id="특정열-value의-개수를-확인"></span>특정열 value의 개수를 확인
# <span id="시리즈를-반환"></span>시리즈를 반환
# <span id="normalizetrue-하면-비율-알려줌"></span>normalize=True 하면 비율 알려줌
df["열이름"].value_counts()
# <span id="df-에서-각-열의-타입"></span>df 에서 각 열의 타입
df.dtypes
# <span id="시리즈에서의-타입-"></span>시리즈에서의 타입
df.dtype
# <span id="행열-개수-반환"></span>행열 개수 반환
df.shape # 결과 : (행,열)
# <span id="행열-바꾸기-"></span>행열 바꾸기
df.T
# <span id="결측치가-몇개-존재하는지-"></span>결측치가 몇개 존재하는지
df.isnull().sum()
# <span id="특정값이-몇개-존재하는-지-"></span>특정값이 몇개 존재하는 지
(df['column명'] == '특정').sum()
df2=df1.replace('_',None)
value_counts 옵션들
https://zzinnam.tistory.com/entry/pandas-valuecounts-%ED%95%A8%EC%88%98
| 옵션 | 설명 | 기본값 |
|---|---|---|
| normalize | 비율로 반환할지 여부 | False |
| sort | 결과를 정렬할지 여부 | True |
| ascending | 오름차순 정렬 여부 | False |
| dropna | 결측치(NaN)를 제외할지 여부 | True |
데이터 drop