오히려 좋아..

상황이 나쁘게만 흘러가는 것 같을 때 외쳐보자.. .

궁금한 마음으로 포트폴리오 보기

Data Analysis and ML, DL/Pandas

[Pandas] Pandas 데이터 전처리 기본기

junha6316 2020. 11. 18. 08:47

1. 특정행 선택

Id = df['id']

 특정 조건을 갖는 행 선택

loc => 열 기준

iloc => 인덱스 기준

df.loc[ (df['ta'] >10 ) & (df['rn'] <10 )]

# ta가 10 초과이고 rn이 10 미만인 행들을 추출한다. 아래와 같이 사용할 수 도 있다.

df.loc[ (df.ta >10 ) & (df.rn <10 )]

 

2. 특정 열 제거

df2 = df.drop('colname', axis=1)


#기존 데이터 프레임에 반영하고 싶으면
df.drop('colname', axis=1, inplace=1)

#여러 열 제거
df2 = df.drop(['col1', 'col2' ,'col3'], axis=1)

 

2. Groupby

# 특정 열 기준 합
gbyId = df.groupby('id').sum()

#groupby 뒤에 들어갈 수 있는 함수로는 sum, count, mean 등이 있다.

#위 같은 방식으로 진행하게 되면 'id'가 인덱스로 잡힌다.
#해제 하기 위해선 다음과 같이 적어준다.

gbyId = df.reset_index()

#기준 여러개
gbyId = df.groupby(['col1','col2','col3']).sum()