콘솔워크

Python Pandas DataFrame 자주쓰는 기술모음 본문

프로그래밍/python

Python Pandas DataFrame 자주쓰는 기술모음

콘솔워크 2021. 6. 2. 11:00
반응형

Dataframe의 특정 컬럼을 List로 반환

li_columns = df["ColumnName"].tolist()

Dataframe에서 필요한 컬럼만 추출

df_new = df_old.loc[:, ["ColumnName1", "ColumnName2", "ColumnName3"]]

Dataframe에서 특정 값(list)이 포함된 데이터만 가져오기

codes = [12, 13, 14]
df_contain_codes = df[df["CodeColumn"].isin(codes)]

Dataframe에서 특정 컬럼의 값이 있는 (Null이 아닌) 것만 추출

df_notnull = df[df["ColumnName"].notnull()]

Dataframe에서 특정 컬럼의 값이 없는 (Null인) 것만 추출

df_isnull = df[df["ColumnName"].isnull()]

Dataframe에서 특정 컬럼의 값이 중복된 데이터추출

# 1. 사업자 등록번호 중복처 추출
g1 = df1.groupby(['사업자등록번호'])  # GROUP BY A
df_business_duplicated = g1.filter(lambda x: len(x) > 1)  # HAVING COUNT(*) > 1  =  중복된 사업자등록번호가 1처 이상
반응형