Pandas | Notion

기초 함수

pd.read_csv(파일 경로, sep=구분자) : csv 파일 불러오기, sep는 열 구분이 어떤 것으로 되어 있는지. → 기본 값은 콤마(,)
df.head(정수) : DataFrame에 담겨있는 가장 앞 정수개 행 출력 → 기본값 5개
df.tail(정수) : DataFrame에 담겨있는 마지막 정수개 행 출력 → 기본값 5개 ⇒ pandas DataFrame return
df.shape : 행과 열의 정보 출력 → (행, 열) 형식
df.columns : 열 이름 확인
df.info() : DataFrame을 구성하는 값의 자료형과 인덱스 길이 출력
df.describe() : columns별 통계 내용 반환
df.sort_values(by='col', ascending=, inplace=) : col에 따라 정렬 ascending=False > 내림차순
Series.unique() : 중복 제외 값 반환
Series.index: 시리즈 인덱스반환
Series.keys(): 시리즈 인덱스 반환
Series.values : 시리즈 데이터 반환
Series.value_counts() : row 값의 중복 개수 반환
Series.describe() : row의 통계 값 반환

데이터 생성

시리즈 생성
- pd.Series(['banana', 42], index=['fruit', 'count'])

데이터 프레임 생성

pd.DataFrame(list, columns=[], index=[])

names = ['dongwook', 'sineui', 'ikjoong', 'yoonsoo']
english_scores = [50, 89, 68, 88]
math_scores = [86, 31, 91, 75]

dict1 = {
    'name': names, 
    'english_score': english_scores, 
    'math_score': math_scores
}

dict2 = {
    'name': np.array(names), 
    'english_score': np.array(english_scores), 
    'math_score': np.array(math_scores)
}

dict3 = {
    'name': pd.Series(names), 
    'english_score': pd.Series(english_scores), 
    'math_score': pd.Series(math_scores)
}

# 아래 셋은 모두 동일
df1 = pd.DataFrame(dict1)
df2 = pd.DataFrame(dict2)
df3 = pd.DataFrame(dict3)

기초 함수

데이터 생성

기초 자료형