pd.read_csv(파일 경로, sep=구분자)
: csv 파일 불러오기, sep는 열 구분이 어떤 것으로 되어 있는지. → 기본 값은 콤마(,)df.head(정수)
: DataFrame에 담겨있는 가장 앞 정수개 행 출력 → 기본값 5개df.tail(정수)
: DataFrame에 담겨있는 마지막 정수개 행 출력 → 기본값 5개 ⇒ pandas DataFrame returndf.shape
: 행과 열의 정보 출력 → (행, 열) 형식df.columns
: 열 이름 확인df.info()
: DataFrame을 구성하는 값의 자료형과 인덱스 길이 출력df.describe()
: columns별 통계 내용 반환df.sort_values(by='col', ascending=, inplace=)
: col에 따라 정렬 ascending=False > 내림차순Series.unique()
: 중복 제외 값 반환Series.index
: 시리즈 인덱스반환Series.keys()
: 시리즈 인덱스 반환Series.values
: 시리즈 데이터 반환Series.value_counts()
: row 값의 중복 개수 반환Series.describe()
: row의 통계 값 반환시리즈 생성
pd.Series(['banana', 42], index=['fruit', 'count'])
데이터 프레임 생성
pd.DataFrame(list, columns=[], index=[])
names = ['dongwook', 'sineui', 'ikjoong', 'yoonsoo']
english_scores = [50, 89, 68, 88]
math_scores = [86, 31, 91, 75]
dict1 = {
'name': names,
'english_score': english_scores,
'math_score': math_scores
}
dict2 = {
'name': np.array(names),
'english_score': np.array(english_scores),
'math_score': np.array(math_scores)
}
dict3 = {
'name': pd.Series(names),
'english_score': pd.Series(english_scores),
'math_score': pd.Series(math_scores)
}
# 아래 셋은 모두 동일
df1 = pd.DataFrame(dict1)
df2 = pd.DataFrame(dict2)
df3 = pd.DataFrame(dict3)