상세 컨텐츠

본문 제목

판다스, 데이터 저장하고 불러오기

판다스 입문

by ZISEN 2021. 3. 21. 18:46

본문

반응형

데이터를 피클, CSV, TSV 파일로 저장하고 불러오기

1.피클로 저장하기

피클은 데이터를 바이너리 형태로 직렬화한 오브젝트를 저장하는 방법입니다.

피클로 저장하면 스프레드시트보다 더 작은 용량으로 데이터를 저장할 수 있어 매우 편리합니다.

시리즈를 피클로 저장하려면 to_pickle 메서드를 사용하면 되는데, 이때 저장 경로를 문자열로

전달해야 합니다.

names = scientists['Name']
names.to_pickle('. ./output/scientists_names_series.pickle')

2. 데이터프레임도 피클로 저장할 수 있습니다.

scientists.to_pickle('. ./output/scientists_df.pickle')

3. 피클은 바이너리 형태의 오브젝트이기 때문에 저장된 피클 데이터를 편집기와 같은 프로그램으로

열어보면 이상한 문자가 나타납니다.

피클 데이터는 반드시 read_pickle 메서드로 읽어 들여야 합니다.

scientists_names_from_pickle = pd.read_pickle('. ./output/scientists_names_series.pickle')
print(scientists_names_from_pickle)

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object

scientists_from_pickle = pd.read_pickle('. ./output/scientists_df.pickle')
print(scientists_from_pickle)

                   Name        Born        Died  Age          Occupation
0     Rosaline Franklin  1920-07-25  1958-04-16   37             Chemist
1        William Gosset  1876-06-13  1937-10-16   61        Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90               Nurse
3           Marie Curie  1867-11-07  1934-07-04   66             Chemist
4         Rachel Carson  1907-05-27  1964-04-14   56           Biologist
5             John Snow  1813-03-15  1858-06-16   45           Physician
6           Alan Turing  1912-06-23  1954-06-07   41  Computer Scientist
7          Johann Gauss  1777-04-30  1855-02-23   77       Mathematician

4. CSV 파일과 TSV 파일로 저장하기

CSV 파일은 데이터를 쉼표로 구분하여 저장한 파일이고 TSV파일은 데이터를 탭으로 구분하여

저장한 파일입니다.

실제로 각각의 파일을 텍스트 편집기로 열어 살펴보면 데이터가 쉼표, 탭으로 구분되어

있는 것을 알 수 있습니다. 다음은 data 폴더의 'concat_1.csv' 파일과 'gapminder.tsv' 파일을

비주얼 스튜디오 코드라는 텍스트 편집기로 열어 살펴본 것입니다.

비주얼 스튜디오 코드가 없다면 컴퓨터에 설치된 텍스트 편집기로 파일을 열어보세요.

 

5. to_csv 메서드로 시리즈(names)와 데이터프레임(scientists)을 csv 파일로 저장할 수 있습니다.

이때 sep 인자를 추가하여 '\t'를 지정하고 파일의 확장자를 '.tsv'로 지정하면 TSV 파일로 저장할 수 있습니다.

names.to_csv('../output/scientists_names_series.csv')
scientists.to_csv('../output/scientists_df.tsv', sep='\t')

 

출처 : doit 데이터 분석을 위한 판다스 입문

반응형

관련글 더보기