티스토리

출발선상
검색하기

블로그 홈

출발선상

wntkdl94.tistory.com/m

잡다한정보 취미글 공유

구독자
0
방명록 방문하기
반응형

주요 글 목록

  • 판다스, 시계열 데이터 12장 시계열 데이터¶12 - 1 datetime 오브젝트¶datetime 라이브러리는 날짜와 시간을 처리하는 등의 다양한 기능을 제공하는 파이썬 라이브러리입니다. datetime 라이브러리에는 날짜를 처리하는 date 오브젝트, 시간을 처리하는 time 오브젝트, 날짜와 시간을 모두 처리하는 datetime 오브젝트가 포함되어 있습니다. 앞으로 3개의 오브젝트를 명확히 구분하기 위해 영문을 그대로 살려 date, time, datetime 오브젝트라고 부르겠습니다. datetime 오브젝트 만들기¶1.datetime 오브젝트를 사용하기 위해 datetime 라이브러리를 불러옵니다. In [1]: from datetime import datetime 2.now, today 메서드를 사용하면 다음과 같이 .. 공감수 0 댓글수 0 2021. 4. 1.
  • 판다스, 그룹연산 11 - 1 데이터 집계¶groupby 메서드로 평균값 구하기¶1.먼저 갭마인더 데이터 집합을 불러옵니다. In [1]: import pandas as pd df = pd.read_csv('data/gapminder.tsv', sep='\t') 2.다음은 year 열을 기준으로 데이터를 그룹화한 다음 lifeExp 열의 평균을 구한 것입니다. In [2]: avg_life_exp_by_year = df.groupby('year').lifeExp.mean() print(avg_life_exp_by_year) year 1952 49.057620 1957 51.507401 1962 53.609249 1967 55.678290 1972 57.647386 1977 59... 공감수 0 댓글수 0 2021. 3. 31.
  • 판다스, apply 메서드 활용 10 - 1 간단한 함수 만들기¶제곱 함수와 n 제곱 함수 만들기¶1.제곱 함수는 다음과 같습니다. In [4]: def my_sq(x): return x ** 2 2.n 제곱 함수 my_exp는 다음과 같습니다. In [5]: def my_exp(x, n): return x ** n 3.과정 1~2에서 만든 함수를 사용해 보자. In [6]: print(my_sq(4)) 16 In [7]: print(my_exp(2, 4)) 16 10 - 2 apply 메서드 사용하기 - 기초¶apply 메서드로 브로드캐스팅한 결과가 올바른 값인지 확인하기 위해 시리즈, 데이터프레임의 기초 연산 결과와 비교하며 진행하겠습니다. 시리즈와 데이터 프레임에 apply 메서드 사용하기¶1.시리즈와 apply 메서드¶먼저 실습.. 공감수 0 댓글수 0 2021. 3. 31.
  • 판다스, 문자열 처리하기 09 - 1 문자열 다루기¶파이썬과 문자열¶문자열은 작은따음표나 큰따옴표로 감싸서 만듭니다. 다음은 작은따옴표로 grail.a scratch라는 문자열 데이터를 만들어 변수 word, sent에 저장한 것입니다. In [1]: word = 'grail' sent = 'a scratch' 인덱스로 문자열 추출하기¶데이터프레임에서 인덱스를 이용하여 원하는 데이터를 추출했던 것을 기억하나요? 문자열도 인덱스를 사용하여 추출할 수 있습니다. 문자는 길이가 1인 문자열로 생각하면 됩니다. 다음은 문자열과 인덱스를 함께 나타낸 표입니다. 문자열 grail과 인덱스¶ 인덱스 0 1 2 3 4 문자열 g r a i l 음수인덱스 -5 -4 -3 -2 -1 문자열 a scratch와 인덱스¶.. 공감수 0 댓글수 0 2021. 3. 30.
  • 판다스, 깔끔한 데이터 07-1 깔끔한 데이터¶열과 피벗¶넓은 데이터¶데이터프레임의 열은 파이썬의 변수와 비슷한 역할을 합니다. 예를 들어 ebola 데이터프레임 열을 사망한 날짜(Data), 발병국가(Case_Guinea) 등의 데이터를 저장하고 있죠. 하지만 이번에 다루는 데이터프레임의 열은 열 자체가 어떤 값( 공감수 0 댓글수 1 2021. 3. 28.
  • 판다스, 누락값 처리하기 누락값 처리하기¶ 06 - 1 누락값이란?¶ 누락값과 누락값 확인하기¶누락값(NaN)은 NaN, NAN, nan 과 같은 방법으로 표기할 수 있습니다. 하지만 여기선 누락값을 NaN이라고 표기하여 사용하겠습니다. 누락값 확인하기¶1.먼저 누락값을 사용하기 위해 numpy에서 누락값을 불러옵니다. In [1]: from numpy import NaN, NAN, nan 2.누락값은 0, ''와 같은 값과는 다른 개념이라는 것에 주의해야 합니다. 누락값은 말 그대로 데이터 자체가 없다는 것을 의미합니다. 그래서 '같다'라는 개념도 없죠. 다음은 누락값과 True, False, 0, ''을 비교한 결과 입니다. In [2]: print(NaN == True) False In [3]: print(NaN == Fa.. 공감수 0 댓글수 0 2021. 3. 27.
  • 판다스, 데이터 연결하기 05 - 1 분석하기 좋은 데이터 깔금한 데이터의 조건 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)를 만들어야 합니다. 측정한 값은 행(row)을 구성해야 합니다. 변수는 열(column)로 구성해야 합니다. 깔끔한 데이터는 데이터 연결부터 예를 들어 주식 데이터를 분석하는 과정에서 '기업 정보'가 있는 데이터 집합과 '주식 가격'이 있는 데이터 집합이 있을 때 '첨단 산업 기업의 주식 가격에 대한 데이터'를 보려면 어떻게 해야 할까? 일단 '기업 정보'에서 첨단 기술을 가진 기업을 찾아야 한다. 그리고 이 기업들의 '주식 가격'을 찾는다. 그런 다음 찾아낸 2개의 데이터를 연결하면 됩니다. 이렇게 데이터 집합은 연관성이 깊은 값끼리 모여 있기 때문에 데이터 연결을 통해 필요한 데이터를.. 공감수 0 댓글수 0 2021. 3. 27.
  • 판다스, 데이터프레임과 시리즈로 그래프 그리기 데이터프레임과 시리즈로 그래프 그리기¶ 데이터프레임과 시리즈로 그래프 그리기¶ 1.시리즈에 있는 plot 속성에 정의된 hist 메서드를 사용하면 해당 시리즈의 값을 이용하여 히스토그램을 바로 그릴 수 있습니다. In [3]: import seaborn as sns In [4]: %matplotlib notebook import matplotlib.pyplot as plt tips = sns.load_dataset("tips") In [7]: ax = plt.subplots() ax = tips['total_bill'].plot.hist() 2.투명도를 조절하려면 hist 메서드의 alpha, bins, ax 인자를 사용하면 됩니다. 다음은 tips 데이터프레임에서 2개의 시리즈를 선택하여 히스토그림을 .. 공감수 0 댓글수 0 2021. 3. 25.
  • seaborn 라이브러리 자유자재로 사용하기 seaborn 라이브러리 자유자재로 사용하기¶ seaborn 라이브러리를 활용하면 matplotlib보다 좀 더 화려한 그래프를 그릴 수 있습니다. 1.지금부터는 seaborn 라이브러리를 sns라는 이름으로 줄여 사용하겠습니다. 다시 tips데이터 집합을 불러옵니다. In [1]: import seaborn as sns tips = sns.load_dataset("tips") 2.saeborn 라이브러리로 히스토그램을 그리려면 subplot, displot 메서드를 사용하면 됩니다. 먼저 subplots 메서드로 기본 틀을 만들고 distplot 메서드에 total_bill 열 데이터를 전달하면 히스토그램을 그릴 수 있습니다. In [3]: %matplotlib notebook import matplo.. 공감수 0 댓글수 0 2021. 3. 24.
  • 판다스, matplotlib 라이브러리 자유자재로 사용하기 matplotlib 라이브러리 자유자재로 사용하기¶ 04-1에서 앤스콤 4분할 그래프를 그릴 때 제목을 추가하기 위해 set_title 메서드를 사용했었습니다. 이밖에도 matplotlib 라이브러리에는 그래프를 그리기 위한 다양한 메서드가 준비되어 있습니다. 기초 그래프 그리기¶ seaborn 라이브러리에는 tips라는 데이터 집합이 있습니다. tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것입니다. tips 데이터 집합을 사용해 다양한 그래프를 그려보겠습니다. 기초 그래프 그리기 - 히스토그램, 산점도 그래프, 박스 그래프 1.tips 데이터 집합을 불러와 변수 tips에 저장합니다. tips 데이터프레임은 지불 금액, 팁, 성별, 흡연 유무, 요일,시간, 전체 인원 정보를 .. 공감수 0 댓글수 0 2021. 3. 22.
  • 판다스, 그래프 그리기 / 데이터 시각화가 필요한 이유 앤스콤 데이터 집합 불러온 후 그래프 그리기 1. 앤스콤 데이터 집합 불러오기 앤스콤 데이터 집합은 seaborn 라이브러리에 포함되어 있습니다. seaborn 라이브러리의 load_dataset 메스드에 문자열 anscombe을 전달하면 앤스콤 데이터 집합을 불러올 수 있습니다. 이때 데이터프레임의 열 이름 중 dataset 열이 데이터 그룹을 구분한다는 것을 알 수 있습니다. import seaborn as sns anscombe = sns.load_dataset("anscombe") print(anscombe) print(type(anscombe)) dataset x y 0 I 10.0 8.04 1 I 8.0 6.95 2 I 13.0 7.58 3 I 9.0 8.81 4 I 11.0 8.33 5 I .. 공감수 0 댓글수 0 2021. 3. 21.
  • 판다스, 데이터 저장하고 불러오기 데이터를 피클, CSV, TSV 파일로 저장하고 불러오기 1.피클로 저장하기 피클은 데이터를 바이너리 형태로 직렬화한 오브젝트를 저장하는 방법입니다. 피클로 저장하면 스프레드시트보다 더 작은 용량으로 데이터를 저장할 수 있어 매우 편리합니다. 시리즈를 피클로 저장하려면 to_pickle 메서드를 사용하면 되는데, 이때 저장 경로를 문자열로 전달해야 합니다. names = scientists['Name'] names.to_pickle('. ./output/scientists_names_series.pickle') 2. 데이터프레임도 피클로 저장할 수 있습니다. scientists.to_pickle('. ./output/scientists_df.pickle') 3. 피클은 바이너리 형태의 오브젝트이기 때문에.. 공감수 0 댓글수 0 2021. 3. 21.
  • 판다스, 시리즈와 데이터프레임의 데이터 처리하기 시리즈와 데이터프레임의 데이터 처리하기 1. 열의 자료형 바꾸기와 새로운 열 추가하기 scientists 데이터프레임의 Born과 Died 열의 자료형을 확인해 보겠습니다. 각각의 자료형은 문자열(오브젝트)입니다. *파이썬의 문자열은 판다스에서 오브젝트로 취급합니다 print(scientists['Born'].dtype) object print(scientists['Died'].dtype) object 2. 날짜를 문자열로 저장한 데이터는 시간 관련 작업을 할 수 있도록 datetime 자료형으로 바꾸는 것이 더 좋습니다. 다음은 Born과 Died 열의 자료형을 datetime이라는 자료형으로 바꾼 다음 format 속성을 '%Y-%m-%d'로 지정하여 날짜 형식을 지정한 것입니다. born_datet.. 공감수 0 댓글수 0 2021. 3. 20.
  • 판다스, 데이터프레임 다루기 불린 추출과 브로드캐스팅 1.불린 추출하기 데이터프레임도 불린 추출을 할 수 있습니다. 다음은 데이터프레임의 Age 열에서 Age 열의 평균보다 높은 행만 출력합니다. print(scientists[scientists['Age'] > scientists['Age'].mean()]) Name Born Died Age Occupation 1 William Gosset 1876-06-13 1937-10-16 61 Statistician 2 Florence Nightingale 1820-05-12 1910-08-13 90 Nurse 3 Marie Curie 1867-11-07 1934-07-04 66 Chemist 7 Johann Gauss 1777-04-30 1855-02-23 77 Mathematician .. 공감수 0 댓글수 0 2021. 3. 20.
  • 판다스, 시리즈 다루기 - 응용 시리즈와 불린 추출 추출할 데이터의 정확한 인덱스를 모르는 경우가 많습니다. 이런경우에 사용하는 방법이 불린 추출입니다. 불린 추출은 특정 조건을 만족하는 값만 추출할 수 있습니다. 시리즈와 불린 추출 사용하기 1.이번에는 'scientists.csv'라는 이름의 데이터를 불러옵니다. scientists = pd.read_csv('. ./data/scientists.csv') 2. 통계 수치의 결괏값을 이용하여 불린 추출을 진행해 보겠습니다. 다음은 Age열을 추출하여 max, mean 메서드를 사용한 것입니다. ages = scientists['Age'] print(ages.max()) 90 print(ages.mean()) 59. 125 3. 이제 불린 추출을 사용할 차례입니다. 예를 들어 평균 나이.. 공감수 0 댓글수 0 2021. 3. 20.
  • 판다스, 시리즈 다루기 - 기초 데이터프레임에서 시리즈 선택하기 1. 먼저 변수 scientists에 데이터프레임을 준비합니다. scientists = pd.DataFrame( data={'Occupation': ['Chemist', 'Statistician'], 'Born': ['1920-07-25', '1876-06-13'], 'Died': ['1958-04-16', '1937-10-16'], 'Age': [37, 61]}, index=['Rosaline Franklin', 'William Gosset'], columns=['Occupation', 'Born', 'Died', 'Age']) 2. 데이터프레임에서 시리즈를 선택하려면 loc 속성에 인덱스(과학자 이름)를 전달하면 됩니다. 정말 시리즈를 선택한 것인지 확인하기 위해 ty.. 공감수 0 댓글수 0 2021. 3. 20.
  • 판다스, 나만의 데이터 만들기 1. 시리즈 만들기 판다스의 Series 메서드에 리스트를 전달하여 시리즈를 생성합니다. import pandas as pd s = pd.Series(['banana',42]) print(s) 0 banana 1 42 dtype: object 2. 시리즈를 생성할 때 문자열을 인덱스로 지정할 수도 있습니다. 문자열을 인덱스로 지정하려면 Series 메서드의 index 인자를 통해 인덱스로 사용하고자 하는 문자열을 리스트에 담아 전달하면 됩니다. s = pd.Series(['Wes McKinney', 'Craetor of Pandas']) print(s) 0 Wes McKinney 1 Craetor of Pandas dtype: object s = pd.Series(['Wes McKinney', 'Crea.. 공감수 0 댓글수 0 2021. 3. 19.
  • 그래프 그리기 그래프와 같은 데이터의 시각화는 데이터 분석 과정에서 가장 중요한 요소입니다. 데이터를 시각화하면 데이터를 이해하거나 추이를 파악하는 등의 작업을 할 때 많은 도움이 됩니다. 간단한 그래프를 그려보고 데이터 시각화가 무엇인가 알아보자. 그래프 그리기 1.먼저 그래프와 연관된 러이브러리를 불러옵니다. %matplotlib inline import matplotlib.pyplot as plt 2. 그런 다음 year 열을 기준으로 그룹화한 데이터프레임에서 lifeExp 열만 추출하여 평균값을 구합니다. global_yearly_life_expectancy = df.groupby('year')['lifeExp'].mean() print(global_yearly_life_expectancy) year 1952 .. 공감수 0 댓글수 0 2021. 3. 19.
  • 기초적인 통계 계산하기 갭마인더 집합에서 0~9번째 데이터를 추출하여 출력한 것입니다. print(df.head(n=10)) country continent year lifeExp pop gdpPercap 0 Afghanistan Asia 1952 28.801 8425333 779.445314 1 Afghanistan Asia 1957 30.332 9240934 820.853030 2 Afghanistan Asia 1962 31.997 10267083 853.100710 3 Afghanistan Asia 1967 34.020 11537966 836.197138 4 Afghanistan Asia 1972 36.088 13079460 739.981106 5 Afghanistan Asia 1977 38.438 14880372 786.. 공감수 0 댓글수 0 2021. 3. 19.
  • 데이터 추출하기 열 단위 데이터 추출하기 데이터프레임에서 데이터를 열 단위로 추출하려면 대괄호와 열 이름을 사용해야 합니다. 이때 열 이름은 꼭 작은따옴표를 사용해서 지정해야 하고 추출한 열은 변수에 저장해서 사용할 수도 있습니다. 이때 1개의 열만 추출하면 시리즈를 얻을 수 있고 2개 이상의 열을 추출하면 데이터프레임을 얻을 수 있습니다. 1. 다음은 데이터프레임(df)에서 열 이름이 country인 열을 추출하여 country_df에 저장한 것입니다. type 메서드를 사용하면 country_df에 저장된 데이터의 자료형이 시리즈라는 것을 확인할 수 있습니다. 시리즈도 head, tail 메서드를 가지고 있기 때문에 head, tail 메서드로 가장 앞이나 뒤에 있는 5개의 데이터를 출력할 수 있습니다. countr.. 공감수 0 댓글수 0 2021. 3. 18.
  • 데이터 집합 불러오기 갭마인더 데이터 집합을 불러오려면 read_csv 메서드를 사용해야 합니다. read_csv메서드는 기본적으로 ( ,)로 열이 구분되어 있는 데이터를 불러옵니다. 하지만 갭마인더는 열이 탭(tab)으로 구분되어 있기 때문에 read_csv 메서드를 호출할 때 열이 탭으로 구분되어 있다고 미리 알려주어야 합니다. sep 속성값으로 \t를 지정하세요. df = pandas.read_cvs('. ./data/gapminder.tsv', sep='\t') 판다스에 있는 메서드를 호출하려면 pandas와 점( . )연산자를 사용해야 합니다. 매번 pandas라고 입력하면 번거롭기 때문에 관습적으로 pd로 줄여 사용합니다. 다음과 같이 입력하면 pandas를 pd로 줄여 사용할 수 있습니다. easysIT/doit.. 공감수 0 댓글수 0 2021. 3. 18.
    반응형
    문의안내
    • 티스토리
    • 로그인
    • 고객센터

    티스토리는 카카오에서 사랑을 담아 만듭니다.

    © Kakao Corp.