python (pandas, dataframe) 기초복습

2022. 12. 29. 18:54python

1.pandas 데이터를 쉽게 다룰 수 있게 해주는 라이브러리입니다.

pandas의 dataframe 형식을 사용할 수 있다.

 

2. 파이썬에 pandas와 numpy 설치 및 import

!pip install pandas as pd

!pip install numpy as np (as이하는 별칭)

 

설치 후에는 import를 항상 해줘야 한다.

import pandas as pd
import numpy as np

또 한 실행도 필수!

 

3.pandas가 이용하는 데이터의 형식

data = {
    'name' : ['영수','철수','영희','소희'],
    'age' : [20,15,38,8]
}

 

4. dataFrame 만들기

ff = pd.DataFrame(data) (*여기서 pd는 위에서 pandas를 import 할 때 설정한 별칭이다.)

여기서 출력은 ff를 따로 적어줘야 한다.

이렇게 출력이 된다.

 

5. 행 추가하기

doc = {
    'name':'세종',
    'age':14,
}
ff = ff.append(doc,ignore_index=True)

6. colums 추가하기

ff['score'] = [80,70,60,50,40]

7. 특정 column만 뽑기 

ff[['name']] 

이때는 대괄호를 두 번 해야 하는 점이 중요하다 

 

8. 원하는 조건에 맞는 행만 뽑기

ff[ff['score']>60]

5. 특정 행에서의 뽑아보기 

ff.iloc[-1,0]  -1 마지막에서 0 첫번째 값 
ff.iloc[0,0]  0 첫번째에서 0 첫번째 값

 

 

6. 열 정렬 

ff.sort_values(by='age',ascending=True) true 오름차순 false 내림차순

-by의미는 'age'를 기준으로 정렬한다는 의미

7. 조건에 맞는 열을 추가하기

ff['is_adult'] = np.where(ff['age'] > 20,'성인','청소년')

->여기서 np는 numpy의 별칭이다. 

->numpy.where로 조건을 줄 수 있는 것 같다. age가 20보다 크다면 왼쪽의 값 '성인'이고 아니면 '청소년' 이다.

- 'is_adult' 라는 열에 추가 한다.

8. 평균, 최댓값, 최솟값, 개수 구하기

ff['age'].mean()

ff['age'].max()

ff['age'].min()

ff['age'].count()

 

9.혼합해서 사용.

ff[ff['is_adult'] == '청소년']['age'].mean()

-> 'is _adult'가  청소년 이면서 'age'의 평균