Chapter 12. Pandas II

Chapter 12. Pandas II#

학습목표와 기대효과

학습목표
- 파일 입출력 방법을 익혀보자.
- 데이터 처리에 관련된 함수를 익혀보자.
- ChatGPT를 활용하여 파이썬 코드를 작성해보자.
기대효과
- ChatGPT와 pandas를 활용하여 다양한 데이터 연산 및 분석에 필요한 기능을 쉽고 빠르게 코딩할 수 있다.

파일 입출력#

파일 형식	읽기	쓰기
MS Excel	read_excel	to_excel
CSV	read_csv	to_csv
JSON	read_json	to_json
HTML	read_html	to_html
Local clipboard	read_clipboard	to_clipboard
HDF5 format	read_hdf	to_hdf
SQL	read_sql	to_sql

csv 파일을 불러올 때
- pd.read_csv(‘파일명’, index_col=칼럼번호, encoding=’인코딩방법’)
  - index_col:칼럼번호를 설정인덱스로 지정한다.
  - usecols: 사용할 칼럼번호를 지정한다.
  - header: 헤더(칼럼)으로 선택할 헤더를 지정한다.
  - encoding: 한글이 깨질때에는 encoding 옵션에 ‘euc-kr’을 넣어준다.
  - 이 외에도 많은 옵션이 있다.
excel파일을 불러올 때
- pd.read_excel(‘파일명’, encoding=’인코딩방법’)

인코딩 & 디코딩

인코딩(encoding)는 코드화 또는 암호화로 불리우며, 문자열을 바이트코드로 변환하는 것을 의미한다.
파이썬에서는 문자열을 유니코드로 처리하는데 유니코드를 utf-8, euc-kr, ascii 형식의 인코딩방식을 사용하여 바이트코드로 변환한다. 예를 들어,

x='한글'
encoded = x.encode('utf-8')
print(f'Output: {encoded}')

Output: b’\xed\x95\x9c\xea\xb8\x80’

여기서 결과로 나온 b’\xed\x95\x9c\xea\xb8\x80’가 바이트 코드이다.
디코딩(decoding)은 역코드화 또는 복호화로 불리우며, 바이트코드를 문자열로 변환하는 것을 의미한다.
이때 디코딩에서도 인코딩 시 사용했던 것과 동일한 인코딩 방식(utf-8, euc-kr, ascii 등)이 사용되어야 한다.

decoded = encoded.decode('utf-8')
print(f'Output: {decoded}')

Output: 한글

인코딩을 하는 이유는 언어마다 표준화된 규격으로 문자집합을 만들고, 이러한 문자집합을 가지고 정보의 형태 표준화, 보안, 저장 공간 절약 등의 다양한 목적으로 부호화하여 사용하기 위한 것이다.

파일 읽고 저장하기

import pandas as pd
scores = [[84,87,78], [21,15,84], [87,84,76], [100,87,99],[59,99,59],[46,77,56]]
names=['철수','영이','길동','미영','순이','철이']
lectures=['국어','수학','영어']
d1 = pd.DataFrame(scores, index=names, columns=lectures)
d1

	국어	수학	영어
철수	84	87	78
영이	21	15	84
길동	87	84	76
미영	100	87	99
순이	59	99	59
철이	46	77	56

# 엑셀로 저장하기
d1.to_excel('sample.xlsx')

# 엑셀 읽어오기
d2 = pd.read_excel("sample.xlsx")
d2

	Unnamed: 0	국어	수학	영어
0	철수	84	87	78
1	영이	21	15	84
2	길동	87	84	76
3	미영	100	87	99
4	순이	59	99	59
5	철이	46	77	56

index_col 옵션은 인덱스 칼럼을 지정하여 읽어올 수 있게 해준다.

d2 = pd.read_excel("sample.xlsx", index_col=0)
d2

	국어	수학	영어
철수	84	87	78
영이	21	15	84
길동	87	84	76
미영	100	87	99
순이	59	99	59
철이	46	77	56

# csv로 저장하기
d2.to_csv('sample.csv', encoding='euc-kr')

d2 = pd.read_csv('sample.csv', encoding='euc-kr', index_col=0)
d2

	국어	수학	영어
철수	84	87	78
영이	21	15	84
길동	87	84	76
미영	100	87	99
순이	59	99	59
철이	46	77	56

자료형 다루기#

.astype(자료형)

d2 = d1.astype('str')
d2

	국어	수학	영어
철수	84	87	78
영이	21	15	84
길동	87	84	76
미영	100	87	99
순이	59	99	59
철이	46	77	56

d2.sum()

국어    8.421871e+12
수학    8.715849e+11
영어    7.884770e+11
dtype: float64

누락값 처리하기#

누락 데이터 확인
- isnull(): 누락 데이터이면 True, 유효한 데이터이면 False를 반환
- notnull():유효한 데이터이면 True, 누락데이터이면 False를 반환

scores = [[84,87,78], [21,15,84], [87,84,76], [100,87,99],[59,99,59],[46,77,56]]
names=['철수','영이','길동','슬기','순이','철이']
lectures=['국어','수학','영어']
d2 = pd.DataFrame(scores, index=names, columns=lectures)
d2

	국어	수학	영어
철수	84	87	78
영이	21	15	84
길동	87	84	76
슬기	100	87	99
순이	59	99	59
철이	46	77	56

d3=d1+d2
d3

	국어	수학	영어
길동	174.0	168.0	152.0
미영	NaN	NaN	NaN
순이	118.0	198.0	118.0
슬기	NaN	NaN	NaN
영이	42.0	30.0	168.0
철수	168.0	174.0	156.0
철이	92.0	154.0	112.0

d3.isnull()
#d3.notnull()

	국어	수학	영어
길동	False	False	False
미영	True	True	True
순이	False	False	False
슬기	True	True	True
영이	False	False	False
철수	False	False	False
철이	False	False	False

누락 데이터 제거
- 행제거: .dropna(subset=칼럼명, how=’any’/’all’, axis=0, thresh=개수)
- 열제거: .dropna(axis=1, thresh=개수)
- how
  - any: 하나라도 비어 있으면 삭제
  - all: 데이터가 모두 비어 있으면 삭제
- thresh: 유효한 값의 개수가 thresh보다 작은 행이나 열을 삭제

d4=d3.dropna(axis=0)
d4

	국어	수학	영어
길동	174.0	168.0	152.0
순이	118.0	198.0	118.0
영이	42.0	30.0	168.0
철수	168.0	174.0	156.0
철이	92.0	154.0	112.0

누락 데이터 치환
- .fillna(값)

min_kor = d3['국어'].min()
d3['국어'].fillna(min_kor, inplace=True)
d3

	국어	수학	영어
길동	174.0	168.0	152.0
미영	42.0	NaN	NaN
순이	118.0	198.0	118.0
슬기	42.0	NaN	NaN
영이	42.0	30.0	168.0
철수	168.0	174.0	156.0
철이	92.0	154.0	112.0

중복데이터 처리#

.duplicated(): 중복된 행이면 True, 아니면 False이다.

d3

	국어	수학	영어
길동	174.0	168.0	152.0
미영	42.0	NaN	NaN
순이	118.0	198.0	118.0
슬기	42.0	NaN	NaN
영이	42.0	30.0	168.0
철수	168.0	174.0	156.0
철이	92.0	154.0	112.0

d3.duplicated()

길동    False
미영    False
순이    False
슬기     True
영이    False
철수    False
철이    False
dtype: bool

d3['국어'].duplicated()

길동    False
미영    False
순이    False
슬기     True
영이     True
철수    False
철이    False
Name: 국어, dtype: bool

중복행 제거: .drop_duplicates(subset=컬럼명리스트)

d3

	국어	수학	영어
길동	174.0	168.0	152.0
미영	42.0	NaN	NaN
순이	118.0	198.0	118.0
슬기	42.0	NaN	NaN
영이	42.0	30.0	168.0
철수	168.0	174.0	156.0
철이	92.0	154.0	112.0

d3.drop_duplicates(subset=['국어', '영어'])

	국어	수학	영어
길동	174.0	168.0	152.0
미영	42.0	NaN	NaN
순이	118.0	198.0	118.0
영이	42.0	30.0	168.0
철수	168.0	174.0	156.0
철이	92.0	154.0	112.0

시계열 데이터#

다른 자료형을 시계열 객체로 변환
to_datetime(): 문자열을 timestamp로 변환

data = [['1990-03-02', 90], ['1991-08-08', 95], ['1990-11-22',90], ['1991-01-05', 88]]
names=['철수','영이','길동','미영']
column=['생년월일','점수']
d1 = pd.DataFrame(data, index=names, columns=column)
d1

	생년월일	점수
철수	1990-03-02	90
영이	1991-08-08	95
길동	1990-11-22	90
미영	1991-01-05	88

생년월일을 확인해보면 object 타입이다.

d1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 철수 to 미영
Data columns (total 2 columns):
생년월일    4 non-null object
점수      4 non-null int64
dtypes: int64(1), object(1)
memory usage: 96.0+ bytes

object 타입의 생년월일을 시계열 데이터타입인 datetime형으로 바꿔보자.

d1['생년월일'] = pd.to_datetime(d1['생년월일'])
d1

	생년월일	점수
철수	1990-03-02	90
영이	1991-08-08	95
길동	1990-11-22	90
미영	1991-01-05	88

datetime으로 변환후 확인해보면 타입이 변경된 것을 알 수 있다.

d1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 철수 to 미영
Data columns (total 2 columns):
생년월일    4 non-null datetime64[ns]
점수      4 non-null int64
dtypes: datetime64[ns](1), int64(1)
memory usage: 96.0+ bytes

시계열 데이터 활용
- 날짜 데이터를 분리할 수 있다.
- 연-월-일 정보에서 연,월,일 추출: dt.year, dt.month, dt.day를 사용

d1['년'] = d1['생년월일'].dt.year
d1['월'] = d1['생년월일'].dt.month
d1['일'] = d1['생년월일'].dt.day
d1

	생년월일	점수	년	월	일
철수	1990-03-02	90	1990	3	2
영이	1991-08-08	95	1991	8	8
길동	1990-11-22	90	1990	11	22
미영	1991-01-05	88	1991	1	5

연-월-일 정보에서 연-월 추출: dt.to_period()를 사용
df.to_period(freq=None, axis=0, copy=True)
freq : 원하는 시간 단위로 변환(‘Y’,’M’,’D’, ‘W’)
axis : 변환할 기준 축
copy : 사본을 형성할지 여부

d1

	생년월일	점수	년	월	일
철수	1990-03-02	90	1990	3	2
영이	1991-08-08	95	1991	8	8
길동	1990-11-22	90	1990	11	22
미영	1991-01-05	88	1991	1	5

d1['년월'] = d1['생년월일'].dt.to_period(freq='M')
d1

	생년월일	점수	년	월	일	년월
철수	1990-03-02	90	1990	3	2	1990-03
영이	1991-08-08	95	1991	8	8	1991-08
길동	1990-11-22	90	1990	11	22	1990-11
미영	1991-01-05	88	1991	1	5	1991-01

날짜 인덱스 활용

d2 = d1.set_index(['생년월일'])
d2

	점수	년	월	일	년월
생년월일
1990-03-02	90	1990	3	2	1990-03
1991-08-08	95	1991	8	8	1991-08
1990-11-22	90	1990	11	22	1990-11
1991-01-05	88	1991	1	5	1991-01

d2.index

DatetimeIndex(['1990-03-02', '1991-08-08', '1990-11-22', '1991-01-05'], dtype='datetime64[ns]', name='생년월일', freq=None)

d2.loc['1990-03']

	점수	년	월	일	년월
생년월일
1990-03-02	90	1990	3	2	1990-03

d2.loc['1990']

	점수	년	월	일	년월
생년월일
1990-03-02	90	1990	3	2	1990-03
1990-11-22	90	1990	11	22	1990-11

정확한 인덱스로 시작해야 한다.

d2.loc['1990-03-02':'1990-12-31']

	점수	년	월	일	년월
생년월일
1990-03-02	90	1990	3	2	1990-03
1990-11-22	90	1990	11	22	1990-11

today = pd.to_datetime('2024-05-14')
today

Timestamp('2024-05-14 00:00:00')

d2['날짜_차이'] = today-d2.index
d2

	점수	년	월	일	년월	날짜_차이
생년월일
1990-03-02	90	1990	3	2	1990-03	12492 days
1991-08-08	95	1991	8	8	1991-08	11968 days
1990-11-22	90	1990	11	22	1990-11	12227 days
1991-01-05	88	1991	1	5	1991-01	12183 days

melt()를 이용한 데이터 정리#

넓은 데이터: 데이터의 열 이름이 어떤 값을 의미하면 열의 폭이 넓은 경우가 많음
melt()메서드는 지정한 열의 데이터를 모두 행으로 정리해준다.
- id_vars: 위치를 그대로 유지할 열의 이름을 지정
- value_vars: 행으로 위치를 변경할 열의 이름을 지정. 지정하지 않으면 id_vars에서 명시한 열을 제외한 모든 열이 행으로 변경된다.
- var_name: value_vars로 위치를 변경한 열의 이름을 지정
- value_name: var_name으로 위치를 변경한 열의 데이터를 저장한 열의 이름을 지정

# 종교와 소득 수준 간의 관계에 대한 정보를 담고 있는 데이터
# Pew Research Center Religion & Public Life 웹사이트
a = ['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k', '$50-75k', \
'$75-100k','$100-150k', '>150k', "Don't know/refused"]

data =[['Agnostic', 27, 34, 60, 81, 76, 137, 122, 109, 84, 96],\
       ['Atheist', 12, 27, 37, 52, 35, 70, 73, 59, 74, 76], \
       ['Buddhist', 27, 21, 30, 34, 33, 58, 62, 39, 53, 54], \
       ['Catholic', 418, 617, 732, 670, 638, 1116, 949, 792, 633, 1489], \
       ["Don't know/refused", 15, 14, 15, 11, 10, 35, 21, 17, 18, 116]]
df=pd.DataFrame(data, columns=a)
df

	religion	<$10k	$10-20k	$20-30k	$30-40k	$40-50k	$50-75k	$75-100k	$100-150k	>150k	Don't know/refused
0	Agnostic	27	34	60	81	76	137	122	109	84	96
1	Atheist	12	27	37	52	35	70	73	59	74	76
2	Buddhist	27	21	30	34	33	58	62	39	53	54
3	Catholic	418	617	732	670	638	1116	949	792	633	1489
4	Don't know/refused	15	14	15	11	10	35	21	17	18	116

1개의 열만 고정하고 나머지 열을 행으로 바꾸기

pew_long = pd.melt(df, id_vars='religion', var_name='income', value_name='count')
pew_long

	religion	income	count
0	Agnostic	<$10k	27
1	Atheist	<$10k	12
2	Buddhist	<$10k	27
3	Catholic	<$10k	418
4	Don't know/refused	<$10k	15
5	Agnostic	$10-20k	34
6	Atheist	$10-20k	27
7	Buddhist	$10-20k	21
8	Catholic	$10-20k	617
9	Don't know/refused	$10-20k	14
10	Agnostic	$20-30k	60
11	Atheist	$20-30k	37
12	Buddhist	$20-30k	30
13	Catholic	$20-30k	732
14	Don't know/refused	$20-30k	15
15	Agnostic	$30-40k	81
16	Atheist	$30-40k	52
17	Buddhist	$30-40k	34
18	Catholic	$30-40k	670
19	Don't know/refused	$30-40k	11
20	Agnostic	$40-50k	76
21	Atheist	$40-50k	35
22	Buddhist	$40-50k	33
23	Catholic	$40-50k	638
24	Don't know/refused	$40-50k	10
25	Agnostic	$50-75k	137
26	Atheist	$50-75k	70
27	Buddhist	$50-75k	58
28	Catholic	$50-75k	1116
29	Don't know/refused	$50-75k	35
30	Agnostic	$75-100k	122
31	Atheist	$75-100k	73
32	Buddhist	$75-100k	62
33	Catholic	$75-100k	949
34	Don't know/refused	$75-100k	21
35	Agnostic	$100-150k	109
36	Atheist	$100-150k	59
37	Buddhist	$100-150k	39
38	Catholic	$100-150k	792
39	Don't know/refused	$100-150k	17
40	Agnostic	>150k	84
41	Atheist	>150k	74
42	Buddhist	>150k	53
43	Catholic	>150k	633
44	Don't know/refused	>150k	18
45	Agnostic	Don't know/refused	96
46	Atheist	Don't know/refused	76
47	Buddhist	Don't know/refused	54
48	Catholic	Don't know/refused	1489
49	Don't know/refused	Don't know/refused	116

피벗 테이블을 이용한 데이터 정리#

피벗 테이블: 데이터를 요약하고 분석하는 데 사용하는 테이블
원시 데이터를 한눈에 볼 수 있도록 재구성하고, 필요에 따라 특정 변수에 따라 데이터를 그룹화하거나 집계할 수 있음
.pivot_table(df, index=인덱스리스트, values=값리스트)

salesfunnel.xlsx: 판매 거래 데이터
- Account: 거래를 진행한 고객의 계정 번호
- Name: 고객의 이름
- Rep: 거래를 진행한 판매 대표
- Manager: 판매 대표를 관리하는 매니저
- Product: 거래된 제품
- Quantity: 거래된 제품의 수량
- Price: 제품 단가
- Status: 거래의 상태 (presented, pending, declined 등)

df = pd.read_excel('https://raw.githubusercontent.com/HaesunByun/common/main/data/salesfunnel.xlsx')
df.head()

	Account	Name	Rep	Manager	Product	Quantity	Price	Status
0	714466	Trantow-Barrows	Craig Booker	Debra Henley	CPU	1	30000	presented
1	714466	Trantow-Barrows	Craig Booker	Debra Henley	Software	1	10000	presented
2	714466	Trantow-Barrows	Craig Booker	Debra Henley	Maintenance	2	5000	pending
3	737550	Fritsch, Russel and Anderson	Craig Booker	Debra Henley	CPU	1	35000	declined
4	146832	Kiehn-Spinka	Daniel Hilton	Debra Henley	CPU	2	65000	won

index는 그룹핑할 열의 이름이다.
아래 예제에서는 Manager와 Rep를 index로 하여 그룹핑하며, 그룹핑할 values는 ‘price’이다.
value를 pivot_table로 합친 경우 디폴트로 평균치로 계산된다.

pd.pivot_table(df, index=['Manager', 'Rep'], values=['Price'])

		Price
Manager	Rep
Debra Henley	Craig Booker	20000.000000
	Daniel Hilton	38333.333333
	John Smith	20000.000000
Fred Anderson	Cedric Moss	27500.000000
Fred Anderson	Wendy Yule	44250.000000

value의 값을 합산으로 하고 싶을 때 aggfunc옵션에 sum함수의 이름을 쓴다.

pd.pivot_table(df, index=['Manager', 'Rep'], values=['Price'], aggfunc=sum)

		Price
Manager	Rep
Debra Henley	Craig Booker	80000
	Daniel Hilton	115000
	John Smith	40000
Fred Anderson	Cedric Moss	110000
Fred Anderson	Wendy Yule	177000

ChatGPT 활용하기#

ChatGPT(Generative Pre-trained Transformer)는 미국의 AI 연구재단 OpenAI가 2022년 11월 공개한 초거대 언어모델 GPT-3.5 기반 대화형 인공지능 챗봇이다.
Generative(생성형), Pre-trained(미리 학습된) Transformer(변환기)
현재 Chat GPT 홈페이지(https://chat.openai.com/chat) 에서 누구나 가입 후 사용 가능하다.
사용자가 채팅 하듯 질문을 입력하면 ChatGPT는 학습한 데이터를 기반으로 ‘사람처럼’ 문장을 만들어 답을 해준다.
마치 진짜 사람과 대화하는 것처럼 자연스럽게 질문과 답변을 주고받을 수 있다.
단순 정보 짜깁기뿐 아니라 에세이・소설・시 등 다양한 창작물, 심지어 프로그래밍 코드까지 생성한다는 점에서 화제가 되고 있다.

출시일

11. 30 출시
3. 14 GPT-4 출시
3. 23 chatGPT plugins 공개
지속적 업데이트

ChatGPT 가입하기#

ChatGPT

https://chat.openai.com

ChatGPT에게 질문하기#

Q. ChatGPT에게 질문해보세요.

ChatGPT란 뭐야?
인공지능에 대한 시를 작성해줘
ChatGPT 활용 분야를 알려줘
Chat GPT는 접속이 원활한 시간이 언제야?
Chat GPT 유료와 무료의 차이를 설명해줘
세상에서 가장 아름다운 곳은?
세익스피어 작품에 대해 가르쳐 줘

코랩의 AI코딩#

코랩에서도 AI로 코드를 생성할 수 있다.
다만 workspace계정(일반적으로 팀이나 조직 내에서 협업하고 업무를 관리하기 위해 사용되는 계정)은 지원하지 않는다.
즉 학교메일로 로그인한 구글계정에서는 사용할 수 없다.

Practice-1: Chat-GPT로 서울인구데이터 활용해보기#

데이터 다운로드 사이트 : https://data.seoul.go.kr/
검색어: 서울시 자치구별 인구수
목표:
- 각 구별 한국인의 비율 구하기
- 각 구별 외국인의 비율 구하기
- 각 구별 고령자의 비율 구하기
- 인구수가 적은 순서대로 5개 구 출력하기
- 외국인 수 내림차순 정렬하기
- 고령자 비율 오름차순 정렬하기
- 인구수가 가장 많은 자치구와 인구수 최대값 구하기
- 인구수가 가장 적은 자치구와 인구수 최소값 구하기
- 인구수와 고령자수 간의 상관 관계 구하기

😄 필요한 칼럼만 불러와서 데이타프레임 생성하기

다운로드한 파일을 열어서 아래의 옵션에 사용할 칼럼을 살펴본다.
header: 칼럼 이름 지정
index_col: index로 지정할 칼럼 지정
use_cols: 사용할 칼럼 지정

😄 데이타프레임 칼럼명 변경하기

😄 데이타프레임 인덱스 설정하기

😄 불필요한 행 삭제하기

😄 값 구하기

각 구별 한국인의 비율 구하기
각 구별 외국인의 비율 구하기
각 구별 고령자의 비율 구하기

😄 값에 따라 정렬하기

- 인구수가 적은 순서대로 5개 구 출력하기
- 외국인 수 내림차순 정렬하기
- 고령자 비율 오름차순 정렬하기

😄 데이타프레임 필요한 통계내기

- 인구수가 가장 많은 자치구와 인구수 최대값 구하기
- 인구수가 가장 적은 자치구와 인구수 최소값 구하기
- 인구수와 고령자수 간의 상관 관계 구하기