오늘도 조용히 공부하는 타닥타닥 모닥불🔥
마케팅 데이터 분석 및 이번에는 제품 포트폴리오 분석 내용을 정리하려고 한다.
이미지를 클릭하면 강의 사이트로 이동한다.
* 가입 시 5천원 주는 추천인 코드: EQQW-36EH-JY4P 추가해주시면 감사합니다.
🔥 강의 목차
오리엔테이션
파이썬 기초 문법
데이터 전처리
데이터 시각화
마케팅 데이터 분석 및 지표 정의하기
🔥 제품 포트폴리오 분석(1) 데이터 파악
이번 강의에서는 시각화를 이용하여 간단한 분석을 실습했다. 필요한 라이브러리는 기본적인 판다스(pandas), 넘파이(numpy), 그리고 시각화를 위한 plotly.express
import pandas as pd
import numpy as np
import plotly.express as px
아래 데이터를 가지고 분석을 할 것이다. 아래 데이터는 제품에 대한 주문 양, 가격, 할인률, 비용, 카테고리, 상품번호, 주문일 등을 나타낸 제품 데이터이다.
df.head()
처음 보는 데이터가 있을 때는, 먼저 describe() 함수로 수치형 데이터의 평균, 표준편차 등 기본적인 데이터를 살펴보면 좋다.
df.describe()
대략적으로 봤을 때, 할인률은 보통 0.01(1%) 이내로 낮은 편이다. cost는 평균 70% 정도이다. 와 같은 정보들을 확인한다.
그리고 분석 전에는 데이터 타입을 반드시 확인해야 한다. info()로 데이터 타입을 확인하면, 주문일(order_date) 데이터가 object 형으로 되어 있다. 날짜/시간 데이터가 object 형태이면 datetime 함수들을 사용하기 어려우니 타입을 변경해야 한다.
df.info()
datetime 형태로 변경 후 변경되었는지 확인한다.
df['order_date'] = pd.to_datetime(df.order_date)
df.info()
order_id가 유니크한 값이라면 행 개수인 5000개와 동일할 것이다. 확인을 위해 nunique()로 order_id 컬럼의 유니크 값 개수를 확인한다.
df['order_id'].nunique()
groupby()를 이용하여 카테고리별, 상품 아이디별로 데이터가 몇 개씩 있는지도 확인한다.
df.groupby(by = ['category', 'product_id']).size()
다음 글에서는 분석에 필요한 컬럼을 추가하고 검산하는 부분을 정리한다.
'빅데이터분석' 카테고리의 다른 글
[헷갈리는 파이썬] f-string과 문자열 format 메서드의 차이점은? 문자열 내 변수 삽입 (0) | 2024.07.25 |
---|---|
[메타코드] 파이썬 입문 데이터분석 - 제품 포트폴리오 분석 (2) 필요한 컬럼 추가하기 (1) | 2024.07.21 |
[헷갈리는 파이썬] Null, Na, NaN 결측치 이름 차이, isnull()과 isna()의 차이? (판다스 공식 문서 참고) (0) | 2024.07.12 |
[메타코드] 파이썬 입문 데이터분석 프로젝트 만들기 - 마케팅 데이터 전처리 & 자동화 프로젝트 (2) 전처리 (1) | 2024.06.30 |
[메타코드 강의 후기 포함] 빅데이터분석기사 8회차 실기(파이썬) 시험 후기 (0) | 2024.06.24 |