응용-매출,가장 많이 팔린 아이템 확인하기


  1. 아이템별 지표 확인하기
  2. 시간별 지역별 판매 지표 확인하기
import numpy as np
import pandas as pd
# seaborn
import seaborn as sns
COLORS = sns.color_palette()

%matplotlib inline 
# 그래프를 노트북 안에 그리기 위해 설정
# matplotlib 한글 폰트 출력코드
import matplotlib.pyplot as plt
import matplotlib

from matplotlib import style
from matplotlib import font_manager , rc
import platform
platform.platform() #'Windows-10-10.0.19041-SP0' / 시스템 운영체제 확인 가능

try :
    if platform.sys() == 'windows':
        # 윈도우인 경우
        font_name = fontmanager.FontProperties(fname="c:/windows/Fonts/나눔고딕.ttf").get_name()
        rc('font', family=font_name)
        #max 인 경우
        rc('font', family='AppleGothic')
matplotlib.rcParams['axes.unicode_minus'] = False
# rcParams 폰트 크기를 지정하기 
# 그래프에서 마이너스 기호가 표시되도록 하는 설정입니다. 

#I was able to get rid of the RuntimeWarning by declaring the font usage with:
#plt.rcParams["font.serif"] = "nanumGothic"
# 참조 -https://github.com/matplotlib/matplotlib/issues/17007
import matplotlib.pyplot as plt
plt.rcParams["font.serif"]= "nanumGothic"
fig, ax = plt.subplots()

ax.set_title('my font')
ax.set_xlabel(r'my font $\alpha\beta\gamma$')


데이터 로딩

  1. 정제된 데이터 사용(OnlineRetailCleanhangle.csv)
dtypes = {
    '상품 가격': np.float32,
    '고객 아이디': np.int32,
    '주문 수량': np.int32
# 한글 깨짐 해결 방안
#[거의 해결] 해결책 (3) - Excel에서 인코딩 옵션 변경
# 파일을 우선 Excel에서 열어줍니다.
# 파일 - 다른 이름으로 저장에서 - CSV UTF-8 (쉼표로 분리) 로 변경하여 저장합니다.

retail = pd.read_csv('./OnlineRetailCleanhangle.csv', 
                     dtype=dtypes , 
                     encoding = 'utf-8')
Unnamed: 0 주문 번호 아이템 아이디 상품 설명 주문 수량 주문 시각 상품 가격 고객 아이디 고객 거주 지역 총 주문 가격
0 0 536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 6 12/1/2010 8:26 2.55 17850 United Kingdom 15.30
1 1 536365 71053 WHITE METAL LANTERN 6 12/1/2010 8:26 3.39 17850 United Kingdom 20.34
2 2 536365 84406B CREAM CUPID HEARTS COAT HANGER 8 12/1/2010 8:26 2.75 17850 United Kingdom 22.00
3 3 536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 6 12/1/2010 8:26 3.39 17850 United Kingdom 20.34
4 4 536365 84029E RED WOOLLY HOTTIE WHITE HEART. 6 12/1/2010 8:26 3.39 17850 United Kingdom 20.34

날짜 타입 데이터 변환

  • 문자열로 로딩하는 것보다 date/datetime 타입으로 로딩하는 것이 분석에 용이
retail['주문 시각'] = pd.to_datetime(retail['주문 시각'], infer_datetime_format=True)# infer_datetime_format=True 날짜시간 포맷 추정해서 파싱하기
retail.info() #5  주문 시각       397884 non-null  datetime64[ns]  바꿔짐
해당 기간 동안의 매출

  • 전체 매출
  • 국가별 매출
  • 월별 매출
  • 요일별 매출
  • 시간별 매출

전체 매출

total_revenue = retail['총 주문 가격'].sum()

국가별 매출

rev_by_countries = retail.groupby('고객 거주 지역').sum()['총 주문 가격'].sort_values(ascending=False) # 내림차순 : ascending=False
plot = rev_by_countries.plot(kind='bar', color=COLORS[-1], figsize=(20, 10))
plot.set_xlabel('고객 거주 지역', fontsize=25)
plot.set_ylabel('매출', fontsize=25)
plot.set_title('국가별 매출', fontsize=23)
plot.set_xticklabels(labels=rev_by_countries.index, rotation=75, fontsize=13)
rev_by_countries / total_revenue #비율 확인할 수 있다.
그래프 유틸 함수

def plot_bar(df, xlabel, ylabel, title, color=COLORS[-7], figsize=(20, 10), rotation=45):
    plot = df.plot(kind='bar', color=color, figsize=figsize)
    plot.set_xlabel(xlabel, fontsize=25)
    plot.set_ylabel(ylabel, fontsize=25)
    plot.set_title(title, fontsize=30)
    plot.set_xticklabels(labels=df.index, rotation=75 , fontsize=13)
plot_bar(rev_by_countries, '고객 거주 지역', '매출', '국가별 매출')


grouped = retail.groupby('고객 거주 지역')
grouped_sr = grouped.size()
plt.title('국가별 매출', size=50)

plt.legend(grouped_sr.index, loc='best')


  • grouped_sr.index 가 많다보니 글씨가 잘 안보인다.
                    shadow = True,
                    textprops = {'fontsize' : 14},
                    autopct='%1.0f%%') # 파이 조각의 전체 대비 백분율 

plt.title('국가별 매출', size=50)

plt.legend(grouped_sr.index, loc='best')


월별 매출

retail['주문 시각'].sort_values(ascending=False)
def extract_month(date):
    month = str(date.month)
    if date.month < 10:
        month = '0' + month
    return str(date.year) + month 
rev_by_month = retail.set_index('주문 시각').groupby(extract_month).sum()['총 주문 가격']

plot_bar(rev_by_month, '월별', '매출', '월별 매출')


요일별 매출

rev_by_dow = retail.set_index('주문 시각').groupby(lambda date:date.dayofweek).sum()['총 주문 가격']
rev_by_dow  ## dayofweek - [Monday 0 ~ Sunday 6]
DAY_OF_WEEK = np.array(['월요일', '화요일', '수요일', '목요일', '금요일', '토요일', '일요일'])
rev_by_dow.index = DAY_OF_WEEK[rev_by_dow.index]
plot_bar(rev_by_dow, '요일', '매출', '요일 별 매출')


시간별 매출

rev_by_hour = retail.set_index('주문 시각').groupby(lambda date:date.hour).sum()['총 주문 가격']
plot_bar(rev_by_hour, '시간', '매출', '시간별 매출')


매출 데이터로부터 insight

  • 전체 매출의 82%가 UK에서 발생
  • 11년도의 가장 많은 주문이 발생한 달 11월(12월의 전체 데이터가 반영이 되진 않았음)
  • 11, 12월의 판매량이 압도(블랙프라이데이, 사이버먼데이, 크리스마스 휴일)
  • 일주일중 목요일까지는 성장세를 보이다가, 이후로 하락(토요일에는 주문X)
  • 7시를 시작으로 주문이 시작되어 12시까지 증가세, 15시까지 하락을, 15시 이후 부터 급락)

제품별 metrics

  • Top 10 판매 제품
  • Top 10 매출 제품
top_selling = retail.groupby('아이템 아이디').sum()['주문 수량'].sort_values(ascending=False)[:3]
top_revenue = retail.groupby('아이템 아이디').sum()['총 주문 가격'].sort_values(ascending=False)[:10]
top 3 아이템의 월별 판매량 추이

retail.set_index('주문 시각').groupby(['아이템 아이디', extract_month]).sum()[['주문 수량', '총 주문 가격']].loc[top_selling.index]
monthly_top3 = retail.set_index('주문 시각').groupby(['아이템 아이디', extract_month]).sum()[['주문 수량', '총 주문 가격']].loc[top_selling.index]
plot_bar(monthly_top3['총 주문 가격'], '아이템/월별', '매출', '탑 3 아이템 매출')
