SQL

SQL Pivot table

추운날_너를_기다리며 2024. 6. 27. 16:33

[목표]
- 데이터에서 예상하지 못한 값이 나왔을 때 (이상한 값, 값이 없음 등), 분석에 적절하게 처리한다
- SQL로 엑셀에서 자주 사용하는 형태로 데이터를 만든다
- 업무에 활용할 수 있는 다양한 SQL 심화 문법을 익힌다

1. Subquery. Join 복습하고 이번 수업 내용 맛보기
1) Subquery, Join 복습하기
- Subquery
select column1, special_column
from
    ( /* subquery */
    select column1, column2 special_column
    from table1
    ) a
    
    - Join
-- LEFT JOIN
select 조회 할 컬럼
from 테이블1 a left join 테이블2 b on a.공통컬럼명=b.공통컬럼명

-- INNER JOIN
select 조회 할 컬럼
from 테이블1 a inner join 테이블2 b on a.공통컬럼명=b.공통컬럼명

2) 이번 수업에서 배울 내용 맛보기
- 예상하지 못한 값이 Query 결과에 나올 때 어떻게 처리해야 할까?
- 엑셀에서 해야하는 Pivot, SQL 로 한 번에 구현할 수 있을까?
- SQL 로 이런 것까지 할 수 있었다니! 업무 시간이 엄청 줄어들 것 같은데!

2. 조회한 데이터에 아무 값이 없다면 어떻게 해야할까?
1) 데이터가 없을 때의 연산 결과 변환 케이스
- 테이블에 잘못된 값이 들어있을 수 있습니다.
- Join 을 했을 때 값이 없는 경우도 확인 했었죠.
- 사용할 수 없는 데이터가 들어있거나, 값이 없는 경우에 어떻게 처리해주는 것이 좋을까요?
(데이터를 사용할 때 매우 흔한 경우입니다!)

2) [방법1]없는 값을 제외해주기
- Mysql 에서는 사용할 수 없는 값일 때 해당 값을 연산에서 제외해줍니다. -> 0으로 간주
- 즉 평균 rating 을 구하는 쿼리를 아래와 같이 작성했을 때 실제 연산에 사용되는 데이터는 다음과 같습니다.
select restaurant_name,
       avg(rating) average_of_rating,
       avg(if(rating<>'Not given', rating, null)) average_of_rating2
from food_orders
group by 1

if(rating<>'Not given', rating, null) = Not given이 아니라면 rating 맞다면 null

- 따라서, 명확하게 연산을 지정해주기 위해 null 문법을 이용해봅시다.
select a.order_id,
       a.customer_id,
       a.restaurant_name,
       a.price,
       b.name,
       b.age,
       b.gender
from food_orders a left join customers b on a.customer_id=b.customer_id
where b.customer_id is not null 

3) [방법2] 다른 값을 대신 사용하기
- 사용할 수 없는 값 대신 다른 값을 대체해서 사용하는 방법이 있습니다.
- 데이터 분석 시에는 평균값 혹은 중앙값 등 대표값을 이용하여 대체해주기도 합니다.
- 다른 값으로 변경하고 싶을 때, 다음 두 개의 문법을 이용할 수 있습니다.
- 다른 값이 있을 때 조건문 이용하기 : if(rating>=1, rating, 대체값)
- null 값일 때 : coalesce(age, 대체값)
- null 을 다른 값으로 대체한 쿼리문을 실행하면 다음과 같습니다.
customer 테이블에 없는 데이터 중에 age만 20으로 채워진 것을 확인하실 수 있습니다.
select a.order_id,
       a.customer_id,
       a.restaurant_name,
       a.price,
       b.name,
       b.age,
       coalesce(b.age, 20) "null 제거",
       b.gender
from food_orders a left join customers b on a.customer_id=b.customer_id
where b.age is null

3. 조회한 데이터가 상식적이지 않은 값을 가지고 있다면 어떻게 해야할까?
1) 상식적이지 않은 데이터의 예시
- 데이터가 비어있는 경우도 있지만, 상식적이지 않은 경우도 있습니다.
- 케이스1 - 주문 고객의 나이
- 보통 음식을 주문한 고객은 20세 이상인 성인인 경우가 많습니다. 하지만 데이터를 보면 2세와 같이 상식적이지 않은 값들을 확인할 수 있습니다.
- 케이스2 - 결제 일자
- 결제의 경우, 비교적 최근인 일자가 있어야 상식적일 것입니다. 하지만, 데이터를 보면 1970년대와 같이 상식적이지 않은 값들을 확인할 수 있습니다.

2) [방법] 조건문으로 값의 범위를 지정하기
- 조건문으로 가장 큰 값, 가장 작은 값의 범위를 지정해 줄 수 있습니다.
-> 상식적인 수준 안에서 범위를 지정해줍니다.
- 위의 나이의 경우 아래와 같은 범위를 지정해 줄 수 있습니다.
select customer_id, name, email, gendor, age,
       case when age<15 then 15
            when age>80 then 80
            else age end "범위를 지정해준 age"
from customers
- 범위를 지정해준 결과, 15세 미만이거나 80세 초과인 경우 15, 80으로 각각 대체된 것을 확인 할 수 있습니다.

4. [실습] SQL 로 Pivot Table 만들어보기
1) Pivot table 구조 소개
- Pivot table 이란? : 2개 이상의 기준으로 데이터를 집계할 때, 보기 쉽게 배열하여 보여주는 것을 의미합니다.
Pivot table 의 기본 구조
구분 컬럼
집계 기준   데이터
- Pivot table의 예시
- 집계 기준 : 일자, 시간

2) [실습] 음식점별 시간별 주문건수 Pivot Table 뷰 만들기 (15~20시 사이, 20시 주문건수 기준 내림차순)
- 음식점별, 시간별 주문건수 집계하기
select a.restaurant_name,
       substring(b.time, 1, 2) hh,
       count(1) cnt_order
from food_orders a inner join payments b on a.order_id=b.order_id
where substring(b.time, 1, 2) between 15 and 20
group by 1, 2

- Pivot view 구조 만들기
select restaurant_name,
       max(if(hh='15', cnt_order, 0)) "15",
       max(if(hh='16', cnt_order, 0)) "16",
       max(if(hh='17', cnt_order, 0)) "17",
       max(if(hh='18', cnt_order, 0)) "18",
       max(if(hh='19', cnt_order, 0)) "19",
       max(if(hh='20', cnt_order, 0)) "20"
from 
(
select a.restaurant_name,
       substring(b.time, 1, 2) hh,
       count(1) cnt_order
from food_orders a inner join payments b on a.order_id=b.order_id
where substring(b.time, 1, 2) between 15 and 20
group by 1, 2
) a
group by 1
order by 7 desc

3) [실습] 성별, 연령별 주문건수 Pivot Table 뷰 만들기 (나이는 10~59세 사이, 연령 순으로 내림차순)
- 성별, 연령별 주문건수 집계하기
select b.gender,
       case when age between 10 and 19 then 10
            when age between 20 and 29 then 20
            when age between 30 and 39 then 30
            when age between 40 and 49 then 40
            when age between 50 and 59 then 50 end age,
       count(1)
from food_orders a inner join customers b on a.customer_id=b.customer_id
where b.age between 10 and 59
group by 1, 2

- Pivot view 구조 만들기
select age,
       max(if(gender='male', order_count, 0)) male,
       max(if(gender='female', order_count, 0)) female
from 
(
select b.gender,
       case when age between 10 and 19 then 10
            when age between 20 and 29 then 20
            when age between 30 and 39 then 30
            when age between 40 and 49 then 40
            when age between 50 and 59 then 50 end age,
       count(1) order_count
from food_orders a inner join customers b on a.customer_id=b.customer_id
where b.age between 10 and 59
group by 1, 2
) t
group by 1
order by age desc

5. 업무 시작을 단축시켜 주는 마법의 문법 (Window Function - rank, sum)
1) Window Function의 사례와 기본 구조
- Window Function 은 각 행의 관계를 정의하기 위한 함수로 그룹 내의 연산을 쉽게 만들어줍니다.
- 말만 들으면 매우 어렵게 느껴지는데요, 예를 들어 다음의 경우를 생각해봅시다.
    - 한식 식당 중에서 주문건수가 많은 순으로 순위를 매기고 싶은데요, 가능할까요?
    - 한식 식당 전체 주문건수 중에서 A 식당이 차지하는 비율을 알고 싶은데 가능할까요?
    - 2건 이상 주문을 한 소비자 중에, 처음 주문한 식당과 2번째로 주문한 식당을 같이 조회할 수 있을까요?
- 기본 SQL 구조로 해결하기 위해서는 복잡하게 Subquery 문을 이용하거나, 여러번의 연산을 수행해줘야 하지만, 자체적으로 제공해주는 기능을 이용하면 조금 더 편리합니다. 
→ 바로 이 기능들이 Window function 으로 제공되고 있습니다.
- Window Function 의 기본 구조
window_function(argument) over (partition by 그룹 기준 컬럼 order by 정렬 기준)
    
    - window_function : 기능 명을 사용해줍니다. (sum, avg 와 같이 기능명이 있습니다)
    - argument : 함수에 따라 작성하거나 생략합니다.
    - partition by : 그룹을 나누기 위한 기준입니다. group by 절과 유사하다고 생각해주시면 됩니다.
    - order by : window function 을 적용할 때 정렬 할 컬럼 기준을 적어줍니다.

2) [실습1] N 번째까지의 대상을 조회하고 싶을 때, Rank
- Rank 는 이름에서 유추할 수 있듯이 '특정 기준으로 순위를 매겨주는' 기능입니다.
- 예를 들어, 주문 건수별 순위 매기기, 결제 시간이 빠른 순으로 순위 매기기 등이 가능합니다.
- [실습] 음식 타입별로 주문 건수가 가장 많은 상점 3개씩 조회하기
1. 음식 타입별, 음식점별 주문 건수 집계하기
select cuisine_type, restaurant_name, count(1) order_count
from food_orders
group by 1, 2

2. Rank 함수 적용하기
select cuisine_type,
       restaurant_name,
       rank() over (partition by cuisine_type order by order_count desc) rn,
       order_count
from
(
select cuisine_type, restaurant_name, count(1) order_count
from food_orders
group by 1, 2
) a

3. 3위까지 조회하고 음식타입별, 순위별로 정렬하기
select cuisine_type,
       restaurant_name,
       order_count,
       rn "순위"
from
(
select cuisine_type,
       restaurant_name,
       rank() over (partition by cuisine_type order by order_count desc) rn,
       order_count
from
(
select cuisine_type, restaurant_name, count(1) order_count
from food_orders
group by 1, 2
) a
) b
where rn<=3
order by 1, 4

3) [실습2] 전체에서 차지하는 비율, 누적합을 구할 때, Sum
- Sum 은 앞서 배운 합계를 구하는 기능과 동일합니다.
- 다만, 누적합이 필요하거나 카테고리별 합계컬럼과 원본 컬럼을 함께 이용할 때 유용하게 사용할 수 있습니다.
- [실습] 각 음식점의 주문건이 해당 음식 타입에서 차지하는 비율을 구하고, 주문건이 낮은 순으로 정렬했을 때 누적 합 구하기
1. 음식 타입별, 음식점별 주문 건수 집계하기
select cuisine_type, restaurant_name, count(1) order_count
from food_orders
group by 1, 2

2. 카테고리별 합, 카테고리별 누적합 구하기
select cuisine_type,
       restaurant_name,
       order_count,
       sum(order_count) over (partition by cuisine_type) sum_cuisine_type,
       sum(order_count) over (partition by cuisine_type order by order_count, restaurant_name) cumulative_sum
from
(
select cuisine_type, restaurant_name, count(1) order_count
from food_orders
group by 1, 2
) a

- 이 외의 Window Function을 알고싶다면, 여러가지를 검색해서 사용해보는 것을 추천합니다.

6. 날짜 포맷과 조건까지 SQL로 한 번에 끝내기 (포맷 함수)
1) 날짜 데이터의 이해
- 문자타입, 숫자타입과 같이 날짜 데이터도 특정한 타입을 가지고 있습니다.
- 년, 월, 일, 시, 분, 초 등의 값을 모두 갖고 있으며 목적에 따라 '월', '주', '일' 등으로 포맷을 변경할 수도 있습니다.

2) [실습1] 날짜 데이터의 여러 포맷
- yyyy-mm-dd 형식의 컬럼을 data type 으로 변경하기

- data type 을 data_format 을 이용하여 년, 월, 일, 주 로 조회해보기
a. 년: Y (4자리), y(2자리)
b. 월: M, m
c. 일: d, e
d. 요일: w
select date(date) date_type,
       date_format(date(date), '%Y') "년",
       date_format(date(date), '%m') "월",
       date_format(date(date), '%d') "일",
       date_format(date(date), '%w') "요일"
from payments

3) [실습2]
- 년도, 월을 포함하여 데이터 가공하기
select date_format(date(date), '%Y') y,
       date_format(date(date), '%m') m,
       order_id
from food_orders a inner join payments b on a.order_id=b.order_id

- 년도, 월별 주문건수 구하기
select date_format(date(date), '%Y') y,
       date_format(date(date), '%m') m,
       count(1) order_count
from food_orders a inner join payments b on a.order_id=b.order_id
group by 1, 2

- 3월 조건으로 지정하고, 년도별로 정렬하기
select date_format(date(date), '%Y') y,
       date_format(date(date), '%m') m,
       count(1) order_count
from food_orders a inner join payments b on a.order_id=b.order_id
where date_format(date(date), '%m')='03'
group by 1, 2
order by 1

7. HW.5주차 숙제 해설
- 음식 타입별, 연령별 주문건수 Pivot view 만들기 (연령은 10~59세 사이)
1) SQL 기본구조 작성하기
2) Pivot view를 만들기 위해 필요한 데이터 가공하기
3) Pivot view 문법에 맞추어 수정하기

select cuisine_type,
       max(if(age=10, order_count, 0)) "10대",
       max(if(age=20, order_count, 0)) "20대",
       max(if(age=30, order_count, 0)) "30대",
       max(if(age=40, order_count, 0)) "40대",
       max(if(age=50, order_count, 0)) "50대"
from 
(
select a.cuisine_type,
       case when age between 10 and 19 then 10
            when age between 20 and 29 then 20
            when age between 30 and 39 then 30
            when age between 40 and 49 then 40
            when age between 50 and 59 then 50 end age,
       count(1) order_count
from food_orders a inner join customers b on a.customer_id=b.customer_id
where age between 10 and 59
group by 1, 2
) t
group by 1


SELECT cuisine_type,
MAX(if(age = 10, order_count, 0)) "10대",
MAX(if(age = 20, order_count, 0)) "20대",
MAX(if(age = 30, order_count, 0)) "30대",
MAX(if(age = 40, order_count, 0)) "40대",
MAX(if(age = 50, order_count, 0)) "50대"
from
(
SELECT cuisine_type,
case when age between 10 and 19 then 10
            when age between 20 and 29 then 20
            when age between 30 and 39 then 30
            when age between 40 and 49 then 40
            when age between 50 and 59 then 50 end age,
count(1) order_count
from food_orders fo inner join customers c on fo.customer_id = c.customer_id
where age BETWEEN 10 and 59
group by 1, 2
) a
group by 1

Pivot table을 만들때 조건이 음식 타입별, 연령별 주문건수 pivot view 만들기
이렇게 라면 음식 타입별과 연령별 주문건수를 먼저 Subquery 문에서 미리 나눈 다음에 해야한다.

'SQL' 카테고리의 다른 글

SQL subquery, join  (0) 2024.06.26
SQL substring, concat, if, case  (0) 2024.06.25
SQL 구조 마스터하기  (0) 2024.06.20
SQL 기본  (0) 2024.06.19