Declie 분석 데이터를 10단계로 분할해서 중요도를 파악하는 방법 (Decile 은 10분의 1 의미) [데이터] Decile 분석과정 1. 사용자를 구매 금액이 많은 순으로 정렬 2. 정렬된 사용자 상위 부터 10%씩 Declie 1 부터 Decile 10 까지의 그룹을 할당 3. 각 그룹의 구매 금액 합계를 집계 4. 전체 구매 금액에 대해 각 Decile의 구매 금액 비율를 계산 5. 상위에서 누적으로 어느 정도의 비율을 차지하는지 구성비누계를 집계 구매액이 많은 순서로 사용자 그룹을 10등분하는 쿼리 # 구매액이 많은 순서로 사용자 그룹을 10등분하는 쿼리 WITH user_purchase_amount AS ( SELECT user_id ,SUM(amount) AS purchase_amount..
잔존율 서비스 등록 후 수개월 후에 어느 정도 비율의 사용자가 서비스를 지속해서 사용하고 있는지 보여지는 비율 2016년 1월 2016년 2월 2016년 3월 2016년 4월 2016년 5월 2016년 6월 2016년 1월 100(100%) 2016년 2월 90 (90%) 150(100%) 2016년 3월 80(80%) 120(80%) 120(100%) 2016년 4월 70(70%) 90(60%) 90(75%) 200(100%) 2016년 5월 60(60%) 60(40%) 90(75%) 150(75%) 250(100%) 2016년 6월 50(50%) 30(20%) 30(25%) 100(50%) 125(50%) 220(100%) [사용자의 잔존율] 다음과 같은 항목에 문제점이 없는지 확인할 수 있다. 1...
컬럼의 데이터 타입을선정하는 작업은 물리 모델링에서 빼놓을 수 없는 중요한 작업니다. 컬럼의 타입과 길이를 선정할 때 가장 주의해야 할 사항은 저장되는 값의 성격에 맞는 최적의 타입을 선정 가변 길이 컬럼은 최적의 길이를 지정 조인 조건으로 사용되는 컬럼은 똑같은 데이터 타입을 선정 무분별하게 컬럼의 길이가 크게 선정되면 디스크 공간은 물론 메모리나 CPU의 자원도 함께 낭비된다. 문자열(CHAR 와 VARCHAR ) 공통점은 문자열을 저장할 수 있는 데이터 타입이라는 점, 차이는 고정 길이인지 가변길이 인지 여부 고정길이는 실제 입력되는 컬럼 값의 길이에 따라 사용하는 저장 공간의 크기는 변하지 않는다. 가변길이는 최대로 저장할 수 있는 값의 길이는 제한돼 있지만, 그 이하 크기의 값이 저장되면 그 만..
GROUP BY 절의 인덱스 사용 GROUP BY 절에 명시된 컬럼의 순서가 인덱스를 구성하는 컬럼의 순서와 같으면 GROUP BY 절은 이용할 수 있다. ( 다중 컬럼 인덱스 기준 , 단일 컬럼 인덱스도 동일) GROUP BY 절에 명시된 컬럼이 인덱스 컬럼의 순서와 위치가 같다. 인덱스를 구성하는 컬럼 중에 뒤쪽에 있는 컬럼은 GROUP BY절에 명시되지 않아도 인덱스를 사용할 수 있지만 인덱스의 앞쪽에 있는 컬럼이 GROUP BY 절에 명시되지 않으면 인덱스를 사용할 수 없다. WHERE 조건절과는 달리, GROUP BY 절에 명시된 컬럼이 하나라도 인덱스에 없으면 GROUP BY절은 전혀 인덱스를 이용하지 못한다. 인덱스 사용규칙 (COL1 + COL2 + COL3 + COL4) 로 만들어진 인덱..
- Total
- Today
- Yesterday
- 로그
- WEB
- pytest
- MYSQL
- 네트워크
- nginx
- ios
- flask
- python
- logstash
- ElasticSearch
- network
- SWIFT
- docker
- 엘라스틱서치
- spark
- linux
- 리눅스
- SQL
- BigData
- 도커
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |