멀티캠퍼스 자격검정 서비스

샘플문항

01.
산점도 그래프를 만들고 확인해 볼 점으로 옳지 않은 것은 무엇인가?
02.
통계학 과목의 평균점수는 70점이고 표준편차는 10점이다. 담당교수가 상위 10%의 점수에 A 학점을 주려고 한다면, A 학점을 받기 위한 최저 점수는 몇 점인가?

(Hint: P(Z<-1.96)=0.025, P(Z<-1.645)=0.05, P(Z<-1.28)=0.10)

03.
연말정산 서류 중에 약 40%는 오류가 있다고 알려져 있다. 만약 3개의 연말정산 서류를 조사했을 때, 1 개 이상의 서류가 오류를 가지고 있을 확률은 (0.4)³이다
04.
다음 표에 대해서 F1 measure를 계산하시오.

05.
왼쪽으로 길게 뻗은(왼쪽 꼬리가 긴) 데이터에 관한 설명으로 가장 올바른 것은 무엇인가?
06.
평균에 대한 신뢰구간의 계산에서, 표본의 크기가 2배로 커지면 신뢰구간의 너비는 1/2로 좁아진다.
07.
6명의 학생들을 무작위로 선발하여 새로운 영어 학습법을 배우기 전과 배운 후의 성적을 조사하여 다음과 같은 결과를 얻었다. 각 학생에 대해 새로운 학습법과 기존 학습법 간에 차이가 존재하는지, 그리고 새로운 학습법이 기존 학습법에 비해서 더 우수하다고 할 수 있는지를 검정하기 위한 적당한 방법은 무엇인가?

08.
결측치(Missing Value)에 대한 설명으로 옳지 않은 것은?
09.
로지스틱 회귀분석(Logistic Regression)이 분류 경계면을 찾는 방법에 대한 설명으로 옳은 것은 무엇인가?
10.
Regression Tree의 출력 모양으로 가장 적합한 것은 무엇인가?
(점은 학습 데이터이고, 실선은 Regression Tree의 출력이다)
  • 문항의 정답은 해당 회차의 시험 환경에서 산출된 결괏값을 기반으로 작성되었으며,
    실기 문항은 패키지/라이브러리 버전에 따라 정답이 상이할 수 있습니다.
  • 사전에 신청한 실기툴 한 가지에 대해, '필요 패키지/라이브러리 목록'과 '툴가이드'가 주어집니다.
글로벌 유통 회사에서 매출액을 증대시킬 수 있는 마케팅 방법을 찾기 위하여,
채널별 반응과 매출금액과의 관계를 분석하고자 한다.

01_ADS_sample_1.csv(구분자: comma(“,”), 169 Rows, 5 Columns, UTF-8 인코딩)

컬럼 정의 Type
YEAR_MONTH 년월, YYYY-MMM 형태 (2018-Jan) String
SOCIAL 일평균 SNS 조회수 Double
TV 일평균 TV광고 시청자수 Double
NEWSPAPER 일평균 신문기사 구독자수 Double
SALES_AMT 매출금액 Double
01.
(ADS_sample_1.csv를 활용하여) 년월(YEAR_MONTH) 변수를 제외한 변수들에 대해 상관분석을 수행하고자 한다. 매출금액(SALES_AMT)과 상관 정도가 가장 강한(상관계수 절대값이 가장 큰) 변수를 찾고 해당 변수와 매출금액(SALES_AMT)과의 상관계수 값을 기술하시오. (배점 5점)
※ 참고사항
- 피어슨(Pearson) 상관계수 값을 구하시오
- 상관계수는 절대값을 취하지 않은 상관계수 값 그대로, 소수점 넷째 자리에서 반올림하여 셋째 자리까지 기술하시오. (답안예시 : 0.123)
(정답보기)
Brightics : -0.183, Python : -0.183, R : -0.183
02.
(ADS_sample_1.csv를 활용하여) 2009년 매출금액(SALES_AMT) 대비 2019년 매출금액(SALES_AMT)의 변화 정도를 확인하고자 한다. 다음 수식을 이용하여 증감률(%)을 기술하시오. (배점 : 10점)

※ 참고사항
- 연도는 년월(YEAR_MONTH) 변수로부터 추출하며, 연도별 매출금액합계는 1월부터 12월까지의 매출 총액을 의미한다.
- 증감률(%)은 소수점 넷째 자리에서 반올림하여 셋째 자리까지 기술하시오. (답안예시 : 1.234)
(정답보기)
Brightics : 0.194, Python : 0.194, R : 0.194
03.
(ADS_sample_1.csv를 활용하여) 2009년과 2019년의 매출금액(SALES_AMT) 평균이 통계적으로 유의한 차이가 있는지 검정하고자 한다. 적절한 검정 수행 후, 유의 확률(P-value)의 값을 기술하시오.
단, 검정 시 세운 대립 가설(H₁)은 다음과 같다.
대립 가설(H₁): 2009년과 2019년의 매출금액의 평균이 같지 않다
※ 참고사항
- 등분산 가정 하에서 검정을 수행한다.
- 2009년 매출금액(SALES_AMT) 12건과 2019년 매출금액(SALES_AMT) 12건에 대한 평균 검정으로, 해당 검정의 검정통계량은 자유도가 22인 t 분포를 따른다
- 유의 확률(P-value)값은 소수점 넷째 자리에서 반올림하여 셋째 자리까지 기술하시오. (답안예시 : 0.123)

툴별 가이드

툴별 가이드
Brightics 문제 지시 외 Default값 사용
R t.test() 함수의 var.equal=T 옵션 사용
문제 지시 외 Default 값 사용
Python from scipy import stats
(정답보기)
Brightics : 0.991, Python : 0.991, R : 0.991

Associate(입문) 실기 샘플 풀이 (Brightics) 동영상 보기
01.
다음 중 분해 시계열의 요소가 아닌 것은 무엇인가?
02.
X, Y의 관련 값이 다음과 같을 때, 회귀선 절편(b0) 와 회귀계수(b1) 의 값을 구하시오.
X가 독립변수이며, 주어진 데이터의 개수는 10개이다.

03.
다음 중 Unsupervised Learning 기법이 아닌 것은 무엇인가?
04.
K-Means 기법에 의해 생성되는 Cluster에 대한 설명으로 옳은 것은 다음 중 무엇인가?
05.
K-NN(K-Nearest Neighbors) 으로 생성된 모델의 Overfitting 되기 쉬운 정도와
k 값 사이의 관계로 올바른 것은 무엇인가?
06.
Hierarchical Clustering 은 K-Means 대비 상대적으로 Outlier의 영향을 덜 받는다.
07.
연관규칙(Association Rule) X →Y 를 생성할 때 계산되는 지지도(Support) 에 대한 설명으로 옳은 것은 다음 중 무엇인가?
08.
회귀 분석에서 다중공선성(Multicollinearity)에 대한 설명 중 틀린 것은 무엇인가?
09.
회귀(Regression) 모델을 생성한 후 확인해야 할 사항과 방법이 올바르지 않게 짝지어진 것은 무엇인가?
10.
날씨 데이터에 대한 조사결과가 다음과 같다.
전체 조사일 중 비가 온 비율 = 7/20
전체 조사일 중 기압이 높은 비율 = 12/20
비가 온 날 중 기압이 높은 비율 = 2/7
Bayes 정리를 사용하여 기압이 높은 날 중 비가 온 날의 비율을 계산한 값은 얼마인가?
  • 문항의 정답은 해당 회차의 시험 환경에서 산출된 결괏값을 기반으로 작성되었으며,
    실기 문항은 패키지/라이브러리 버전에 따라 정답이 상이할 수 있습니다.
  • 사전에 신청한 실기툴 한 가지에 대해, '필요 패키지/라이브러리 목록'과 '툴가이드'가 주어집니다.
마케팅 전략을 수립하기 위해 신용 카드 고객을 대상으로
고객 세분화(Customer Segmentation) 및 예측 모델링을 수행하고자 한다.

DS_Sample_1.csv (구분자: comma(“,”), 1,000 Rows, 18 Columns, UTF-8 인코딩)

컬럼 정의 Type
CUST_ID 고객 ID Double
BALANCE 연간 평균 잔고액 Double
BALANCE_FR EQUENCY 연중 잔고액 갱신 개월 수 비율 (0~1 사이값) Double
PURCHASES 구매 총액 Double
ONEOFF_PURCHASES 일시불 구매 총액 Double
INSTALLMENTS_PURCHASES 할부 구매 총액 Double
CASH_ADVANCE 현금서비스 구매 총액 Double
PURCHASES_FREQUENCY 연중 구매 개월 수 비율 (0~1 사이값) Double
ONEOFF_PURCHASES_FREUQUENCY 연중 일시불 구매 개월 수 비율 (0~1 사이값) Double
PURCHASES_INSTALLMENTS_FREQUENCY 연중 할부 구매 개월 수 비율 (0~1 사이값) Double
CASH_ADVANCE_FREQUENCY 연중 현금서비스 구매 개월 수 비율 Double
CASH_ADVANCE_TRX 현금 서비스 구매 횟수 Double
PURCHASES_TRX 구매 횟수 Double
CREDIT_LIMIT 신용카드 한도 Double
PAYMENTS 지불 총액 Double
MINIMUM_PAYMENTS 기한 내 최소 지불 금액 Double
PRC_FULL_PAYMENT 연중 기한 내 전액 지불 개월 수 비율 (0~1 사이값) Double
TENURE 신용카드 서비스 이용기간 Double

필요 패키지/라이브러리 목록

Brightics
R dplyr, data.table, tidyr, cluster, tree
Python import pandas as pd
import numpy as np
from sklearn.metrics import silhouette_samples, silhouette_score
from sklearn.cluster import KMeans
from sklearn.tree import DecisionTreeRegressor

분석을 수행하기 전, 상기 데이터를 이용하여 아래의 전처리를 수행하시오.

단계 1 : ‘신용카드 한도(CREDIT_LIMIT)’와 ‘기한 내 최소 지불 금액(MINIMUM_PAYMENTS)’의 결측 값(Null)을 각 컬럼의 평균값으로 대체하시오. (배점 : 10점)

상기 전처리를 완료한 데이터셋(데이터셋명: card1)을 이용하여 다음 1~3번 문제에 답하시오.

01.
(card1을 이용하여) ’연간 평균 잔고액(BALANCE)’이 많을수록, 그리고 ‘신용카드 서비스 이용기간(TENURE)’이 길수록 ‘신용카드 한도(CREDIT_LIMIT)’ 역시 높을 것으로 예상해볼 수 있다. 이들 변수 간의 관계를 파악하여, 추후 고객의 신용카드 한도 조정에 근거 자료로 활용하고자 한다.

‘신용 카드 서비스 이용기간(TENURE)’ 별로 ‘연간 평균 잔고액(BALANCE)’과 ‘신용카드 한도(CREDIT_LIMIT)’ 간 피어슨(Pearson) 상관 계수를 계산하고, 이 중 가장 큰 값을 구하시오.
- 소수점 셋째 자리에서 반올림하여 소수점 둘째 자리까지 기술하시오. (답안예시 : 0.12)
(정답보기)
Brightics : 0.95, Python : 0.95, R : 0.95
02.
(card1을 이용하여) 신용카드 판매 전략을 수립하기 위해 고객 세분화(Customer Segmentation) 를 수행할 수 있다. 일시불 구매 금액이 높은 고객 Segment를 도출하기 위해 다음 단계에 따라 분석을 수행하고 질문에 답하시오. (배점 : 10점)

단계 1: ‘고객 ID(CUST_ID)’를 제외한 모든 변수(17개)에 대해 Z-score 표준화(Standardization) 한다.
단계 2: 표준화된 변수들에 대해 K-means 군집 분석을 수행한다. 이 때, 군집 수는 2~5개 중 K-means Silhouette 를 통해 구한 최적의 K로 설정한다.
단계 3: 단계 2에서 도출한 각 군집 별로 ‘일시불 구매 총액(ONEOFF_PURCHASES)’의 평균을 계산한다.

툴별 가이드

Brightics Seed=1234
문제 지시 외 Default 값 사용
R library(cluster)
set.seed(12345)
표준화 : scale() 함수의 center=T, scale=T 옵션 사용
Silhouette : silhouette() 함수의 sil_width 평균값 기준
문제 지시 외 Default 값 사용
Python from sklearn.metrics import silhouette_samples, silhouette_score
from sklearn.cluster import KMeans
random_state=1234
문제 지시 외 Default 값 사용

군집 별 ‘일시불 구매 총액(ONEOFF_PURCHASES)’의 평균 중 가장 큰 값을 구하시오.

- 소수점 셋째 자리에서 반올림하여 소수점 둘째 자리까지 기술하시오. (답안예시 : 1200.34)
(정답보기)
Brightics : 3946.19, Python : 3946.19, R : 3946.19
03.
(card1을 이용하여) 이번에는 ‘일시불 구매 총액(ONEOFF_PURCHASES)’ 예측 모델을 Target Marketing에 활용하고자 한다. 다음 단계에 따라 분석을 수행하고 질문에 답하시오. (배점 : 15점)

단계 1: ‘고객 ID(CUST_ID)’가 4의 배수가 아닌 데이터를 Train Set으로, 4의 배수인 데이터를 Test Set으로 분할한다.
단계 2: Train Set으로 아래 조건에 따라 의사결정나무 회귀모델을 학습한다.
            - 독립 변수(총 16개): ‘고객 ID(CUST_ID)’, ‘일시불 구매 총액(ONEOFF_PURCHASES)’을 제외한 모든 컬럼
            - 종속 변수: ‘일시불 구매 총액(ONEOFF_PURCHASES)’

툴별 가이드

Brightics Seed=1234
문제 지시 외 Default 값 사용
R set.seed(1234)
library(tree)
Decision Tree Regression : tree() 함수 사용
문제 지시 외 Default 값 사용
Python from sklearn.tree import DecisionTreeRegressor
random_state=1234
문제에서 지시한 것 외에는 Default 값 사용

단계 3: 생성된 모델을 Test Set에 적용하여 ‘일시불 구매 총액(ONEOFF_PURCHASES)’을 예측한다.

단계 3에서 얻은 예측 결과를 평가하기 위해, 아래 정의된 Measure B를 구하시오.

- B는 소수점 둘째 자리에서 반올림하여 소수점 첫째 자리까지 기술하시오. (답안예시 : 1200.3)
(정답보기)
Brightics : 2383.8, Python : 2383.8, R : 1599.4

Advanced(중급) 실기 샘플 풀이 (Brightics) 동영상 보기