ADsP 시험의 세 번째 과목인 데이터 분석은 단순 정의만 외워서는 풀 수 없는 문제들이 많고, 시험에서 유사 개념 비교로 수험생들이 헷갈려하며 비전공자 기준으로 과락률이 은근히 높은 영역이다. 단어 하나 차이로 틀리는 문제가 많기 때문에 기출에서 반복되는 주요 개념을 정확히 정리하는 전략을 세워야 한다. 이 글에서는 3과목에서 자주 출제되는 핵심 개념 10가지를 정리한다.
1. 회귀 vs 분류
ADsP 3과목에서 가장 자주 나오는 개념 중 하나는 회귀(Regression)와 분류(Classification)의 차이다. 머신러닝 초급 개념에서 가장 기본이 되는 내용으로, 실무 데이터 분석에서도 자주 등장하기 때문에 시험에서도 반복적으로 출제된다. 이 둘의 핵심 차이는 예측하려는 대상의 종류에 있다. 회귀는 예측값이 수치형일 때, 분류는 예측값이 범주형일 때 사용된다.
회귀는 연속형 값을 예측할 때 사용하는 모델이다. 예를 들어 부동산 가격 예측, 기온 예측, 판매량 예측 등이 대표적인 회귀 문제이다. 주로 선형 회귀(Linear Regression), 다항 회귀(Polynomial Regression)와 같은 알고리즘이 사용된다.
분류는 결괏값이 범주형, 즉 미리 정의된 클래스 중 하나로 분류되어야 할 때 사용하는 기법이다. 고객 이탈 여부, 질병 유무, 이메일이 스팸인지 여부 등이 분류 문제에 해당한다. 로지스틱 회귀(Logistic Regression), 결정트리, SVM 등이 대표적인 분류 알고리즘이다.
시험에서는 "다음 중 회귀분석에 해당하는 사례는?" 또는 "다음 중 분류 문제는 무엇인가?"와 같은 문제가 자주 출제된다. 정답을 고르기 위해서는 예측 대상이 숫자인가, 분류(클래스)인가만 확인하면 된다. 다시 정리하면, 회귀는 수치를 예측하고, 분류는 그룹을 예측하는 방식이다. 참고로 로지스틱 회귀는 이름에 '회귀'가 포함되어 있지만 실제로는 분류 기법이라는 점도 시험에서 자주 혼동되는 부분이므로 주의가 필요하다.
2. 정규분포와 중심극한정리
정규분포와 중심극한정리, 이 두 개념은 의미와 관계를 이해해야 실전에 적용할 수 있다.
정규분포(Normal Distribution)는 자연 현상에서 자주 나타나는 분포 형태로서 평균을 중심으로 좌우가 대칭인 종 모양의 분포를 의미한다. 평균 = 중앙값 = 최빈값이라는 특징이 있다. 예를 들어 사람의 키나 시험 점수처럼 자연현상에서 자주 관찰되는 분포가 정규분포다. 이 분포에서는 평균, 중앙값, 최빈값이 모두 동일하며, 전체 데이터의 약 68%가 평균 ±1 표준편차 범위 안에 존재한다.
반면에 중심극한정리 (Central Limit Theorem)는 표본의 크기가 충분히 클 경우, 모집단의 분포 형태와 무관하게 표본평균의 분포가 정규분포를 따른다는 원리다. 즉, 원래 데이터가 정규분포가 아니더라도 표본이 충분히 많으면 평균값들의 분포는 정규에 가까워진다는 뜻이다. 예를 들어 어떤 도시 택시기사의 하루 수입은 2만 원부터 40만 원까지 들쭉날쭉할 수 있다. 하지만 무작위로 30명의 기사 수입을 뽑아 평균을 계산하고, 이 작업을 수백 번 반복하면 그 평균값들의 분포는 종 모양의 정규분포처럼 모이게 된다.
시험에서는 다음과 같은 식으로 출제된다.
"표본 수가 30 이상일 때 중심극한정리가 성립한다." → 참 (참고로, 통계학적으로는 표본 수 30은 경험적인 기준이며, 모집단의 분포가 심하게 비대칭인 경우 더 큰 표본이 필요할 수 있다.)
"정규분포는 평균과 표준편차로 분포가 완전히 결정된다." → 참
정규분포와 중심극한정리를 쉽게 정리하면 정규분포는 데이터 자체의 원래 데이터의 분포를 의미하고, 중심극한정리는 표본평균이 정규분포처럼 행동하게 되는 과정에 관한 이론이다. ADsP에서는 중심극한정리의 전제조건(표본 수가 충분히 커야 함)과 정규분포의 특징(대칭성, 평균=중앙값=최빈값)을 정확히 이해하고 있어야 한다.
3. p-value의 해석
p-value는 가설 검정에서 사용되는 개념으로, 특히 비전공자라면 대부분의 수험생이 가장 자주 헷갈리는 항목 중 하나다. p-value는 귀무가설이 참이라는 전제 하에, 현재 관측 결과가 나타날 확률이다. 값이 작다는 것은 그러한 결과가 우연히 나타날 가능성이 낮다는 뜻이고, 따라서 귀무가설을 기각할 수 있다는 근거가 된다. 일반적으로 0.05 미만이면 기각한다.
일반적으로 사용되는 유의 수준은 0.05다. 따라서
- p-value가 0.05보다 작으면 → 귀무가설을 기각 (통계적으로 유의함)
- p-value가 0.05보다 크면 → 귀무가설을 기각하지 않음 (유의하지 않음)
시험에서는 다음과 같이 출제된다.
“p-value가 0.02일 때, 적절한 해석은?” → 귀무가설을 기각한다.
“p-value가 0.08이고 유의 수준이 0.05일 때, 적절한 결론은?” → 귀무가설을 기각하지 않는다.
[예시]
어떤 실험에서 p-value가 0.03으로 나타났고, 유의 수준(α)은 일반적으로 사용하는 0.05로 설정되어 있다.
- 이 경우, p < α이므로 귀무가설은 기각된다.
- 이는 "두 그룹 간 차이가 통계적으로 유의하다"라고 판단할 수 있다는 의미다.
- 즉, 새로운 약이 기존 약보다 효과가 있다고 볼 수 있다는 방향으로 결론을 내릴 수 있다.
→ 실전에서는 p-value가 주어지고, 기각 여부 또는 해석의 타당성을 판단하는 문제가 자주 출제된다.
또 하나의 중요한 개념은 귀무가설과 대립가설의 역할이다. 귀무가설은 '차이가 없다', '효과가 없다'는 기본 입장이며, 대립가설은 '차이가 있다', '효과가 있다'는 주장이다. p-value는 이 귀무가설을 반박할 근거가 충분한지를 수치로 판단해 주는 도구다. 주의할 점은, p-value가 작다고 해서 무조건 '의미가 있다'라고 해석해서는 안 된다는 것이다. 이는 통계적으로 의미 있는 차이일 뿐, 실제로도 중요하거나 실질적인 차이라는 뜻은 아니다.
예를 들어보자. 한 제약회사는 새로운 약이 기존 약보다 효과가 있는지를 검정하기 위해 실험을 진행했다. 여기서 귀무가설(H₀)은 "새로운 약과 기존 약은 효과에 차이가 없다", 대립가설(H₁)은 "새로운 약의 효과가 더 좋다"로 설정했다. 실험 결과 p-value가 0.03으로 나타났고, 유의 수준은 일반적인 기준인 0.05로 설정되어 있다. 이 경우, 결론을 생각해 보자. p-value < 0.05이므로 귀무가설은 기각되고, 대립가설이 채택된다. 이는 통계적으로 유의한 차이가 있다고 판단하며, 새로운 약이 더 효과적일 수 있다고 결론 내릴 수 있다.
정리하자면, p-value는 통계적 유의성을 판별하는 핵심 지표로, 그 해석 방식, 유의 수준과의 비교, 귀무가설 기각 여부를 정확히 판단할 수 있어야 고득점을 받을 수 있다. 대립가설에 대한 이해는 필요하지만 자주 등장하는 개념은 귀무가설, p-value, 유의 수준이기 때문에 반드시 이러한 개념들이 정리되어 있어야 한다.
4. 상관관계 vs 인과관계
반복적으로 출제되는 논리적 개념 중 하나가 바로 상관관계(Correlation)와 인과관계(Causation)의 구분이다. 두 용어는 모두 변수 간에 어떤 연관이 있다는 점에서 유사하게 보이지만, 실질적인 의미는 분명히 다르다.
상관관계란 두 변수 간에 일정한 패턴으로 함께 변화하는 경향을 의미한다. 예를 들어 아이스크림 판매량과 익사 사고 수는 모두 여름에 증가하는 경향이 있지만, 아이스크림이 사고의 원인은 아니다. 이는 단지 날씨라는 공통 요인이 두 변수에 모두 영향을 미친 것이며, 변수 간에 상관은 있어도 인과는 없는 대표적인 사례다.
반면 인과관계는 하나의 변수 변화가 다른 변수에 직접적인 영향을 미치는 관계를 의미한다. 예를 들어 음주와 반응 속도 저하는 인과관계에 있다. 이 경우 한 변수가 다른 변수의 변화를 유발한다는 명확한 원인-결과 구조가 성립된다.
시험에서는 주로 "다음 중 상관관계는 존재하나 인과관계가 없는 경우는?" 혹은 "상관관계와 인과관계를 혼동한 해석은?"과 같은 문제 형식으로 출제된다. 다음은 두 개념의 구분을 명확하게 할 수 있는 비교표이다.
항목 | 상관관계 | 인과관계 |
정의 | 두 변수가 함께 움직이는 통계적 관계 | 한 변수가 다른 변수에 직접 영향을 줌 |
예시 | 아이스크림 판매량과 익사 사고 | 흡연과 폐암 발생률 |
주의점 | 제3의 변수에 의해 발생할 수 있음 | 실험 또는 이론적 근거 필요 |
시험 출제 방식 | 사례형 문제에서 개념 오용 판단 | 해석형 문장 중 옳고 그름 판단 |
수험생이 가장 많이 실수하는 포인트는, "같이 증가한다" 또는 "같이 감소한다"는 현상을 보고 자동으로 인과관계를 떠올리는 것이다. 그러나 통계적 분석에서는 인과관계를 주장하기 위해 실험적 증거나 논리적 구조가 필요하며, 단순히 상관계수나 변화 양상만으로는 인과를 증명할 수 없다.
이 개념은 실제 실무에서도 중요하게 다뤄진다. 기업에서 매출과 광고비 사이의 상관을 측정할 수는 있지만, 그 관계가 직접적인 원인인지, 아니면 제3의 요인이 있는지를 파악하는 것은 별개의 분석 단계이기 때문이다.
상관관계는 인과관계의 조건이 될 수는 있으나, 상관이 있다고 해서 반드시 인과가 존재한다고 결론지을 수는 없다. 시험에서는 이 차이를 개념뿐 아니라 문장 해석 능력으로도 평가하므로, 사례를 많이 접해보고 용어를 정확히 구분하는 연습이 필요하다.
5. 결정계수(R²)
결정계수 R²는 회귀분석에서 가장 기본이 되는 성능 지표로, 독립변수가 종속변수의 변동을 얼마나 잘 설명하는지를 나타낸다. ADsP 3과목에서는 정의형, 해석형, 수치형 등 다양한 문제로 자주 출제된다.
결정계수는 0부터 1 사이의 값을 가지며,
- R²가 1이면 종속변수의 변동을 100% 설명하는 완벽한 모델이다.
- R²가 0이면 회귀모형이 종속변수의 변동을 전혀 설명하지 못하는 상태를 의미한다.
시험에서는 아래와 같은 정답 보기 문장이 반복적으로 등장한다.
- “R²가 1에 가까울수록 설명력이 높다.”
- “결정계수는 회귀모델의 설명력을 나타낸다.”
- “R²가 0이면 종속변수의 변동을 설명하지 못한다.”
- “R²는 인과관계를 의미하지 않는다.”
주의할 점은, R²는 예측력이 아닌 설명력 지표이며, 절대 인과관계를 보장하지 않는다.
“R²가 높다 → 영향이 크다”, “인과관계가 있다”는 식의 해석은 시험에서 틀린 보기로 출제되는 패턴이다.
다음은 결정계수 관련 개념이다.
항목 | 설명 |
정의 | 회귀모형의 설명력 지표 |
수식 의미 | 종속변수 변동 중 독립변수로 설명 가능한 비율 |
값 범위 | 0 ≤ R² ≤ 1 |
R² = 1 | 종속변수 변동을 100% 설명함 |
R² = 0 | 종속변수 변동을 전혀 설명하지 못함 |
출제 포인트 | 설명력과 인과관계 구분, 수치 해석, 정의 이해 |
[공식]
결정계수는 다음 수식으로 계산된다:
R² = 1 - (SSE / SST)
여기서
- SST는 종속변수 전체 변동(총제곱합)이며,
- SSE는 회귀모형의 예측 오차제곱합을 의미한다.
[예시]
예를 들어, SST = 200, SSE = 80이라면:
- R² = 1 - (80 / 200) = 1 - 0.4 = 0.60
→ 이 모델은 종속변수의 변동 중 60%를 독립변수로 설명하고 있다는 의미다.
→ 수치가 높을수록 설명력은 좋지만, 인과관계를 의미하는 것은 절대 아니다.
실제 분석 현장에서는 모델의 과적합 여부를 판단하거나 여러 회귀모형을 비교할 때, 조정된 결정계수(Adjusted R²)를 사용하는 경우가 많다. 하지만 시험에서는 조정값이 아닌 기본 결정계수(R²)의 해석만 알고 있어도 충분하다. 결정계수는 회귀모형이 종속변수의 변동을 독립변수로 얼마나 잘 설명하는지를 수치로 표현한 지표다. 다만, 이 수치가 높다고 해서 독립변수가 종속변수에 영향을 준다거나 인과관계가 있다는 의미는 아니다. 이 점만 확실히 구분할 수 있다면, 결정계수 관련 문제는 어렵지 않게 풀 수 있다. 시험에서는 "설명력"과 "인과관계"를 혼동하게 만드는 보기가 자주 출제되므로, 그 구분만 정확히 익혀두면 실수를 방지할 수 있다.
6. 과적합 vs 과소적합
자주 출제되는 개념으로 머신러닝 모델의 성능을 설명하는 개념 중에서 과적합(Overfitting)과 과소적합(Underfitting)이 있다. 두 개념은 모두 예측 성능 저하를 유발하는 학습의 불균형 상태이며, 시험에서는 그 정의와 원인, 결과를 구분할 수 있어야 한다.
과적합은 모델이 학습 데이터에 지나치게 잘 맞는 상태다. 학습 데이터의 특징뿐 아니라 노이즈까지 학습해 버려서 테스트 데이터나 실제 데이터에 대한 예측 성능이 떨어지는 현상이다. 즉, 일반화 성능이 낮은 모델이다.
반대로 과소적합은 모델이 학습 데이터조차 제대로 설명하지 못하는 상태로, 구조가 너무 단순하거나 학습이 부족한 경우 발생한다. 전반적으로 예측력이 낮고 오차가 크다.
시험에서는 다음과 같은 문장으로 출제된다.
- “모델이 학습 데이터에 대해서는 높은 정확도를 보이지만, 테스트 데이터에서는 성능이 급격히 떨어지는 상태는?” → 과적합
- “모델이 학습 데이터에 대해서도 예측 정확도가 낮은 경우는?” → 과소적합
- “과적합의 대표적인 원인은?” → 모델의 복잡도 과다, 학습 데이터에 대한 과도한 적합
두 개념의 차이를 명확히 정리하면 다음과 같다.
구분 | 과적합 (Overfitting) | 과소적합 (Underfitting) |
정의 | 학습 데이터에 너무 잘 맞음 | 학습 자체가 부족 |
원인 | 모델이 복잡하거나 불필요한 학습 | 모델이 지나치게 단순함 |
학습 데이터 정확도 | 매우 높음 | 낮음 |
테스트 데이터 정확도 | 매우 낮음 | 낮음 |
해결 방법 | 모델 단순화, 정규화, 교차검증 | 모델 복잡도 증가, 학습 반복 |
시험에서는 이 두 개념을 증상 기반 사례나 대비 개념 형태로 출제하는 경우가 많기 때문에, 수식보다 개념과 문장 판단 능력이 더 중요하다. 정리하자면, 과적합과 과소적합은 모델의 일반화 성능을 떨어뜨리는 반대 극단이며, 시험에서는 주로 그 정의와 결과를 구분할 수 있는지를 평가한다. 특히 “학습은 잘 되는데 실제 성능은 떨어지는가?”라는 질문이 주어진다면 과적합을 떠올려야 한다.
7. 혼동행렬(Confusion Matrix)
혼동행렬은 분류 모델의 성능을 평가할 때 사용하는 기본 도구다. 주로 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 점수(F1 Score) 등의 개념과 계산 문제가 자주 출제된다. 특히 정밀도와 재현율의 차이, 어떤 지표가 FP나 FN에 민감한지를 제대로 구분하지 못하면 오답으로 유도되기 쉽다.
다음은 혼동행렬의 기본 구조다. 실제값을 행(Row), 예측값을 열(Column)으로 표현하는 것이 일반적이긴 하지만, 구조를 반대로 바꾸어 행이 예측값, 열이 실제값으로 제시될 수도 있기 때문에 주의가 필요하다.
실제값 / 예측값 | 예측: Positive | 예측: Negative |
실제: Positive | True Positive (TP) | False Negative (FN) |
실제: Negative | False Positive (FP) | True Negative (TN) |
각 항목은 다음과 같은 의미를 가진다.
- TP: 실제도 긍정이고, 예측도 긍정
- FP: 실제는 부정인데, 예측은 긍정
- FN: 실제는 긍정인데, 예측은 부정
- TN: 실제도 부정이고, 예측도 부정
이 표를 기반으로 다양한 성능 지표를 계산할 수 있다.
지표 | 계산식 | 해석 | 민감 요소 |
정확도 (Accuracy) |
(TP + TN) / 전체 | 전체 중 맞춘 비율 | 전체 분포 |
정밀도 (Precision) |
TP / (TP + FP) | 예측이 맞다고 한 것 중 실제로 맞은 비율 | FP 증가 시 낮아짐 |
재현율 (Recall) |
TP / (TP + FN) | 실제 긍정 중 맞춘 비율 | FN 증가 시 낮아짐 |
F1 Score | 2 × (Precision × Recall) / (Precision + Recall) | 정밀도와 재현율의 조화 평균 | 두 지표 균형 필요 |
자주 출제되는 유형은 다음과 같다.
- 정밀도와 재현율의 정의 구분
- 어떤 지표가 FP/FN에 민감한지 판단
- 계산식 없이 지표 해석만으로 정답을 고르게 하는 문항
출제 예시를 살펴보면 다음과 같다.
- “정밀도는 FP가 많아질수록 낮아진다.” → 정답
- “재현율은 FN이 많아질수록 낮아진다.” → 정답
- “정밀도는 FN에 민감하다.” → 오답
- “F1 Score는 정밀도와 재현율의 평균이다.” → 오답 (정확히는 조화 평균)
[예시]
다음은 어느 분류 모델의 혼동행렬 결과이다.
- TP = 80, FP = 20, FN = 10, TN = 90
이때 주요 지표는 다음과 같이 계산된다:
- 정밀도 (Precision) = 80 / (80 + 20) = 0.80
- 재현율 (Recall) = 80 / (80 + 10) = 0.8889
- 정확도 (Accuracy) = (80 + 90) / (80 + 20 + 10 + 90) = 170 / 200 = 0.85
- F1 Score = 2 × (0.80 × 0.8889) / (0.80 + 0.8889) ≈ 0.842
→ 계산은 간단하지만, FP·FN 위치를 잘못 이해하면 지표 해석이 완전히 틀려질 수 있다. 수치를 직접 대입해 정답을 찾는 문제도 출제되므로, 지표별 공식과 해석을 함께 숙지하는 것이 중요하다.
현업에서도 혼동행렬은 의료 진단, 이상 거래 탐지, 스팸 필터링 등에서 중요한 의사결정 기준이 된다. 예를 들어 재현율이 중요한 경우는 암 검진처럼 놓치면 안 되는 상황이며, 정밀도가 중요한 경우는 광고 타기팅처럼 오탐이 비용으로 이어지는 경우다. 혼동행렬은 분류 모델의 결과를 구조적으로 분석할 수 있게 해주는 핵심 틀이며, 실전에서는 지표의 정의, 해석, 민감한 오류 유형까지 정확히 파악하고 있어야 실수를 줄일 수 있다.
8. 교차검증(Cross Validation) – 모델의 일반화 성능을 평가하는 핵심 기법
교차검증은 머신러닝에서 모델이 새로운 데이터에도 잘 작동할 수 있는지, 즉 일반화 성능을 평가하는 대표적인 검증 기법이다. 시험에서는 과적합 방지, 모델 성능 비교, 훈련/검증 구조 해석 등 다양한 방식으로 출제된다. 기본적인 방식은 전체 데이터를 나누어 여러 번 반복 학습과 평가를 진행하는 것이다. 이 과정을 통해 모델이 특정 데이터셋에만 성능이 좋은, 즉 과적합된 상태인지 아닌지를 판별할 수 있다.
가장 널리 쓰이는 방법은 K-Fold 교차검증이다. 전체 데이터를 K개의 그룹으로 나누고, 한 그룹은 검증용, 나머지는 학습용으로 사용한다. 이 과정을 K번 반복한 뒤 성능을 평균 내는 방식이다. 예를 들어 K=5일 경우, 5개의 조각 중 하나를 검증용으로, 나머지 네 개는 학습용으로 사용한다. 이 과정을 조각별로 반복하여 5번 평가를 진행하고, 그 평균값이 최종 성능 평가 결과가 된다.
자주 출제되는 문장은 다음과 같다.
- “과적합 여부를 평가하는 방법은?” → 교차검증
- “데이터를 여러 개로 나누어 반복 학습과 평가를 수행하는 방식은?” → K-Fold 교차검증
- “훈련 데이터와 테스트 데이터를 매번 바꿔가며 평가하는 기법은?” → 교차검증
- “교차검증의 단점은?” → 계산 비용과 시간이 많이 든다
교차검증의 주요 특징을 표로 정리하면 다음과 같다.
항목 | 내용 |
목적 | 모델의 일반화 성능 평가 및 과적합 방지 |
방식 | 데이터를 나누어 반복 학습과 평가 |
대표 기법 | K-Fold Cross Validation |
장점 | 데이터 낭비 없이 신뢰도 높은 평가 가능 |
단점 | 학습을 반복하므로 계산 비용과 시간이 증가할 수 있음 |
시험 포인트 | 과적합 방지 목적, 반복 평가, K-Fold 방식 이해 |
자주 실수하는 부분은 "교차검증 = 모델 성능 평가”라는 본질을 잊고, 단순한 데이터 분할 방법으로 오해하는 것이다. 교차검증의 목적은 단순 분할이 아니라, 모델의 성능을 반복해서 평가하고 과적합을 방지하는 것이다. 시험에서는 오답 보기들이 “교차검증은 오차가 크다”, “교차검증은 데이터가 적게 쓰인다” 와 같이 출제된다. 교차검증은 모델이 학습 데이터에만 치우쳐 과도하게 학습되지 않았는지를 확인하고, 다양한 데이터 분할을 통해 보다 신뢰성 있는 성능을 평가할 수 있는 방식이다. 즉, 과적합을 방지하는 대표적인 평가 기법으로 이해하고 있어야 한다.
9. 클러스터링 vs 분류
클러스터링(Clustering)과 분류(Classification)는 겉보기에 비슷해 보일 수 있지만, 학습 방식의 차이를 기준으로 명확하게 구분해야 한다. 둘을 비교하는 문제가 반복적으로 출제되며, 정답(레이블)의 존재 여부가 가장 핵심적인 판단 기준이다.
분류는 지도학습(Supervised Learning) 방식으로, 학습 데이터에 정답(레이블)이 존재한다. 모델은 이미 분류된 데이터를 학습한 후, 새로운 데이터가 어떤 범주에 속하는지 예측한다. 예를 들어, 이메일이 스팸인지 아닌지, 고객이 이탈할지 아닐지, 질병 유무 판단 등이다.
클러스터링은 비지도학습(Unsupervised Learning) 방식으로, 정답이 주어지지 않은 데이터를 유사도 기준으로 자동으로 묶는다. 즉, 데이터 내에 존재하는 숨은 구조나 패턴을 찾아내어 군집화하는 것이 목적이다. 예로, 고객을 소비 유형별로 자동 군집화, 문서 주제 분류, 생물 종의 유전적 유사성 기반 분류 등을 들 수 있다.
다음은 자주 출제되는 유형이다.
- “정답 레이블이 없는 데이터를 군집화하는 기법은?” → 클러스터링
- “새로운 데이터가 어떤 그룹에 속할지 예측하는 방식은?” → 분류
- “비지도학습의 대표 알고리즘은?” → K-평균(K-Means), 계층적 군집(Hierarchical Clustering)
두 개념의 비교표를 보면서 정리해 보자.
항목 | 분류 (Classification) | 클러스터링(Clustering) |
학습 방식 | 지도학습 | 비지도학습 |
정답(레이블) 존재 | 있음 | 없음 |
목적 | 주어진 범주 중 하나로 예측 | 유사한 데이터끼리 묶음 |
대표 알고리즘 | 로지스틱 회귀, 결정트리, SVM | K-Means, DBSCAN, 계층적 군집 |
시험 출제 포인트 | 정답 유무, 지도/비지도 구분 | 레이블 없이 그룹화 여부 판단 |
시험에서 가장 자주 출제되는 오답 유도는 다음과 같다.
- "K-평균은 분류 알고리즘이다." → ❌ 오답 (클러스터링이다)
- "클러스터링은 정답이 있는 데이터를 학습한다." → ❌ 오답
클러스터링과 분류의 핵심 차이는 정답(레이블)의 존재 여부이다. 시험에서는 “정답이 있는가?”, “기계가 스스로 그룹을 나누는가?”라는 질문을 통해 지도학습과 비지도학습을 정확히 구별할 수 있는지를 평가한다.
10. 주성분 분석(PCA)
주성분 분석(PCA: Principal Component Analysis)은 고차원의 데이터를 보다 적은 차원으로 줄이면서도, 데이터의 중요한 정보(분산)를 최대한 유지하는 차원 축소 기법이다. 통계와 머신러닝의 중간 영역에 해당하는 이 개념은 반복적으로 출제되며, 특히 ‘선형 결합’, ‘정보 요약’, ‘분산 보존’이라는 키워드를 중심으로 문제화된다.
PCA는 여러 변수들이 서로 상관되어 있을 때, 이들을 단순히 줄이거나 제거하는 것이 아니라 새로운 축(주성분)을 만들어 변수를 요약한다. 이 새 축은 기존 변수들의 선형 결합으로 이루어지며, 가장 많은 분산(정보량)을 설명하는 방향으로 정렬된다.
예를 들어, 10개의 지표가 있는 고객 데이터를 PCA로 처리하면, 그중 2~3개의 주성분만으로도 전체 데이터의 패턴을 상당 부분 설명할 수 있다. 이렇게 하면 계산 효율이 높아지고 시각화도 가능해지지만, 다만 새롭게 만들어진 주성분은 해석이 직관적이지 않다는 단점이 있다. 시험에서는 다음과 같은 형태로 자주 출제된다.
- “차원 축소를 통해 데이터의 분산을 최대한 보존하는 기법은?” → 주성분 분석
- “주성분은 원래 변수들의 선형 결합으로 구성된다.” → 정답
- “PCA는 중요한 변수만 선택하여 분석하는 기법이다.” → 오답
- “주성분 분석의 목적은 정보 손실을 최소화한 데이터 요약이다.” → 정답
핵심 개념을 표로 정리하면 다음과 같다.
항목 | 설명 |
목적 | 고차원 데이터를 저차원으로 요약 |
방식 | 변수들의 선형 결합으로 새 축(주성분)을 생성 |
결과물 | 주성분(PC1, PC2 등) |
장점 | 분산 보존, 차원 축소, 시각화 용이 |
단점 | 해석이 직관적이지 않음 |
시험 출제 포인트 | 차원 축소, 정보 보존, 선형 결합 여부 등 |
자주 혼동하는 포인트는 다음과 같다.
- “변수를 제거하거나 선택하는 방식이다” → ❌ PCA는 변수 제거가 아니라 새로운 축을 생성하는 방식이다.
- “주성분은 원래 변수 중 가장 중요한 하나만 선택한다” → ❌ 잘못된 해석이다. 주성분은 여러 변수의 선형 결합으로 구성된다.
PCA는 데이터를 요약하는 강력한 기법이지만, 기존 변수 자체를 해석하는 데는 한계가 있다. 실전에서는 “분산을 보존하면서 정보를 요약한다”, “선형 결합으로 새 축을 만든다”는 점을 정확히 이해하고, “변수를 선택한다”는 식의 유도 지문을 구분할 수 있어야 한다.
요약
ADsP 3과목 ‘데이터 분석’은 단순 암기보다 표현 해석력이 핵심이다. 이번 글에서는 기출에서 반복 출제되는 개념 10가지를 중심으로, 오답을 유도하는 헷갈리는 표현, 그리고 필요한 경우 실전 계산 예제까지 함께 알아보았다. 정규분포와 중심극한정리, p-value와 유의수준 해석, 결정계수의 의미, 혼동행렬의 계산 공식 등 실제 문제에 자주 등장하는 판단 포인트를 기준으로 정리해 보았다. 주요 개념을 요약하면 다음과 같다.
개념 | 핵심 포인트 |
회귀 vs 분류 | 예측 대상이 연속형인가 범주형인가로 구분 |
정규분포 vs 중심극한정리 | 분포의 형태 vs 표본평균의 분포 원리 |
p-value | 유의수준과 비교하여 기각 여부 판단 |
상관관계 vs 인과관계 | 함께 움직인다고 원인은 아님 |
결정계수(R²) | 설명력은 높을 수 있어도 인과는 아님 |
과적합 vs 과소적합 | 일반화 성능에 영향을 주는 학습 불균형 |
혼동행렬 | 정밀도와 재현율의 계산과 해석 구분 |
교차검증 | 모델의 일반화 성능을 반복적으로 평가 |
클러스터링 vs 분류 | 정답 유무, 지도/비지도 구분이 핵심 |
PCA | 정보 손실 없이 차원을 줄이는 요약 기법, 변수 선택 아님 |
개념을 정확히 이해하고, 시험이 그것을 어떻게 표현하는지를 파악하는 것, 그게 바로 합격의 핵심이다. 간단한 수치를 기반으로 정밀도 등 계산하는 문제도 출제되므로 공식과 해석을 함께 익혀두는 것이 필요하다.
2024.07.24 - [Tutorial/Big Data & ML] - ADP, ADsP, 빅분기 자격증 시험, 응시자격, 난이도
ADP, ADsP, 빅분기 자격증 시험, 응시자격, 난이도
ADP, ADsP, 그리고 빅데이터 분석기사(빅분기) 시험은 모두 데이터 분석과 관련된 자격증 시험입니다. 그러나 각 시험은 초점과 난이도가 다릅니다. 아래에서 각 자격증 시험과 난이도에 대해 자세
it-learner.tistory.com