이 과정의 목표는 서로 의미 있는 상관관계를 갖는 속성의 조합을 찾아내는 것입니다. 여기서부터 사실상 본격적인 탐색적 분석이 시작됩니다. 분석의 대상이 되는 속성의 종류에 따라, 방법도 달라져야 합니다. 아래의 [표 2]은 데이터의 종류를 보여줍니다.
[Qualitative Data vs Quantitative Data]
| Categorical Variable (Qualitative) (범주형 변수) 질적 데이터 |
Nominal Data (명목형 변수) |
원칙적으로 숫자로 표시할 수 없으나, 편의상 숫자화. (순위의 개념이 없음) 예시) 남자-0, 여자-1 |
| Ordinal Data (서열형 변수) |
원칙적으로 숫자로 표시할 수 없으나, 편의상 숫자화. (순위의 개념이 있음) 예시) 소득분위 10분위 > 9 분위 > 8 분위 |
|
| Numeric Variable (Quantitative) (수치형 변수) 양적 데이터 |
Continuous Data (연속형 변수, 비례) |
데이터가 연속량으로서 셀 수 있는 형태. 예시) 키 - 166.1cm |
| Discrete Data (이산형 변수, 간격) |
데이터가 비연속량으로서 셀 수 있는 형태 예시) 자식 수 5명 |
[데이터 조합 별 통계 및 시각화 방법]
| 데이터 조합 | 요약 통계 | 시각화 |
| Categorical - Categorical | 교차 테이블(cross table) | 모자이크 플롯(mosaic plot) |
| Numeric - Categorical | 카테고리별 통계 값(statistics) | 박스 플롯(box plot) |
| Numeric - Numeric | 상관계수(correlation) | 산점도(scatter plot) |
1. Categorical - Categorical
교차 테이블, 모자이크 플롯을 이용해 각 속성 값의 쌍에 해당하는 값 개수를 표시할 수 있습니다.
2. Numeric - Categorical
각 카테고리별 통계 값(평균, 중간값 등)을 관찰할 수 있다. 이를 박스 플롯을 통해 시각적으로 표현할 수 있습니다.
3. Numeric - Numeric
상관계수를 통해 두 속성 간의 연관성을 나타낼 수 있습니다. -1은 두 속성이 반대 방향으로 변하는 음의 상관관계를 나타냅니다. 0은 상관관계없음을 나타내고 1은 두 속성이 항상 같은 방향으로 변하는 양의 상관관계를 나타냅니다. 상관계수를 갖는 두 속성의 관계도 다양한 양상을 띨 수 있는데, 스케터 플롯을 이용하여 이를 시각적으로 표현할 수 있습니다.
또, 분석을 하다 보면, 2개 이상의 속성 간의 관계를 보고 싶을 때가 있습니다. 그럴 땐 위에서 나타낸 그래프를 3차원으로 표현하거나, 그래프 위에 표현된 점을 색상을 이용하거나 모양을 달리하여 더 많은 속성을 나타낼 수 있습니다. 혹은 각 점을 텍스트로 표현할 수도 있을 것입니다. 이 과정의 목표는 서로 의미 있는 상관관계를 갖는 속성의 조합을 찾아내는 것입니다. 여기서부터 사실상 본격적인 탐색적 분석이 시작됩니다. 분석의 대상이 되는 속성의 종류에 따라, 방법도 달라져야 합니다. 아래의 [표 2]은 데이터의 종류를 보여줍니다.
'About Analytics' 카테고리의 다른 글
| [퍼온 글] 데이터 사이언스는 유사 과학이 되었는가? (4) | 2025.07.17 |
|---|---|
| [데이터 분석을 위한 수학] 선형대수학 (0) | 2025.01.02 |