Variables

2021. 9. 27. 13:53·About Analytics
728x90

이 과정의 목표는 서로 의미 있는 상관관계를 갖는 속성의 조합을 찾아내는 것입니다. 여기서부터 사실상 본격적인 탐색적 분석이 시작됩니다. 분석의 대상이 되는 속성의 종류에 따라, 방법도 달라져야 합니다. 아래의 [표 2]은 데이터의 종류를 보여줍니다.

[Qualitative Data vs Quantitative Data]

Categorical Variable
(Qualitative)
(범주형 변수)
질적 데이터
Nominal Data
(명목형 변수)
원칙적으로 숫자로 표시할 수 없으나, 편의상 숫자화. (순위의 개념이 없음) 
예시) 남자-0, 여자-1 
Ordinal Data
(서열형 변수)
원칙적으로 숫자로  표시할 수 없으나, 편의상 숫자화. (순위의 개념이 있음)
예시) 소득분위 10분위 > 9 분위 > 8 분위
Numeric Variable
(Quantitative)
(수치형 변수)
양적 데이터

Continuous Data
(연속형 변수, 비례)
데이터가 연속량으로서 셀 수 있는 형태.
예시) 키 - 166.1cm
Discrete Data
(이산형 변수, 간격)
데이터가 비연속량으로서 셀 수 있는 형태
예시) 자식 수 5명

[데이터 조합 별 통계 및 시각화 방법]

 데이터 조합 요약 통계   시각화
 Categorical - Categorical  교차 테이블(cross table) 모자이크 플롯(mosaic plot)
 Numeric - Categorical  카테고리별 통계 값(statistics) 박스 플롯(box plot)
 Numeric - Numeric  상관계수(correlation) 산점도(scatter plot)

 

 

1. Categorical - Categorical

교차 테이블, 모자이크 플롯을 이용해 각 속성 값의 쌍에 해당하는 값 개수를 표시할 수 있습니다. 

 

2. Numeric - Categorical

각 카테고리별 통계 값(평균, 중간값 등)을 관찰할 수 있다. 이를 박스 플롯을 통해 시각적으로 표현할 수 있습니다. 

 

3. Numeric - Numeric

상관계수를 통해 두 속성 간의 연관성을 나타낼 수 있습니다. -1은 두 속성이 반대 방향으로 변하는 음의 상관관계를 나타냅니다. 0은 상관관계없음을 나타내고 1은 두 속성이 항상 같은 방향으로 변하는 양의 상관관계를 나타냅니다. 상관계수를 갖는 두 속성의 관계도 다양한 양상을 띨 수 있는데, 스케터 플롯을 이용하여 이를 시각적으로 표현할 수 있습니다. 

 

또, 분석을 하다 보면, 2개 이상의 속성 간의 관계를 보고 싶을 때가 있습니다. 그럴 땐 위에서 나타낸 그래프를 3차원으로 표현하거나, 그래프 위에 표현된 점을 색상을 이용하거나 모양을 달리하여 더 많은 속성을 나타낼 수 있습니다. 혹은 각 점을 텍스트로 표현할 수도 있을 것입니다. 이 과정의 목표는 서로 의미 있는 상관관계를 갖는 속성의 조합을 찾아내는 것입니다. 여기서부터 사실상 본격적인 탐색적 분석이 시작됩니다. 분석의 대상이 되는 속성의 종류에 따라, 방법도 달라져야 합니다. 아래의 [표 2]은 데이터의 종류를 보여줍니다.

 

 

출처: https://eda-ai-lab.tistory.com/13

728x90
반응형

'About Analytics' 카테고리의 다른 글

[퍼온 글] 데이터 사이언스는 유사 과학이 되었는가?  (4) 2025.07.17
[데이터 분석을 위한 수학] 선형대수학  (0) 2025.01.02
'About Analytics' 카테고리의 다른 글
  • [퍼온 글] 데이터 사이언스는 유사 과학이 되었는가?
  • [데이터 분석을 위한 수학] 선형대수학
M.PS
M.PS
  • M.PS
    전직 퀘스트 필기노트
    M.PS
  • 전체
    오늘
    어제
    • 분류 전체보기 (79)
      • With AI (1)
      • About Statistics (8)
      • About Analytics (23)
        • Preprocessing (2)
        • Machine Learning (4)
        • NLP (1)
        • Metrics (0)
        • Time Series (3)
        • Visulalization (1)
        • Analytics Method (6)
        • GA4 (2)
        • Growth Hacking (1)
      • About Dev(Python) (14)
        • Pandas (3)
        • Scipy & Numpy (0)
        • Python comprehension (8)
      • DB (18)
        • DB Design& Construction (4)
        • SQL (13)
      • Linux (0)
      • IT Info for NonMajor (12)
        • K-ICT Online Academy (1)
        • SI Project Tip (1)
      • Side Study (2)
        • Datarian SQL (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    데이터리안
    A/B테스트
    통계분석
    sql
    bigquery
    데이터분석
    PostgreSQL
    머신러닝
    jupyter lab
    json_format
    Flatten
    추천시스템
    sql 분석 캠프
    데이터리안 분석 캠프
    확률과통계
    GIT
    데이터마이닝
    unnest
    실전반
    snowflake
  • 최근 댓글

  • 최근 글

  • 반응형
    250x250
  • hELLO· Designed By정상우.v4.10.3
M.PS
Variables
상단으로

티스토리툴바