금융 AI 데이터분석

금융데이터 종류를 알아보자

여의도개발자 2022. 11. 1.
반응형

최근 스터디를 통해 시계열데이터 분석을 학습하고 있다.

금융데이터 분석에 사용되는 다양한 데이터들의 종류와 특성에 대해 학습하는 것이 주 목적이다.


데이터의 종류

앞선 정리에서도 데이터, 정보, 지식등의 비슷해보이는 단어의 개념을 디테일하게 나누어보았었다.

오늘은 다양한 데이터의 종류들의 개념을 세밀하게 나누어보고자 한다.

변수와 자료

변수가 무조건 많다고 해서 좋은 것이 아니며, 특정 자료를 통해 의미 있는 특징을 파악하기 위해서는 의미있는 모양으로 분류 및 정리하는 것이 핵심이다.

    • 변수(Variable) : 관찰자의 관심이 되는 기본 데이터
    • 자료(Data) : 변수를 관찰 및 기록하여 얻어낸 결과

데이터와 정보의 차이점
이처럼 비슷해 보이지만 미세하게 다른 개념도 있고, 아래에는 자료의 특성별 개념을 정리해 보았다.


범주형 자료(질적, 비계량)

명목변수(Nominal Variable)

어떤 타입과 특성을 정의하는 자료. 성별과 기호, 종교, 좋아하는 영화 타입 특성 등이 여기에 해당한다.

취향이 다를 뿐이지 취향에 옳고 그름은 없기에 우열관계가 없는 것이 특징이다.

순서(서열)변수(Ordinal Variable)

선호도의 서열을 가지는 개념으로, 우리가 설문조사에서 많이 마주치는 매우 만족한다, 대체로 만족한다, 보통이다, 대체로 불만족한다, 매우 불만족한다 를 연상하면 된다. 이름 그대로 각 항목마다 순서와 서열이 존재하는 변수이다.


양적인 자료(양적, 계량)

등간변수(Interval Variable)

측정대상 간의 순서나 값 사이의 간격이 일정한 변수들을 의미한다. 온도와 같은 데이터가 여기에 해당한다.

비율변수(Ratio Variable)

측정대상 간의 비율 계산이 가능한 변수들을 의미한다. 연령, 무게, 거리, 시간 과 같은 데이터가 여기에 해당한다.

이산형 변수(Discrete Variable)

서로 분리할 수 있는 변수를 의미한다. 점수, 빈도수와 같은 데이터가 여기에 해당한다.

우리가 증권사의 앱에 접속해서 할 수 있는 행위는 사거나, 팔거나. 즉, 매수와 매도의 2가지로 나뉜다. 이 둘은 서로 상대되는 개념으로 비슷하게 On-Off 등이 있어서 연속형 변수와 구분된다.

연속형 변수(Continuous Variable)

서로 연속되는 변수를 의미한다. 실수, 키, 몸무게와 같은 데이터가 여기에 해당한다.

주가의 수익률과 자동차의 운행거리와 같은 경우를 생각해보자. 1과 2로 구분되는 것이 아니라, 끊김 없이 연속되는 개념임에도 우리가 해당 데이터를 표시하는 과정에서 1m, 2m로 표기할뿐 이는 연속적으로 이어지는 변수이기 때문이다.

 

 

반응형

댓글