금융 AI 데이터분석

데이터 전처리 과정을 알아보자

여의도개발자 2022. 11. 3.
반응형

오늘부터는 보험료 데이터를 통해 데이터 전처리 과정을 알아보려고 한다.

 

최종 목표는 보험료 데이터 분석을 통해 과거에 쌓여있는 데이터를 바탕으로 월 청구되는 보험료를 모델링을 통해 추정하고, 실제 청구되는 금액과 괴리가 얼마나 큰지를 확인한다. 실제 청구되는 금액이 어떻게 보면 정답에 가까운 데이터로 볼 수 있기 때문에 내가 모델을 통해 도출해낸 값이 얼마나 그 정답에 가까운지를 확인하기 위함이다.

 

구글 Colab (실행환경)

이렇게 모델링을 하고 실행하기 위한 환경은 구글의 코랩에서 실행한다. 사내 스터디를 구글 코랩 환경에서 하고 있는데, 요즘 개발환경이 참 좋아졌다는 생각을 한 적이 있다. 사용자의 PC 사양과 환경에 제약 없이 구글의 컴퓨팅 자원을 일부 할당받아 사용하는 개념이기에, 사용자의 환경은 노트북이어도, 패드여도 전혀 상관이 없다. (다만 무료이기에 구글 코랩의 사양 환경이 그닥 높진 않다. 그 말인 즉슨 데스크탑보다 느릴 수 있다는 이야기. 그래도 별도 설치할 것 없이 구글 계정 하나만으로 개발 환경을 갖출 수 있기에 매우 유용하다!) 구글 코랩은 아래를 참고하자.

https://colab.research.google.com/

 

Google Colaboratory

 

colab.research.google.com

Colab이란?

Colaboratory(줄여서 'Colab'이라고 함)을 통해 브라우저 내에서 Python 스크립트를 작성하고 실행할 수 있습니다.

  • 구성이 필요하지 않음
  • 무료로 GPU 사용
  • 간편한 공유

구글 Colab의 사용이 익숙치는 않아서 우선 데이터를 불러온 후, 그 결과를 출력해보았다.

 

import pandas as pd
 
 
insurance.head()
 
구글 코랩 데이터 출력 결과

데이터 전처리

분석 목적에 적합하도록 데이터를 사전에 가공 및 정리하는 과정을 데이터 전처리라고 한다. 이 과정에서 데이터의 결측치 및 이상치를 확인하고 데이터의 형태를 변환하는 등의 프로세스를 수행한다.

탐색적 데이터 분석 EDA(Exploratory Data Analysis)

데이터 분석과 인공지능 모델링을 수행하기 직전 단계로 데이터의 패턴을 찾아내는 데이터 이해의 단계에 해당한다. 통계적인 방법 또는 시각화 도구를 활용해서 데이터를 확인하는 과정이다.

 

반응형

댓글