본문 바로가기
프로그래밍

[데이터과학 #1] 데이터 큐레이션과 데이터 검사 (data curation/Data Inspection

by Shelter Keeper 2023. 4. 22.

Data curation은 정보를 찾는 사람들이 액세스 하고 사용할 수 있도록 데이터 세트를 생성, 구성 및 유지 관리하는 프로세스이다.

여기에는 조직, 그룹 또는 일반 대중의 사용자를 위해 데이터를 수집, 구조화, 인덱싱 및 분류하는 작업이 포함된다.

비즈니스 의사 결정, 학업 요구, 과학 연구 및 기타 목적을 지원하기 위해 데이터를 선별할 수 있다.

 

Data curation tasks

  • 비즈니스 목적을 가장 잘 만족하는 데이터를 결정해야 한다.
  • 데이터를 수집한다.
  • 수집한 데이터를 컴퓨터에 저장한다.

 

Data curation의 어려운 점

  • 데이터와 비즈니스 목적과의 연관성을 이해하는 것이 어렵다
  • 데이터의 질이 받아드릴 수 있을 정도여야 한다.
  • 데이터의 양이 통계적으로 유의미할 만큼 충분해야 한다. 그렇지 않으면 분석 결과가 의미가 없어질 수 있다.

Data Inspection은 두 가지 task로 구성된다.

  1. 데이터 탐색(Data exploration) : 데이터의 일반적인 특성을 이해하기 위해 수집된 데이터를 탐색한다.
  2. 적합성 확인(Suitability check) : 비즈니스 목표에 대한 데이터의 적합성을 확인한다.

1. 데이터 탐색

중심 경향, 분산, 데이터 분포, 이상값, attributes사이에 상관관계를 확인한다.

통계 및 데이터 시각화 도구를 사용해 나타낼 수 있다. (Boxplot, histogram, scatterplot)

 

Boxplot

histogram

Scatterplot

 

 

2. 적합성 확인

데이터 큐레이션의 두번째 단계로 메타데이터 검색을 위한 data dictionary 및 시각화 소프트웨어 도구가 필요하다

 

메타데이터란, 데이터에 대한 데이터로 entities와 attributes의 이름, attributes 간에 관계, 각 attributes의 데이터 타입 등을 나타낸다

 

3 types of Metadata

  • Technical Metadata: about all entities, attributes, relationships
  • Business Metadata: 기술적 메타데이터의 설명, 데이터 소스
  • Process Metadata: 모든 주요 작업의 결과