Data curation은 정보를 찾는 사람들이 액세스 하고 사용할 수 있도록 데이터 세트를 생성, 구성 및 유지 관리하는 프로세스이다.
여기에는 조직, 그룹 또는 일반 대중의 사용자를 위해 데이터를 수집, 구조화, 인덱싱 및 분류하는 작업이 포함된다.
비즈니스 의사 결정, 학업 요구, 과학 연구 및 기타 목적을 지원하기 위해 데이터를 선별할 수 있다.
Data curation tasks
- 비즈니스 목적을 가장 잘 만족하는 데이터를 결정해야 한다.
- 데이터를 수집한다.
- 수집한 데이터를 컴퓨터에 저장한다.
Data curation의 어려운 점
- 데이터와 비즈니스 목적과의 연관성을 이해하는 것이 어렵다
- 데이터의 질이 받아드릴 수 있을 정도여야 한다.
- 데이터의 양이 통계적으로 유의미할 만큼 충분해야 한다. 그렇지 않으면 분석 결과가 의미가 없어질 수 있다.
Data Inspection은 두 가지 task로 구성된다.
- 데이터 탐색(Data exploration) : 데이터의 일반적인 특성을 이해하기 위해 수집된 데이터를 탐색한다.
- 적합성 확인(Suitability check) : 비즈니스 목표에 대한 데이터의 적합성을 확인한다.
1. 데이터 탐색
중심 경향, 분산, 데이터 분포, 이상값, attributes사이에 상관관계를 확인한다.
통계 및 데이터 시각화 도구를 사용해 나타낼 수 있다. (Boxplot, histogram, scatterplot)
Boxplot

histogram

Scatterplot

2. 적합성 확인
데이터 큐레이션의 두번째 단계로 메타데이터 검색을 위한 data dictionary 및 시각화 소프트웨어 도구가 필요하다
메타데이터란, 데이터에 대한 데이터로 entities와 attributes의 이름, attributes 간에 관계, 각 attributes의 데이터 타입 등을 나타낸다
3 types of Metadata
- Technical Metadata: about all entities, attributes, relationships
- Business Metadata: 기술적 메타데이터의 설명, 데이터 소스
- Process Metadata: 모든 주요 작업의 결과
'프로그래밍' 카테고리의 다른 글
프론트엔드 개발자 준비방법을 알아보자! (0) | 2023.06.15 |
---|---|
백엔드 개발자 준비방법을 알아보자! (0) | 2023.06.14 |
서버란 무엇인가 [소프트웨어 공부 #1] (0) | 2023.06.13 |
프롬프트 엔지니어 한번에 알아보자 ! (1) | 2023.05.27 |
데이터과학이란 무엇인가 [Data Science] (0) | 2023.04.21 |