추출에서 소비까지, modern data stack

hideBreadcrumbs: true
ogImage: "<https://i.imgur.com/yqXZtvV.png>"
bottomNavigator: null
description: "데이터 중심 조직을 유지하기 위해 필수적인 data stack. 잘 짜여진 data stack을 위해서 어떤 기술, 툴, 인적 리소스가 필요할까요? 현업의 self-analytics가 성행되기 어려운 이유는 무엇이며 어떤 솔루션이 있을지 이번 글을 통해 알아봅시다."

<head>
<link rel="canonical" href="<https://community.heartcount.io/ko/data-stack-enterprise/>" />
</head>

What is Modern Data Stack?

modern data stack(for enterprise)이란, 데이터를 활용하는 조직에서 데이터 통합 및 분석에 사용하는 모든 소프트웨어/툴, 기술 등 제품군의 집합체를 의미합니다. 데이터는 내부 프로세스에 따라 스택을 통해 흐릅니다. 이를 통해 직원들은 필요할 때 필요한 정보에 액세스할 수 있습니다.

이번 글에서는 하트카운트팀이 제시하는 잘 짜여진(best-practice) modern data stack을 보여드리고, 구성 요소들을 주요 기술 - 관련 직무순으로 살펴 본 후에, 현업들의 Self-Analytics가 잘 안 되는 이유와 해결 방법을 제시하고자 합니다.

데이터가 단순히 목표가 아니라 수단이라는 가정 하에서 기술과 기능의 나열이 아니라 데이터를 실제로 다루는 사람들의 경험을 통한 데이터에 대한 이야기를 해보려고 합니다. 데이터 엔지니어, 사이언티스트, 애널리스트, 그리고 현업 및 C-Level(의사결정권자들)까지. 조직 내에서 데이터를 둘러싼 주요 인물들이 어떤 역할을 수행하고 있는지 알아보겠습니다.

데이터를 활용하는 기술: Statistisc, Analytics, AI·ML

https://img1.daumcdn.net/thumb/R1280x0/?fname=http%3A//t1.daumcdn.net/brunch/service/user/cqBJ/image/jRP5WFtoxKURZ0un1uOiIkeUWBQ.png

위 표에서 '데이터'하면 많이 들어본 단어들이 보이시죠? 하나하나 뭐가 다른지 설명해드리겠습니다.

우선, 현대 데이터 분석의 기반인 Statistics(전통적인 통계학)의 경우, 가설을 검증하고 일반화하기 위해 이루어집니다. 이 과정을 통하여 과거에 수집해놓은 작은 데이터가 통계적으로 중요한 데이터가 되기도 하고, 데이터간의 인과관계를 발견하기도 합니다. 실제로는 정책을 결정하거나 신약 효과 등 연구를 위하여 사용됩니다.

두 번째로, 데이터 집중 직무가 아닌 일반 현업들에게도 활용되는 Analytics입니다. 애널리틱스는 기업내 중요하고 집단적인 의사 결정을 위해 이루어집니다. 의사 결정과 관련 있는 데이터들을 수집하고 Fact(What)/유용한 패턴을 파악하고 더 나아가 Why(설명적 분석)와 How(예측 분석)을 통하여 실용적인 가치를 발견하고 이를 동료들에게 공유합니다.

마지막으로, AI와 ML(머신러닝)은 '자동화'를 위해 수행됩니다. 플랫폼 내 사용자들의 개인화/추천 시스템과 같이, 자잘한 일들을 자동화시키기 위하여 빅데이터를 활용, 개별 데이터를 분석하고 예측까지 이루어집니다.