**Data Lakes and hybrid Data Warehouses are certainly a wonderful tool to make the company data-driven and to bring it forward. However, such a Data Lake must be managed and maintained, otherwise it degenerates into a Data Swamp. This often leads to the fact that information is wrong and users do not use it at all, then Data Lakes do not create any advantages but only produce costs.
- What is Data Swamp? -**
대표적인 데이터 저장소
→ 대량의 데이터를 장기 보관 (보통 3개월~1년)
다양한 source의 데이터를 분석 가능하고 구조화된 형식으로 저장 → 구조화된 정형 데이터를 담는 repository → Data-driven 의사결정을 도움 (For Analytics and Reporting) → 다양한 source에서 필요한 데이터를 그대로 가져오기도 하지만, 보통 ETL 과정 거침
용도에 따라 나누어놓고 OLAP 작업 통해 BI(Business Intelligence) 실현
→ 시각화 등 BI 툴을 추가하여 사용하기도 한다.
“일단 저장하고 필요할 때 꺼내쓴다!”