Bài này dùng để tổng hợp lại toàn bộ khoá học Data Engineering trên DeepLearning.ai. Những note chi tiết hơn cho từng course cụ thể có thể xem tại đây.
<aside> ⚠️
Lưu ý, note này mang tính chất là bản nháp, chỉ dành cho tôi đọc nó. Note này cần phải kết hợp với các notes chính của course.
</aside>
Khoá học được dạy bởi Joe Reis, tác giả quyển sách Fundamentals of Data Engineering. Khoá này dạy bám sát quyển sách này.
Tổng quan thì SE khá gần với DE. Gần như những kiến thức nền tảng DE đều là những task của SE nhưng là làm việc với data.
Lifecycle: quanh đi quẩn lại là làm những việc này
Lịch sử: SQL → Data Warehouses → internet boom → MapReduce and Hadoop → Cloud platforms (AWS, GCP, Azure) + streaming.
Upstream (SE) → DE → Downstream (Analytics / ML / …)
DE cần rất nhiều cuộc trao đổi với những phòng ban khác (cái này đã trải nghiệm ở Dataswati)
Thinking like DE:
Step 3.3 is crucial to complete before investing too much time in implementation
A big picture of DE → get raw data and turn it into something useful.
DE life cycle transformation = query, modeling and transformation.