Datalize

Datalize

Share

25/07/2025

Data governance P3 - Data lineage,

Google/Gemini:
"Data lineage is crucial for effective data governance because it provides a detailed map of how data flows through an organization, from its origin to its final destination. This capability allows organizations to understand data quality, track data changes, and ensure compliance with regulations. By visualizing and documenting data's journey, data lineage helps with impact analysis, root cause analysis, and optimizing data management processes. "

Data lineage ko chỉ phục vụ trong DG mà còn ứng dụng rất thiết thực khi debug cần phải trace xuôi - ngược từ chart/dashboard data source end to end.

22/07/2025

Data Warehouse design procedure/methodologies,

Một chủ đề challenge nhưng ko nhiều Data Engineer/Analytics Engineer được mần, nhất là trong dự án lớn,

Có 4 methods chính: Innon, Kimball, Data Vault (Hybrid), OBT (One big table),

1. Với Innon thì phù hợp với dự án/cty có hệ thống Data source lớn và có tính structured cao, ổn định,

2. Kimball thì phù hợp với dự án/cty có yêu cầu phân tích đa dạng, ad-hoc analysis nhiều,

3. Hybrid thì kết hợp advantage của cả Innon & Kimball nhưng khi triển khai sẽ phức tạp vì cần đảm bảo tính chặt chẽ của cả top-down với bottom-up,

4. OBT thường phù hợp với kiểu Time series analyasis driven, khi lượng dữ liệu từ các bảng chưa quá lớn, cần ra insights nhanh.

Photos from Datalize's post 17/07/2025

3 kiến trúc Data ingestion từ đa dạng các data source chính hiện tại,

Mỗi kiến trúc phù hợp với nhu cầu, hiện trạng dữ liệu:
1. Lambda (hình 1) thì phục vụ hướng OLAP (On-line analytical processing) và OLTP (On-line transactional processing) sau khi ingest,
2. Kappa (hình 2) thì hợp chính với OLTP,
3. Lakehouse/Data lake (hình 3) khi cần tổ chức dữ liệu structure & unstructure cần ingest.

Want your business to be the top-listed Business in Hanoi?
Click here to claim your Sponsored Listing.

Address


Số 17, Ngõ Hoà Bình 2, Phố Minh Khai, Quận Hai Bà Trưng, HN
Hanoi
100000