Diễn đàn thiết kế kho dữ liệu

Bạn có biết sự khác biệt giữa dimensional modeling sự thật và hư cấu không?

Theo  Merriam-Webster , truyện ngụ ngôn là những câu nói hư cấu. Thật không may, truyện ngụ ngôn về mô hình kích thước lưu hành khắp ngành của chúng tôi. Những tuyên bố và xác nhận sai lầm này là một sự phân tâm, đặc biệt nếu bạn đang cố gắng sắp xếp một nhóm. Trong chuyên mục này, chúng tôi sẽ mô tả những hiểu lầm gốc rễ kéo dài những huyền thoại này để bạn hiểu tại sao chúng lại vô căn cứ như những câu chuyện cổ tích về sinh vật hai đầu.

Không phải tất cả dimensional modeling đều được tạo ra bằng nhau

Chúng tôi xem xét rất nhiều dimensional models trong công việc của chúng tôi. Chúng thường minh họa các nguyên tắc thiết kế thực tiễn tốt nhất từ ​​Bộ công cụ và cột của chúng tôi. Tuy nhiên, không phải tất cả các dimensional modeling giả định đều được thiết kế phù hợp. Một số vi phạm trắng trợn các nguyên lý dimensional models cốt lõi. Với các lược đồ sao mẫu siêu phàm được tìm thấy trong các cuốn sách và bài thuyết trình đào tạo có vẻ có thẩm quyền, điều này không có gì ngạc nhiên. Tuy nhiên, bạn không nên gộp tất cả các dimensional modeling vào một danh mục “xấu” dựa trên những kẻ mạo danh sai lầm.

Hầu hết các khẳng định truyền thuyết đều bắt nguồn từ một số sai lầm cơ bản liên quan đến các phương pháp hay nhất về dimensional modeling. Không thể đổ lỗi cho dimensional modeling nếu các khái niệm cơ bản của nó không được chấp nhận. Tương tự như vậy, những lời chỉ trích của những cá nhân không hiểu cơ sở chính của nó cần phải được muối bỏ bể. Khi chúng tôi làm rõ những hiểu lầm này, bạn sẽ chuẩn bị để phân biệt các câu chuyện ngụ ngôn với sự thật.

Tập trung vào Quy trình đo lường, không phải Báo cáo của Bộ phận

Chúng tôi ủng hộ cách tiếp cận bốn bước để thiết kế dimensional modeling. Bước đầu tiên là xác định quy trình kinh doanh, tiếp theo là khai báo hạt, sau đó chọn kích thước và dữ kiện. Không nơi nào chúng tôi khuyên bạn nên chỉ định 10 bố cục hoặc truy vấn báo cáo hàng đầu của doanh nghiệp.

Nếu các yêu cầu được thu thập bằng cách tập trung hoàn toàn vào các mẫu báo cáo hoặc truy vấn, bạn sẽ dễ bị lập mô hình dữ liệu để tạo ra một báo cáo cụ thể, thay vì nắm bắt các chỉ số chính và thứ nguyên liên quan để phân tích. Rõ ràng, điều quan trọng là phải xem xét việc sử dụng kinh doanh khi thiết kế dimensional modeling. Các thuộc tính thứ nguyên phải hỗ trợ các yêu cầu lọc và ghi nhãn của môi trường BI. Các thuộc tính thứ nguyên mạnh mẽ chuyển thành các kết hợp cắt và cắt phân tích gần như vô tận. Tuy nhiên, đừng mù quáng tập trung vào danh sách top 10 một cách cô lập vì các mức độ ưu tiên và báo cáo “nóng” chắc chắn sẽ phát triển.

Thay vì tập trung vào các báo cáo cụ thể hoặc nhu cầu của bộ phận trong môi trường chân không, chúng tôi khuyên bạn nên tập trung dimensional modeling vào quy trình đo lường hiệu suất quan trọng nhất. Khi làm như vậy, bạn có thể đặt những câu chuyện ngụ ngôn sau đây vào phần còn lại.

FABLE:  Marts dữ liệu được xây dựng để giải quyết một báo cáo hoặc ứng dụng kinh doanh cụ thể. Khi doanh nghiệp cần một báo cáo mới, một giản đồ sao khác sẽ được xây dựng.

THỰC TẾ:  Các kho dữ liệu với dimensional modeling phải được xây dựng xung quanh các quá trình hoặc sự kiện đo lường vật lý. Một hàng của bảng dữ kiện được tạo khi một phép đo xảy ra. Các thuộc tính thứ nguyên được liên kết phản ánh các đặc điểm và phân cấp theo ngữ cảnh. Nếu doanh nghiệp xác định một báo cáo mới dựa trên cùng một quy trình đo lường, thì không cần phải xây dựng siêu thị, mô hình hoặc giản đồ mới. Các quy trình đo lường tương đối ổn định trong hầu hết các tổ chức; các phân tích được thực hiện dựa trên các chỉ số này linh hoạt hơn.

FABLE:  Mô hình kích thước là giải pháp cấp phòng ban. Khi một bộ phận khác cần quyền truy cập vào dữ liệu, một lược đồ sao mới được xây dựng và gắn nhãn từ vựng của bộ phận đó. Data mart yêu cầu nhiều lần trích xuất từ ​​cùng một nguồn dữ liệu.

THỰC TẾ: Mô hình kích thước không nên bị ràng buộc theo bộ phận. Một bảng dữ kiện đại diện cho một quy trình đo lường cơ bản chỉ cần có một phiên bản vật lý được chia sẻ giữa các bộ phận hoặc chức năng kinh doanh. Không có lý do gì để tạo nhiều đoạn trích từ cùng một nguồn. Ví dụ: các chỉ số thu được từ quá trình lập hóa đơn được cung cấp trong một dimensional modeling đơn để truy cập trong toàn doanh nghiệp; không có lý do gì để sao chép số liệu hiệu suất hóa đơn trong các giải pháp phòng ban riêng biệt cho tài chính, tiếp thị và bán hàng. Ngay cả khi các giải pháp phòng ban này được lấy từ cùng một kho lưu trữ, chúng có thể sử dụng các quy ước đặt tên, định nghĩa và quy tắc kinh doanh tương tự nhưng hơi khác nhau, đánh bại lời hứa về một phiên bản duy nhất của sự thật. Cách tiếp cận của bộ phận rất dễ bị thiếu nhất quán, các giải pháp điểm không tích hợp. Chúng tôi chưa bao giờ ủng hộ cách tiếp cận này.

FABLE:  Bạn không thể kết hợp các nguồn dữ liệu mới mà không xây dựng lại giản đồ hình sao ban đầu hoặc tạo bảng dữ liệu hoặc kho dữ liệu riêng biệt.

SỰ THẬT:  Nếu nguồn dữ liệu mới là một hệ thống thu thập khác cho quy trình đo lường hiện có trong môi trường BI, thì dữ liệu mới có thể được kết hợp một cách duyên dáng với dữ liệu gốc mà không làm thay đổi bất kỳ ứng dụng báo cáo hiện có nào, giả sử mức độ chi tiết là như nhau. Nếu nguồn dữ liệu mới ở một hạt khác đại diện cho một quá trình đo lường mới, thì một bảng dữ liệu mới phải được tạo. Điều này không liên quan gì đến dimensional modeling. Mọi biểu diễn dữ liệu sẽ tạo ra một thực thể mới khi một bảng mới với các khóa khác nhau được giới thiệu.

FABLE:  Với các dimensional modeling, bảng dữ kiện buộc phải thành một hạt đơn lẻ không linh hoạt.

SỰ THẬT:  Có kỷ luật để tạo các bảng dữ kiện với một mức độ chi tiết duy nhất đảm bảo rằng các phép đo không bị đếm hai lần một cách không thích hợp. Chỉ một ứng dụng tùy chỉnh am hiểu về các mức độ chi tiết khác nhau mới có thể truy vấn một bảng với các dữ kiện hỗn hợp, loại trừ khả năng khám phá đặc biệt một cách hiệu quả. Nếu các phép đo tự nhiên tồn tại ở các hạt khác nhau, thì thiết kế dễ hiểu nhất sẽ thiết lập một bảng dữ kiện cho mỗi cấp. Không linh hoạt, cách tiếp cận này bảo vệ các ứng dụng hiện có khỏi bị phá vỡ hoặc mã hóa khi các thay đổi xảy ra.

Bắt đầu với chi tiết nguyên tử, không phải dữ liệu tóm tắt

Một số cho rằng các kho dữ liệu với các dimensional models nhằm mục đích phân tích dimensional Data, quản lý và do đó, nên được điền bằng dữ liệu tóm tắt chứ không phải chi tiết hoạt động. Chúng tôi hoàn toàn không đồng ý. Mô hình thứ nguyên phải được điền với dữ liệu nguyên tử để người dùng doanh nghiệp có thể đặt những câu hỏi rất chính xác. Ngay cả khi người dùng không quan tâm đến chi tiết của một giao dịch duy nhất, thì “câu hỏi về thời điểm” của họ liên quan đến việc tóm tắt các chi tiết theo những cách không thể đoán trước. Người quản trị cơ sở dữ liệu có thể tóm tắt trước một số thông tin, bằng vật lý hoặc thông qua các khung nhìn cụ thể, để tránh tóm tắt nhanh chóng với mọi truy vấn. Tuy nhiên, những tập hợp này là sự bổ sung điều chỉnh hiệu suất cho cấp độ nguyên tử, không phải thay thế. Nếu bạn tạo dimensional models với các chi tiết nguyên tử, thì những câu chuyện ngụ ngôn sau đây không phải là vấn đề.

FABLE: Các  lược đồ hình sao và dimensional models giả định trước câu hỏi kinh doanh. Khi các yêu cầu thay đổi, mô hình phải được sửa đổi.

SỰ THẬT:  Khi bạn tóm tắt thông tin, bạn đã giả định trước câu hỏi kinh doanh. Tuy nhiên, các mô hình thứ nguyên với dữ liệu nguyên tử độc lập với câu hỏi kinh doanh vì người dùng có thể cuộn lên hoặc xem chi tiết nội dung quảng cáo. Họ trả lời các câu hỏi mới, chưa được xác định trước đó mà không cần thay đổi cơ sở dữ liệu. Rõ ràng, các yêu cầu nghiệp vụ là đầu vào quan trọng cho bất kỳ sáng kiến ​​DW / BI nào.

FABLE: Các  lược đồ hình sao và dimensional models chỉ thích hợp khi có một kiểu sử dụng có thể dự đoán được. Mô hình thứ nguyên không thích hợp cho các truy vấn khám phá.

SỰ THẬT:  Cả mô hình chuẩn hóa và dimensional models đều chứa các mối quan hệ thông tin và dữ liệu giống nhau; cả hai đều có khả năng trả lời chính xác các câu hỏi giống nhau, mặc dù có độ khó khác nhau. Các dimensional models đại diện một cách tự nhiên “vật lý” của một sự kiện đo lường; bảng dữ kiện chứa các phép đo và bảng kích thước chứa ngữ cảnh. Một mô hình đơn chiều dựa trên dữ liệu nguyên tử nhất có khả năng trả lời tất cả các câu hỏi có thể có đối với dữ liệu đó.

FABLE:  Mô hình kích thước không thể mở rộng. Nếu dữ liệu chi tiết được lưu trữ trong kho dữ liệu chiều, hiệu suất sẽ bị giảm sút. Data mart chỉ chứa thông tin gần đây và bị hạn chế lưu trữ lịch sử.

SỰ THẬT: Các  giản đồ sao theo chiều cực kỳ có thể mở rộng. Không có gì lạ khi các bảng dữ kiện hiện đại có hàng tỷ hàng tương ứng với hàng tỷ giao dịch đo lường được ghi lại. Bảng kích thước triệu hàng là phổ biến. Mô hình kích thước phải chứa nhiều lịch sử theo yêu cầu để giải quyết các yêu cầu kinh doanh. Không có gì về dimensional models cấm lưu trữ lịch sử quan trọng.

FABLE:  Mô hình thứ nguyên không thể mở rộng và không thể đáp ứng nhu cầu trong tương lai của kho dữ liệu.

SỰ THẬT: Các  mô hình không gian thể hiện dữ liệu ở mức chi tiết thấp nhất mang lại tính linh hoạt và khả năng mở rộng tối đa. Người dùng có thể tóm tắt dữ liệu nguyên tử theo bất kỳ cách nào. Tương tự, dữ liệu nguyên tử có thể được mở rộng với các thuộc tính, thước đo hoặc thứ nguyên bổ sung mà không làm gián đoạn các báo cáo và truy vấn hiện có.

FABLE:  Dimensional models không thể hỗ trợ dữ liệu phức tạp. Nó loại bỏ các mối quan hệ nhiều-nhiều giữa các thực thể, chỉ cho phép các mối quan hệ nhiều-một. Dimensional models có thể được tạo ra từ mô hình mối quan hệ thực thể (ER); tuy nhiên, không thể tạo mô hình ER từ dimensional models.

SỰ THẬT:  Nội dung logic của dimensional models và mô hình chuẩn hóa là giống hệt nhau. Mọi mối quan hệ dữ liệu được thể hiện trong một mô hình có thể được thể hiện chính xác trong mô hình kia. Mô hình thứ nguyên luôn dựa trên bảng dữ kiện, là những mối quan hệ tổng quát hoàn toàn từ nhiều đến nhiều. Dimensional models là một dạng của mô hình ER có chế độ trượt tuyết không cần thiết (chuẩn hóa các thuộc tính kích thước).

Tích hợp là Mục tiêu, Không phải Bình thường hóa

Một số người tin rằng bình thường hóa giải quyết được thách thức tích hợp dữ liệu. Việc chuẩn hóa dữ liệu không đóng góp gì cho việc tích hợp, ngoại trừ việc buộc các nhà phân tích dữ liệu phải đối mặt với sự không nhất quán giữa các nguồn dữ liệu.

Tích hợp dữ liệu là một quá trình ngoài bất kỳ cách tiếp cận mô hình cụ thể nào. Nó yêu cầu xác định các nhãn và thước đo không tương thích được tổ chức sử dụng, sau đó đạt được sự đồng thuận để thiết lập và quản lý các nhãn và thước đo chung cho toàn doanh nghiệp. Trong mô hình kích thước, các nhãn và thước đo này nằm trong các kích thước phù hợp và các dữ kiện phù hợp, tương ứng. Như được trình bày trong kiến ​​trúc xe buýt, các kích thước phù hợp là “chất kết dính” tích hợp giữa các quy trình kinh doanh đo lường. Các thứ nguyên phù hợp thường được xây dựng và duy trì dưới dạng dữ liệu tổng thể liên tục tập trung trong ETL, sau đó được sử dụng lại trên các mô hình thứ nguyên để cho phép tích hợp dữ liệu và đảm bảo tính nhất quán ngữ nghĩa.

FABLE: Các  khái niệm mô hình thứ nguyên như kích thước phù hợp đặt ra gánh nặng quá mức cho nỗ lực ETL.

SỰ THẬT:  Tích hợp dữ liệu phụ thuộc vào các nhãn, giá trị và định nghĩa được chuẩn hóa. Thật khó để đạt được sự đồng thuận của tổ chức và thực hiện các quy tắc hệ thống ETL tương ứng, nhưng bạn không thể né tránh nỗ lực, bất kể bạn đang xử lý mô hình chuẩn hóa hay mô hình chiều.

FABLE:  Mô hình thứ nguyên không thích hợp khi có nhiều hơn hai hệ thống nguồn duy nhất do sự phức tạp của việc tích hợp dữ liệu từ nhiều nguồn.

THỰC TẾ:  Những thách thức của tích hợp dữ liệu không liên quan gì đến cách tiếp cận mô hình hóa. Nghịch lý thay, mô hình hóa các chiều và kiến ​​trúc xe buýt tiết lộ các nhãn và thước đo của một doanh nghiệp rõ ràng đến mức một tổ chức không có lựa chọn nào khác ngoài việc giải quyết các vấn đề tích hợp một cách trực tiếp.

FABLE: Các  thay đổi đối với thuộc tính thứ nguyên chỉ là một vấn đề đối với mô hình thứ nguyên.

SỰ THẬT:  Mọi kho dữ liệu đều phải đối phó với phương sai thời gian. Khi đặc điểm của một thực thể như khách hàng hoặc sản phẩm thay đổi, chúng ta cần một cách tiếp cận có hệ thống để ghi lại sự thay đổi. Mô hình kích thước sử dụng một kỹ thuật tiêu chuẩn được gọi là kích thước thay đổi chậm (SCD). Khi các mô hình chuẩn hóa gặp phải vấn đề về phương sai thời gian, chúng thường thêm dấu thời gian vào các thực thể. Các dấu thời gian này dùng để nắm bắt mọi thay đổi đối tượng (giống như SCD loại 2), nhưng không sử dụng khóa thay thế cho mỗi hàng mới, giao diện truy vấn phải đưa ra một phép nối hai nòng để ràng buộc cả khóa tự nhiên và dấu thời gian giữa mỗi cặp của các bảng đã kết hợp, tạo gánh nặng không cần thiết, không thân thiện cho mọi ứng dụng hoặc truy vấn báo cáo.

FABLE:  Không thể tích hợp nhiều vùng dữ liệu. Chúng được xây dựng từ đáy, phục vụ nhu cầu của một cá nhân, không phải nhu cầu của một doanh nghiệp. Data mart hỗn loạn là kết quả không thể tránh khỏi.

SỰ THẬT:  Đó chắc chắn là một cuộc đấu tranh để tích hợp các data mart đã được xây dựng dưới dạng các giải pháp độc lập, bộ phận chưa được kiến ​​trúc với các kích thước phù hợp. Đó chính là lý do tại sao chúng tôi khuyên bạn không nên tiếp cận này! Sự hỗn loạn sẽ không dẫn đến nếu bạn sử dụng kiến ​​trúc bus cho khuôn khổ doanh nghiệp với các kích thước phù hợp, sau đó giải quyết sự phát triển gia tăng dựa trên các quy trình đo lường kinh doanh. Các trở ngại về tổ chức và văn hóa là không thể tránh khỏi khi các định nghĩa, quy tắc kinh doanh và thông lệ nhất quán được thiết lập trong toàn doanh nghiệp. Công nghệ là một phần dễ dàng