Quản lý dữ liệu là gì? – Giải thích về Quản lý dữ liệu – AWS
Ngoài quản trị dữ liệu ra, biện pháp thực hành quản lý dữ liệu còn bao gồm việc thu thập và phân bổ dữ liệu chất lượng cao để kiểm soát quyền truy cập dữ liệu.
Nội Dung Chính
Quản lý chất lượng dữ liệu
Người dùng dữ liệu mong muốn dữ liệu có đủ độ tin cậy và tính nhất quán đối với từng trường hợp sử dụng.
Các nhà quản lý chất lượng dữ liệu đo lường và cải thiện chất lượng dữ liệu của tổ chức. Họ đánh giá và xác minh khả năng đáp ứng các tiêu chuẩn của cả dữ liệu hiện có lẫn dữ liệu mới. Họ cũng có thể thiết lập các quy trình quản lý dữ liệu giúp chặn dữ liệu chất lượng thấp xâm nhập vào hệ thống. Tiêu chuẩn chất lượng dữ liệu thường đo lường những yếu tố sau:
- Thông tin chính có bị thiếu hay không, dữ liệu đã đầy đủ hay chưa? (ví dụ: khách hàng để lại thông tin liên hệ chính)
- Dữ liệu có đáp ứng các quy tắc kiểm tra dữ liệu cơ bản không? (ví dụ: số điện thoại phải có 10 chữ số)
- Dữ liệu giống nhau xuất hiện trong hệ thống với tần suất như thế nào? (ví dụ: các mục nhập dữ liệu trùng lặp của cùng một khách hàng)
- Dữ liệu có chính xác không? (ví dụ: khách hàng nhập sai địa chỉ email)
- Chất lượng dữ liệu có nhất quán trên toàn hệ thống không? (ví dụ: ngày sinh ở định dạng dd/mm/yyyy trong một tập dữ liệu nhưng lại ở định dạng mm/dd/yyyy trong một tập dữ liệu khác)
Phân bổ dữ liệu và tính nhất quán
Điểm cuối cho phân bổ dữ liệu
Đối với hầu hết các tổ chức, dữ liệu phải được phân bổ đến (hoặc gần) các điểm cuối cần dữ liệu khác nhau. Những điểm cuối này bao gồm hệ thống vận hành, hồ dữ liệu và kho dữ liệu. Phân bổ dữ liệu là điều cần thiết do có độ trễ mạng. Khi cần dữ liệu để vận hành, độ trễ mạng có thể sẽ không đủ để phân phối dữ liệu kịp thời. Lưu trữ bản sao dữ liệu trong cơ sở dữ liệu cục bộ giúp giải quyết vấn đề về độ trễ mạng.
Quá trình phân bổ dữ liệu cũng rất cần thiết trong việc hợp nhất dữ liệu. Kho dữ liệu và hồ dữ liệu hợp nhất dữ liệu từ nhiều nguồn khác nhau để cho ra một chế độ xem thông tin thống nhất. Kho dữ liệu được dùng để phân tích và ra quyết định, trong khi hồ dữ liệu lại là trung tâm hợp nhất cho phép trích xuất dữ liệu cho nhiều trường hợp sử dụng khác nhau.
Cơ chế sao chép dữ liệu và khả năng tác động đến tính nhất quán
Cơ chế phân bổ dữ liệu có tác động tiềm ẩn đến tính nhất quán của dữ liệu và đây là một yếu tố quan trọng cần xem xét trong việc quản lý dữ liệu.
Việc sao chép dữ liệu đồng bộ sẽ tạo tính nhất quán cao. Trong lối tiếp cận này, khi một giá trị dữ liệu thay đổi, tất cả các ứng dụng và người dùng sẽ thấy được giá trị dữ liệu đã thay đổi. Nếu vẫn chưa sao chép giá trị dữ liệu mới, quyền truy cập dữ liệu sẽ bị chặn cho đến khi toàn bộ bản sao được cập nhật. Sao chép đồng bộ ưu tiên tính nhất quán hơn hiệu suất và quyền truy cập dữ liệu. Sao chép đồng bộ thường được sử dụng cho dữ liệu tài chính.
Việc sao chép dữ liệu không đồng bộ sẽ tạo tính nhất quán sau cùng. Khi thay đổi dữ liệu, các bản sao cũng sẽ được cập nhật sau đó (thường trong vòng vài giây), tuy nhiên bạn vẫn có thể truy cập vào các bản sao cũ. Đây không phải là vấn đề đối với nhiều trường hợp sử dụng. Ví dụ: các bài đăng, lượt thích và bình luận trên mạng xã hội không yêu cầu tính nhất quán cao. Một ví dụ khác là nếu khách hàng thay đổi số điện thoại của họ trong một ứng dụng, sự thay đổi này có thể được phân tầng không đồng bộ.
So sánh phân luồng với cập nhật hàng loạt
Luồng dữ liệu phân tầng những thay đổi trong dữ liệu khi xảy ra thay đổi. Đây là một phương pháp ưu tiên khi cần truy cập vào dữ liệu gần theo thời gian thực. Ngay sau khi thay đổi dữ liệu, dữ liệu đó sẽ được trích xuất, chuyển đổi và phân phối tới điểm đích.
Cập nhật hàng loạt sẽ phù hợp hơn khi dữ liệu cần được xử lý hàng loạt trước khi phân phối. Quá trình tóm tắt hoặc phân tích thống kê dữ liệu và chỉ cung cấp kết quả là một ví dụ cho hoạt động này. Cập nhật hàng loạt cũng có thể bảo toàn tính nhất quán nội bộ tại thời điểm trước đó của dữ liệu nếu toàn bộ dữ liệu được trích xuất tại một thời điểm cụ thể. Cập nhật hàng loạt thông qua quy trình trích xuất, chuyển đổi và tải (ETL hoặc ELT) thường được dùng cho hồ dữ liệu, kho dữ liệu và hoạt động phân tích.
Quản lý dữ liệu lớn
Dữ liệu lớn là khối lượng lớn dữ liệu mà một tổ chức thu thập được ở tốc độ cao trong một khoảng thời gian ngắn. Nguồn cấp dữ liệu tin tức video trên mạng xã hội và các luồng dữ liệu từ những cảm biến thông minh là những ví dụ về dữ liệu lớn. Cả quy mô và tính phức tạp của các hoạt động tạo ra những thách thức trong quản lý dữ liệu lớn. Chẳng hạn, một hệ thống dữ liệu lớn lưu trữ những dữ liệu như:
- Dữ liệu có cấu trúc trình bày tốt dưới dạng bảng
- Dữ liệu không có cấu trúc như tài liệu, hình ảnh và video
- Dữ liệu bán cấu trúc kết hợp hai loại trước
Các công cụ quản lý dữ liệu lớn phải xử lý và chuẩn bị dữ liệu để phân tích. Các công cụ và kỹ thuật cần thiết cho dữ liệu lớn thường thực hiện các chức năng sau: tích hợp dữ liệu, lưu trữ dữ liệu và phân tích dữ liệu.
Kiến trúc dữ liệu và lập mô hình dữ liệu
Kiến trúc dữ liệu
Kiến trúc dữ liệu mô tả tài sản dữ liệu của một tổ chức và cung cấp một kế hoạch chi tiết để tạo và quản lý luồng dữ liệu. Kế hoạch quản lý dữ liệu bao gồm các chi tiết kỹ thuật, chẳng hạn như cơ sở dữ liệu hoạt động, hồ dữ liệu, kho dữ liệu và máy chủ phù hợp nhất để thực hiện chiến lược quản lý dữ liệu.
Lập mô hình dữ liệu
Lập mô hình dữ liệu là quá trình tạo ra các mô hình dữ liệu khái niệm và logic thể hiện trực quan luồng công việc và mối quan hệ giữa các loại dữ liệu khác nhau. Lập mô hình dữ liệu thường bắt đầu bằng việc biểu diễn dữ liệu theo khái niệm và sau đó biểu diễn lại dữ liệu theo ngữ cảnh của công nghệ đã chọn. Các nhà quản lý dữ liệu tạo ra một số loại mô hình dữ liệu khác nhau trong giai đoạn thiết kế dữ liệu.
Quản trị dữ liệu
Quản trị dữ liệu bao gồm các chính sách và quy trình mà một tổ chức thực hiện để quản lý bảo mật dữ liệu, tính toàn vẹn và việc sử dụng dữ liệu có trách nhiệm. Trong đó xác định chiến lược quản lý dữ liệu và xác định ai có thể truy cập vào dữ liệu nào. Các chính sách quản trị dữ liệu cũng thiết lập trách nhiệm giải trình trong việc các nhóm và cá nhân truy cập và sử dụng dữ liệu ra sao. Các chức năng quản trị dữ liệu thường bao gồm:
Tuân thủ quy định
Các chính sách quản trị dữ liệu giúp giảm rủi ro phải chịu các khoản phạt tiền hoặc kiện tụng pháp lý. Những chính sách này tập trung vào đào tạo nhân viên nhằm đảm bảo tuân thủ luật pháp ở tất cả các cấp. Ví dụ: một tổ chức hợp tác với một nhóm phát triển bên ngoài để cải thiện hệ thống dữ liệu của mình. Các nhà quản lý quản trị dữ liệu xác minh rằng tất cả dữ liệu cá nhân bị xóa trước khi chuyển cho nhóm bên ngoài để phục vụ mục đích kiểm tra.
Bảo mật dữ liệu và kiểm soát truy cập
Quản trị dữ liệu ngăn chặn tình trạng truy cập trái phép dữ liệu và bảo vệ dữ liệu khỏi bị hỏng. Điều này bao gồm tất cả các khía cạnh của bảo vệ, ví dụ như những nội dung sau đây:
- Phòng ngừa việc vô tình di chuyển hoặc xóa dữ liệu
- Bảo mật truy cập mạng để giảm rủi ro mạng bị tấn công
- Xác minh các trung tâm dữ liệu vật lý lưu trữ dữ liệu có đáp ứng các yêu cầu bảo mật không
- Đảm bảo an toàn dữ liệu ngay cả khi nhân viên truy cập dữ liệu từ các thiết bị cá nhân
- Xác thực người dùng, ủy quyền cũng như thiết lập và thực thi quyền truy cập dữ liệu
- Đảm bảo rằng dữ liệu được lưu trữ tuân thủ pháp luật quốc gia nơi dữ liệu được lưu trữ