Hiểu làm giàu dữ liệu với ví dụ đơn giản
Trong thiên hà Quản lý dữ liệu toàn diện và tổng thể, có một tác dụng thấp của nỗ lực chất lượng dữ liệu nghe có vẻ như đơn thuần nhưng sẽ nâng hàng loạt sáng tạo độc đáo MDM lên Lever tiếp theo. Tôi đang sử dụng thuật ngữ “ tác dụng thấp ” ở đây vì khái niệm này cực kỳ đơn thuần nhưng có lẽ rằng sẽ mất một số ít thời hạn để thực thi, tùy thuộc vào nhu yếu tổ chức triển khai, trình độ của bạn, v.v. Trong thời cơ này, tôi sẽ không đi sâu vào quan điểm kỹ thuật của việc thực thi làm giàu dữ liệu, thay vào đó, tôi sẽ nỗ lực lý giải cách khái niệm và sáng tạo độc đáo về việc làm giàu dữ liệu hoàn toàn có thể được thực thi .
Trong cuốn sách rất trong thực tiễn của họ về MDM Đa miền, Mark Allen và Dalton Cervo đã lý giải thuật ngữ làm giàu dữ liệu như một quy trình nâng cao thông tin hiện có bằng cách bổ trợ dữ liệu bị thiếu hoặc không rất đầy đủ. Như tất cả chúng ta đã biết, nhiều tổ chức triển khai, đặc biệt quan trọng là những tổ chức triển khai lớn, thường gồm có những mạng lưới hệ thống thông tin riêng không liên quan gì đến nhau và phân mảnh mà mỗi tổ chức triển khai giữ dữ liệu của riêng mình. Ví dụ : dữ liệu người mua hoàn toàn có thể được trình diễn và tàng trữ trong những ứng dụng khác nhau với định dạng và mức độ hoàn hảo khác nhau. Không có gì lạ khi thấy rằng một mạng lưới hệ thống tàng trữ thông tin địa chỉ của một người mua đơn cử, trong khi mạng lưới hệ thống kia chỉ tàng trữ ID của họ vì bất kể nguyên do gì .

Ảnh của Helloquence trên Unsplash
Do đó, việc làm giàu thông tin có thể được thực hiện bằng cách kết hợp nguồn dữ liệu này với nguồn dữ liệu khác. Ngoài ra, chúng ta có thể làm phong phú dữ liệu bằng thông tin từ chính dữ liệu đó, nếu dữ liệu được chứng minh là có một số thông minh được nhúng bên trong chúng. Bây giờ chúng ta hãy đi sâu vào ví dụ đơn giản để hiểu rõ hơn.
Bạn đang đọc: Hiểu làm giàu dữ liệu với ví dụ đơn giản
Giả sử rằng bạn có một bản ghi dữ liệu người mua mà bạn cần phải làm giàu thêm vì đó sẽ là dữ liệu vàng của bạn. Thông tin được trình diễn như sau :
Dữ liệu ban đầu
Dữ liệu khởi đầu chỉ gồm có Tên và ID. Có thể mê hoặc khi xem xét những nguồn dữ liệu khác và xem liệu tất cả chúng ta hoàn toàn có thể tìm thấy những thuộc tính bổ trợ để triển khai xong dữ liệu vàng của mình hay không. Nhưng hãy giữ bản thân, không nhìn xa hơn và thứ nhất hãy kiểm tra xem dữ liệu hiện có của bạn có được nhúng một số ít thông tin hay không .
Số ID ở một số ít vương quốc có một số ít dữ liệu được tàng trữ trong đó mà chúng tôi hoàn toàn có thể trích xuất để lấy thông tin. Trong ngữ cảnh đơn thuần này của chúng tôi, nếu chúng tôi nhìn vào số ID giả của mình, chúng tôi hoàn toàn có thể thấy có thông tin bên trong nó như sau …
Số giả, chỉ mục đích kịch bản
Thì đấy ! Không tương quan đến dữ liệu bên ngoài, chúng tôi hoàn toàn có thể suy ra DoB của người mua này chỉ từ ID của cô ấy …
Hãy thận trọng mặc dầu không phải toàn bộ những loại số nhận dạng đều được nhúng mưu trí. Trên thực tiễn, lúc bấy giờ đang là khuynh hướng ngày càng tăng ( và sẽ sớm trở thành giải pháp hay nhất ) để tạo ra số nhận dạng ngẫu nhiên không có thông tin được tàng trữ để ngăn ngừa gian lận và lạm dụng dữ liệu. Công việc của bạn giờ đây là kiểm tra ID vương quốc hoặc bất kể loại mã số nhận dạng nào mà bạn sử dụng để xác lập người mua của mình và xác lập xem liệu hoàn toàn có thể trích xuất bất kể thông tin nào để làm giàu dữ liệu của bạn hay không .
Với yếu tố DoB đã được xử lý, giờ đây tất cả chúng ta còn lại hai cột nữa cần được bổ trợ. Vì chúng tôi đã trích xuất tổng thể thông tin có sẵn từ dữ liệu hiện có, nên giờ đây đã đến lúc xem xét từ những nguồn dữ liệu khác .
Giả sử giờ đây tất cả chúng ta có một nguồn dữ liệu khác từ Hệ thống A phân phối thông tin như sau
Dữ liệu từ Hệ thống A
Mọi thứ có vẻ ổn ngoại trừ một lập luận được đưa ra liệu ‘ MJ Carter ‘ này có giống với ‘ Margaret Johnson Carter ‘ của chúng ta hay không.
Trước khi có thời hạn không thay đổi, một nguồn dữ liệu khác bật lên từ Hệ thống B, được màn biểu diễn như sau
Dữ liệu từ Hệ thống B
Tên trông giống nhau và ID trông cực kỳ giống nhau … ngoại trừ chữ số sau cuối …
Mặc dù giờ đây bạn đã có toàn bộ thông tin thiết yếu để triển khai xong bảng dữ liệu vàng của mình, nhưng bạn vẫn sẽ phải đau đầu để xác lập xem liệu những ‘ MJ Carter ‘ và ‘ Ms. Margaret ‘ đại diện thay mặt cho cùng một thực thể với ‘ Margaret Johnson Carter ‘. Tôi muốn nhấn mạnh vấn đề rằng yếu tố đau đầu này không phải là điều không bình thường ở bất kể tổ chức triển khai nào, do tại thông tin rất phân mảnh trong những mạng lưới hệ thống khác nhau và mọi mạng lưới hệ thống hoàn toàn có thể thuộc chiếm hữu của những bộ phận khác nhau. Cũng có năng lực xảy ra lỗi chính tả và lỗi của con người khác khiến yếu tố trở nên tồi tệ hơn. Và đây là nơi những công cụ Quản lý Dữ liệu Chính có ích ( xem vị trí trước của tôi về MDM )
Về cơ bản, bạn cần triển khai ‘ đối sánh tương quan ‘ trên toàn bộ những dữ liệu này để xác lập xem chúng có đại diện thay mặt cho cùng một thực thể hay không. Khi thực thi đối sánh tương quan, bạn so sánh toàn bộ những thuộc tính dữ liệu dựa trên sự tương đương của chúng và chỉ định điểm số sau cuối để xác lập xem dữ liệu có giống nhau hay không. Điểm càng cao thì bạn càng tin cậy rằng dữ liệu đang đại diện thay mặt cho cùng một thực thể. Để làm điều này, bạn hoàn toàn có thể sử dụng những công cụ đối sánh tương quan dữ liệu hoặc uốn dẻo cơ và thực thi 1 số ít xác định thủ công bằng tay .
Để hoàn thành xong ngữ cảnh của chúng tôi, hãy giả sử rằng sau khi thực thi 1 số ít xác định thủ công bằng tay, giờ đây chúng tôi đã đủ tự tin để nói rằng 3 tên đó là cùng một người. Và giờ đây …
Chúng tôi đã triển khai xong nỗ lực làm giàu dữ liệu của mình 🙂
Từ tình huống rất đơn giản ở trên, tôi hy vọng bạn nắm bắt được khái niệm về nỗ lực làm giàu dữ liệu và nhận được một số cảm hứng về những gì bạn có thể làm với dữ liệu của mình. Luôn nhớ rằng bạn không bắt buộc phải làm tất cả những việc này theo cách thủ công vì các công cụ MDM hiện đại được trang bị khả năng làm giàu dữ liệu. Một số có thể đủ phức tạp để nó có thể kết nối với các nguồn dữ liệu bên ngoài tổ chức của bạn để truy xuất thông tin mà thông thường sẽ không có sẵn trong các tổ chức nội bộ.
Luôn nhớ rằng dữ liệu đã được bổ trợ chứa nhiều thông tin can đảm và mạnh mẽ hơn và do đó rủi ro tiềm ẩn bị lạm dụng cao hơn. Bảo mật dữ liệu phải luôn được chúng tôi chăm sóc số 1 .
Cho đến lần sau !
Source: https://laodongdongnai.vn
Category: Việc Làm






