GS Vũ Hà Văn: ‘Xác suất thống kê là nền tảng của khoa học dữ liệu’
GS Vũ Hà Văn, Giám đốc khoa học Viện Nghiên cứu dữ liệu lớn (VinBDI), là một trong 35 nhà khoa học được bầu chọn trở thành hội viên danh dự của Hiệp hội Toán thống kê năm 2020.
IMS được thành lập tại Mỹ năm 1935. Hàng năm, hội vinh danh hội viên danh dự là những cá nhân có thành tích xuất sắc trong nghiên cứu, hoặc có ảnh hưởng tích cực đối với sự phát triển và lan tỏa những giá trị của thống kê.
Sau khi được bầu chọn trở thành hội viên danh dự của Hiệp hội Toán thống kê (IMS) năm 2020, GS Vũ Hà Văn có những chia sẻ về lĩnh vực ông đã nghiên cứu nhiều năm nay.
– Việc ông được bầu chọn làm hội viên danh dự của IMS có ý nghĩa lớn đối với cộng đồng khoa học của Việt Nam, đặc biệt là khi vai trò của thống kê và xác suất trở nên quan trọng với các ứng dụng về dữ liệu lớn, trí tuệ nhân tạo (AI)… Ông có thể chia sẻ thêm về điều này?
– Đối với tôi, đây là một niềm vui lớn kèm cả sự bất ngờ. Theo lý lịch khoa học, tôi không phải là người được đào tạo bài bản về xác suất thống kê. Đề tài tiến sĩ của tôi nằm trong lĩnh vực toán tổ hợp. Sau khi tốt nghiệp, tôi tập trung nghiên cứu về lý thuyết đồ thị và số học tổ hợp, rồi mới chuyển sang nghiên cứu một số đề tài cơ bản trong xác suất thống kê.
Toán học hiện đại rất chuyên sâu. Các nhà nghiên cứu ở chuyên ngành khác nhau như đại số, số học hay hình học không hiểu công trình của nhau là chuyện bình thường. Vì vậy, việc được công nhận ở một lĩnh vực mới đem lại cho tôi niềm vui bất ngờ và một chút tự tin. Tôi không còn trẻ nữa nên bắt đầu cái gì mới cũng gian nan.
GS Vũ Hà Văn – Giám đốc khoa học Viện Nghiên cứu dữ liệu lớn (VinBDI).
– Cơ duyên nào khiến ông tìm đến bộ môn xác suất thống kê?
– Xác suất thống kê hấp dẫn tôi không chỉ bởi vẻ đẹp toán học, mà vì ý nghĩa thực sự của nó trong cuộc sống. Xác suất thống kê là nền tảng của khoa học dữ liệu và có lẽ sẽ là một trong những môn học quan trọng nhất trong tương lai.
Chúng ta thường xuyên hỏi “Học toán để làm gì?”. Trong các chuyên ngành toán học, xác suất thống kê dạy cho ta cách tư duy đúng đắn và mạch lạc nhất trên dữ liệu hay hiện tượng quan sát được trong cuộc sống hàng ngày.
– Ông nhận định thế nào về thực trạng nghiên cứu và đào tạo xác suất thống kê hiện nay tại Việt Nam? Xác suất thống kê sẽ có giá trị ứng dụng như thế nào trong tương lai?
– Xác suất thống kê là nền tảng của khoa học dữ liệu. Tuy nhiên, có một thực tế là học sinh Việt Nam học toán tốt nhưng ít người quan tâm đến thống kê. Tư duy thống kê trong nghiên cứu cũng chưa mạnh, cơ sở dữ liệu đáng tin cậy rất thiếu thốn.
Thống kê là một trong những ngành khoa học có ứng dụng nhiều nhất hiện nay, nắm giữ vai trò lớn trong tất cả nghiên cứu định lượng. Các ứng dụng, nhất là trong học máy, đem lại nhiều phát minh mới như các sản phẩm về AI. Thống kê trong nghiên cứu về gen giúp phát hiện những kiến thức mới về di truyền. Thống kê trong y học giúp phát hiện những liên quan bất ngờ giữa bệnh và thuốc. Hay thống kê trong kinh tế phát hiện những quy luật mới về tiêu dùng. Tư duy thống kê là thứ nên trang bị cho toàn xã hội, giúp từng cá nhân có cách đánh giá khoa học về các sự kiện diễn ra quanh mình.
– Là người đứng đầu VinBDI, xin giáo sư cho biết VinBDI sẽ làm gì để Việt Nam và thế giới nhìn nhận đúng vai trò của xác suất thống kê?
– Tôi cùng đồng nghiệp tại VinBDI đang hợp tác với các đơn vị đào tạo Việt Nam như Đại học Bách khoa Hà Nội hay Viện Toán học. Chúng tôi mong muốn phát triển chương trình đào tạo sau đại học cho các ngành liên quan đến lĩnh vực khoa học dữ liệu. Chương trình được tài trợ bởi Quỹ Đổi mới sáng tạo VinIF trực thuộc VinBDI. Sinh viên, nghiên cứu sinh được nhận học bổng và có thể tham gia trực tiếp vào môt số đề tài viện đang triển khai.
Bên cạnh đó, chúng tôi thực hiện nhiều dự án xây dựng và ứng dụng các cơ sở dữ liệu lớn với mục đích phục vụ xã hội. Chẳng hạn, dự án ứng dụng AI trong chẩn đoán bệnh qua hình ảnh sắp ra mắt, hướng tới mục tiêu giúp các bác sĩ có thể chẩn đoán bệnh nhanh và chính xác hơn.
Chúng tôi cũng đã xây dựng cơ sở dữ liệu gen của người Việt. Dự án y học, nghiên cứu bệnh thường gặp cũng được xây dựng song song trên cơ sở dữ liệu này. Một số dự án về AI đã bắt đầu hình thành các sản phẩm thông minh, có thể ứng dụng rộng rãi trên điện thoại hay hệ thống tín dụng, ví dụ như sửa lỗi chính tả tự động hay nhận dạng tiếng nói. Chúng tôi muốn thay đổi quan điểm về tư duy đào tạo bộ môn xác suất thống kê tại Việt Nam, đồng thời phát triển các ứng dụng đưa vào cuộc sống.