Tuyên bố của ASA về ý nghĩa thống kê và trị số P | Viện Nghiên Cứu Sociallife

1. Giới thiệu

Việc gia tăng định lượng trong nghiên cứu khoa học và phát triển các tập hợp dữ liệu lớn, phức tạp trong những năm gần đây đã mở rộng phạm vi ứng dụng của các phương pháp thống kê. Điều này đã tạo ra những hướng đi mới cho tiến bộ khoa học, nhưng nó cũng mang lại những lo ngại về kết luận rút ra từ dữ liệu nghiên cứu. Giá trị (validity) của kết luận khoa học, bao gồm cả khả năng tái lặp (reproducibility) của chúng, không chỉ phụ thuộc vào phương pháp thống kê mà còn nhiều điều khác. Các kỹ thuật phù hợp được lựa chọn nhằm phân tích quá trình thực hiện và giải thích chính xác kết quả thống kê cũng đóng một vai trò quan trọng trong việc đảm bảo rằng kết luận là có cơ sở và cũng đảm bảo độ không chắc chắn xung quanh chúng được trình bày một cách đúng đắn.

Khái niệm “có ý nghĩa thống kê” là cơ sở cho nhiều kết luận khoa học được công bố, khái niệm này thường được đánh giá bằng một chỉ số được gọi là trị số p. Trong khi trị số p có thể là một phương pháp thống kê hữu ích, nó thường bị sử dụng sai và bị hiểu sai. Điều này đã dẫn đến việc một số tạp chí khoa học không tán thành việc sử dụng trị số p, và một số nhà khoa học và nhà thống kê đề nghị việc từ bỏ nó, với vài lập luận rằng không có cải tiến cơ bản nào kể từ khi trị số p được đưa ra lần đầu tiên.

Trong văn bản này, Hiệp hội Thống kê Hoa Kỳ (American Statistical Association, ASA) tin rằng cộng đồng khoa học có thể được hưởng lợi từ một tuyên bố chính thức để làm sáng tỏ những nguyên tắc cơ bản được đồng thuận rộng rãi trong việc sử dụng và giải thích một cách phù hợp về trị số p. Các vấn đề được đưa ra ở đây không chỉ ảnh hưởng đến nghiên cứu, mà còn ảnh hưởng đến kinh phí nghiên cứu, thực hành viết lách, phát triển nghề nghiệp, giáo dục khoa học, chính sách công, báo chí, và pháp luật. Tuyên bố này không tìm cách giải quyết tất cả các vấn đề liên quan đến việc thực hành thống kê cũng như những tranh luận nền tảng. Thay vào đó, tuyên bố nêu rõ bằng những từ ngữ phi kĩ thuật về một vài nguyên tắc lựa chọn mà có thể cải thiện việc thực hiện hoặc diễn giải trong khoa học định lượng, theo sự đồng thuận rộng rãi của cộng đồng thống kê.

2. Trị số p là gì?

Theo định nghĩa không chính thức, trị số p (p-value) là xác suất theo một mô hình thống kê xác định mà một dữ liệu thống kê tóm lược (ví dụ, sự khác biệt có ý nghĩa của mẫu giữa hai nhóm được so sánh) sẽ bằng hoặc cực đoan (extreme) hơn so với giá trị được đối chiếu của nó.

3. Các nguyên tắc

3.1. Trị số p có thể cho biết dữ kiện không phù hợp với một mô hình thống kê như thế nào.

Trị số p cung cấp một cách tiếp cận tổng hợp về sự không tương thích giữa một tập hợp các dữ liệu cụ thể và một mô hình đề xuất cho các dữ liệu. Hình thức phổ biến nhất là một mô hình, được xây dựng theo một tập hợp các giả định, cùng với cái gọi là “giả thuyết không” (null hypothesis). Thường thì “giả thuyết không” mặc nhiên thừa nhận sự vắng mặt của một ảnh hưởng, chẳng hạn như không có sự khác biệt giữa hai nhóm, hoặc sự vắng mặt của mối quan hệ giữa các yếu tố và kết quả. Trị số p càng nhỏ thì sự không tương thích về mặt thống kê của các dữ liệu với các giả thuyết không càng lớn, nếu các giả định cơ bản được sử dụng để tính toán trị số p là đúng đắn. Sự không tương thích này có thể được hiểu như là phép kiểm định hoặc cung cấp bằng chứng chống lại “giả thuyết không” hoặc các giả định cơ sở.

3.2. Trị số p không đo lường xác suất mà nhờ đó giả thuyết nghiên cứu là đúng, hay đo lường xác suất mà nhờ đó dữ kiện có được hoàn toàn là do xác suất ngẫu nhiên riêng lẻ.

Các nhà nghiên cứu thường muốn đưa trị số p vào tuyên bố về tính đúng đắn của một giả thuyết không, hoặc về xác suất mà từ đó một cơ hội ngẫu nhiên tạo ra các dữ liệu quan sát được. Trị số pkhông phải là như vậy. Đó là một tuyên bố về dữ liệu trong sự tương quan với quá trình diễn giải giả thuyết xác định, mà không phải là một tuyên bố về sự diễn giải chính nó [giả thuyết].

3.3. Các kết luận khoa học và quyết sách kinh tế hoặc chính sách không nên chỉ dựa vào việc liệu trị số p có vượt qua một ngưỡng cụ thể hay không.

Những thực hành giảm bớt việc phân tích dữ liệu hoặc suy luận khoa học với các quy tắc “làm sáng tỏ” (bright-line rules) một cách máy móc (chẳng hạn như “p < 0,05”) để biện minh cho các tuyên bố hoặc kết luận khoa học có thể dẫn đến niềm tin sai lầm và việc đưa ra quyết định vô giá trị. Một kết luận không ngay lập tức trở thành “đúng” trên mặt này và “sai” trên mặt khác. Các nhà nghiên cứu nên đưa nhiều yếu tố bối cảnh (contextual factor) vào nghiên cứu để truy tìm những kết luận khoa học, bao gồm thiết kế nghiên cứu, chất lượng của các thang đo, các bằng chứng bên ngoài cho các hiện tượng được nghiên cứu và tính hợp lệ của các giả định làm cơ sở cho việc phân tích dữ liệu. Những xem xét thực tế thường đòi hỏi những quyết định “yes-no” có tính nhị phân, nhưng điều này không có nghĩa là trị số p riêng lẻ có thể đảm bảo rằng một quyết định là đúng hay sai. Việc sử dụng rộng rãi “ý nghĩa thống kê” (thường được hiểu là “p ≤ 0,05”) như một chứng thực để làm tuyên bố cho một phát hiện khoa học (hay sự đúng đắn được ngầm hiểu) làm biến dạng đáng kể tiến trình khoa học.

3.4. Suy luận hợp lý đòi hỏi báo cáo phải đầy đủ và rõ ràng.

Trị số p và những phân tích liên quan không nên được báo cáo theo hướng được chọn lọc. Tiến hành nhiều phân tích các dữ liệu và báo cáo chỉ với duy nhất trị số p (thường là vượt qua một ngưỡng quan trọng) ám chỉ rằng trị số p được báo cáo về cơ bản không thể diễn giải. Những kết quả đầy hứa hẹn do “lỗi suy luận” (cherry-picking), còn được gọi bằng thuật ngữ như vét dữ liệu (data dreging), đuổi bắt ý nghĩa (significance chasing), truy vấn ý nghĩa (significance questing), suy luận có chọn lọc (selective inference) và “p-hacking” [tất cả các thuật ngữ này ám chỉ việc tìm mọi cách để đạt được p < 0.05], dẫn đến một sự dư thừa giả tạo các kết quả có ý nghĩa về mặt thống kê trong các tài liệu được công bố và nên được loại bỏ một cách mạnh mẽ. Một nhu cầu không chính thức khi tiến hành nhiều kiểm định thống kê đã phát sinh một vấn đề: Bất cứ khi nào một nhà nghiên cứu chọn những gì để trình bày dựa trên kết quả thống kê, việc giải thích giá trị của những kết quả là sai lầm nghiêm trọng nếu người đọc không được thông báo về sự lựa chọn và cơ sở của nó. Các nhà nghiên cứu nên tiết lộ số lượng giả thuyết khám phá trong quá trình nghiên cứu, tất cả các quyết định thu thập dữ liệu, tất cả các phân tích thống kê được thực hiện và tất cả các trị số p được tính toán. Các kết luận khoa học có giá trị dựa trên trị số p và thống kê liên quan không thể được rút ra mà không biết có ít nhất bao nhiêu phân tích đã được tiến hành, và bằng phương thức nào những phân tích đó (bao gồm cả trị số p) đã được lựa chọn để báo cáo.

3.5. Trị số p hay ý nghĩa thống kê không đo lường tầm quan trọng của kết quả.

Ý nghĩa thống kê không tương đương với ý nghĩa về mặt khoa học, con người, hoặc kinh tế. Trị số p nhỏ hơn không nhất thiết phải bao hàm sự hiện diện của các ảnh hưởng lớn hơn hoặc quan trọng hơn, và trị số p lớn hơn không ám chỉ thiếu tầm quan trọng hoặc thậm chí không có ảnh hưởng. Bất kỳ ảnh hưởng dù nhỏ thế nào, có thể tạo ra một trị số p nhỏ nếu kích thước mẫu hoặc độ chính xác của thang đo là đủ cao, và các ảnh hưởng lớn có thể tạo ra trị số p không mấy ấn tượng nếu kích thước mẫu nhỏ hoặc các thang đo là không chính xác. Tương tự như vậy, những tác động ước lượng giống hệt nhau sẽ có trị số p khác nhau nếu độ chính xác của các ước lượng là khác nhau.

3.6. Bản thân trị số p không đưa ra một đo lường tốt về bằng chứng đối với một mô hình hoặc một giả thuyết.

Các nhà nghiên cứu nên nhận thấy rằng trị số p không kèm bối cảnh hoặc các bằng chứng khác thì cung cấp thông tin hạn chế. Ví dụ, một trị số p gần bằng 0,05 đơn giản chỉ cung cấp một bằng chứng yếu trong việc bác bỏ giả thuyết không. Tương tự như vậy, một trị số p tương đối lớn không hàm ý về bằng chứng ủng hộ giả thuyết không; do đó nhiều giả thuyết khác có thể tương đương hoặc phù hợp hơn với các dữ liệu quan sát. Với những lý do này, phân tích dữ liệu không nên chỉ kết thúc với việc tính toán trị số p khi những cách tiếp cận khác là phù hợp và khả thi.

4. Các phương pháp tiếp cận khác

Từ góc nhìn về sự lạm dụng thường xuyên và quan niệm sai lầm về trị số p, một số nhà thống kê có xu hướng bổ sung hoặc thậm chí thay thế trị số p bằng các cách tiếp cận khác. Chúng bao gồm các phương pháp chú trọng việc ước lượng thông qua thử nghiệm, chẳng hạn như khoảng tin cậy [confidence interval và credibility interval đều là “khoảng tin cậy” nhưng thuộc 2 trường phái thống kê khác nhau] hoặc khoảng dự báo (prediction interval); phương pháp Bayes; các phép đo chứng cứ có thể thay thế, chẳng hạn như tỷ số khả dĩ (likelihood ratio) hoặc các yếu tố Bayes; và các phương pháp khác như mô hình ra quyết định lý thuyết (decision-theoretic modeling) và tỷ lệ phát hiện sai (false discovery rate). Tất cả những phép đo và cách tiếp cận này dựa trên nhiều giả định hơn, nhưng chúng có thể tiếp cận trực tiếp hơn trong việc xác định kích thước của một ảnh hưởng (và sự không chắc chắn liên quan của nó) cho dù giả thuyết là đúng.

5. Kết luận

Thực hành thống kê tốt, là một phần tất yếu của thực hành khoa học tốt, nhấn mạnh đến: nguyên tắc của quá trình thiết kế và thực hiện nghiên cứu tốt, một loạt các tóm lược các dữ liệu dạng số và đồ họa, sự hiểu biết về các hiện tượng được nghiên cứu, việc giải thích kết quả đặt trong bối cảnh, tường trình đầy đủ, hợp logic và hiểu biết định lượng của những điều mà tóm lược dữ liệu là có ý nghĩa. Không nên có một chỉ số duy nhất nào thay thế cho lý luận khoa học.

Lời cảm ơn

Ban Điều hành ASA cảm ơn những người sau đây vì việc chia sẻ kinh nghiệm và quan điểm của mình trong sự phát triển bản tuyên bố. Tuyên bố không nhất thiết phản ánh quan điểm của tất cả những người này, và trong thực tế có một số quan điểm là đối lập với tất cả hoặc một phần của tuyên bố. Tuy nhiên, chúng tôi tri ân sâu sắc đối với những đóng góp của họ. Naomi Altman, Jim Berger, Yoav Benjamini, Don Berry, Brad Carlin, John Carlin, George Cobb, Marie Davidian, Steve Fienberg, Andrew Gelman, Steve Goodman, Sander Greenland, Guido Imbens, John Ioannidis, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Chuck McCulloch, Michele Millar, Sally Morton, Regina Nuzzo, Hilary Parker, Kenneth Rothman, Don Rubin, Stephen Senn, Uri Simonsohn, Dalene Stangl, Philip Stark, Steve Ziliak.

Dịch giả: Nguyễn Vương Tuấn (dịch), Đào Thị Hồng Hạnh (dịch và hiệu đính)

Nguồn: https://amstat.tandfonline.com/doi/pdf/10.1080/00031305.2016.1154108