Tính toán cỡ mẫu trong nghiên cứu đối chứng ngẫu nhiên
Ngày 22/1/2015 - Cách tính toán cỡ mẫu trong nghiên cứu đối chứng ngẫu nhiên (Randomized Controlled Trials_RCT) nhằm mục đích nhấn mạnh các vấn đề thống kê để ước tính yêu cầu cỡ mẫu, đề cập chi tiết về lý thuyết và các bước tính toán cỡ mẫu trong thử nghiệm đối chứng ngẫu nhiên. Bài viết này cũng nhấn mạnh rằng trước hết các nhà nghiên cứu nên cân nhắc kỹ thiết kế nghiên cứu, sau đó lựa chọn phương pháp tính cỡ mẫu thích hợp. Tính hiệu quả, đạo đức nghiên cứu, tiết kiệm chi phí, khoảng thời gian thực hiện và tính toán cỡ mẫu là những điều cần ghi nhớ để thiết kế các thử nghiệm lâm sàng. Thử nghiệm đối chứng ngẫu nhiên (RCT) được coi là tiêu chuẩn vàng để đánh giá các can thiệp hoặc chăm sóc sức khỏe. So với nghiên cứu quan sát, việc lấy mẫu ngẫu nhiên là phương pháp hiệu quả để cân bằng các yếu tố gây nhiễu giữa các nhóm điều trị và nó có thể loại bỏ ảnh hưởng của các biến gây nhiễu. Khi các nhà nghiên cứu muốn thiết kế thử nghiệm lâm sàng, điều cần cân nhắc chính yếu là phải biết có bao nhiêu đối tượng tham gia có thể đưa vào mẫu nghiên cứu để đạt được các kết quả có ý nghĩa cho nghiên cứu đó. Ngay cả các nghiên cứu được thực hiên một cách tỷ mỷ nhất cũng có thể thất bại để trả lời câu hỏi nghiên cứu nếu cỡ mẫu của nghiên cứu đó là quá nhỏ. Mặt khác, một nghiên cứu với cỡ mẫu lớn sẽ khó thực hiện và gây lãng phí. Mục tiêu của việc ước tính cỡ mẫu là tính toán một số lượng đối tượng nghiên cứu thích hợp cho một thiết kế nghiên cứu nào đó [1]. Bốn khái niệm thống kê về tính toán cỡ mẫu trong thiết kế thử nghiệm RCT[2] Giả thiết không và các giả thiết thay thế (The null hypothesis and alternative hypothesis) Trong kiểm định giả thiết thống kê, giả thiết không đặt ra ở mức kiểm định ý nghĩa nào đó và nó thường đi cùng với một giả thiết thay thế. Giả thiết không được đặt ra với mục đích sẽ bị bác bỏ, do vậy nếu chúng ta muốn so sánh hai can thiệp, thì giả thiết không sẽ là “không có sự khác biệt” ngược lại, giả thiết thay thế là “có sự khác biệt”. Tuy nhiên, không có khả năng bác bỏ giả thiết không không có nghĩa là ‘điều đó là sự thực’, mà nó chỉ có nghĩa rằng chúng ta không có đủ bằng chứng để bác bỏ giả thiết không. Sai số loại I (α/ type I error) Theo thuật ngữ thống kê cổ điển, sai số loại I thường liên quan đến giả thiết không. Theo quan điểm lý thuyết xác suất, không tồn tại cái gọi là “kết quả của tôi là đúng”, mà chỉ tồn tại bao nhiêu sai số tôi đã phạm phải. Xác suất phạm phải sai số loại I (bác bỏ giả thiết không khi điều đó là sự thật) được gọi là alpha (α). Ví dụ, chúng ta tiên định mức ý nghĩa thống kê α=0.05, một giá trị p=0.03 được phát hiện trong test kiểm định hai phía. Hai khả năng đối với sự khác biệt ý nghĩa này có thể tồn tại đồng thời (giả định rằng tất cả các sai số khác đã được kiểm soát). Lý do thứ nhất đó là sự khác biệt có thực đang tồn tại giữa hai can thiệp; và lý do thứ hai đó là sự khác biệt này là do tình cờ hay ngẫu nhiên, nhưng chỉ có 3% cơ hội để sự khác biệt này xảy ra tình cờ hay ngẫu nhiên. Do vậy, nếu giá trị p càng tiếp cận với giá trị ‘0’ thì cơ hội của sự khác biệt xảy ra do tình cờ hay ngẫu nhiên là rất thấp. Ngược lại, test kiểm định hai phía thường được thực hiện để so sánh với test kiểm định một phía đòi hỏi cỡ mẫu nhỏ hơn. Sai số loại I thường đặt là 0.05 cho kiểm định hai phía, không phải cho tất cả các nghiên cứu, nhưng đối với một số nghiên thì điều này là ngoại lệ. Sai số loại II(β/ type II error) Như đã trình bày, giả thiết không liên quan đến sai số loại I, giả thiết thay thế liên quan đến sai số loại II khi chúng ta không có khả năng bác bỏ giả thiết không. Điều này thường suy ra từ lực mẫu nghiên cứu (power = 1-β): Xác suất bác bỏ giả thiết không khi nó thất bại. Thông thường, lực mẫu nghiên cứu thường được chấp nhận với giá trị 80%, nếu lực mẫu nghiên cứu cao hơn sẽ cần nhiều mẫu nghiên cứu hơn. Bốn dạng so sánh trong thử nghiệm đối chứng ngẫu nhiên RCT [3] [4] Thiết kế thử nghiệm đối chứng ngẫu nhiên song song thường được sử dụng nhiều nhất, nghĩa là tất cả đối tượng tham gia nghiên cứu được lựa chọn ngẫu nhiên đưa vào hai hay nhiều nhóm can thiệp khác nhau để được cùng điều trị song song. Thử nghiệm vượt trội hơn (Superiority trials) Thử nghiệm vượt trội nhằm chứng minh rằng phương pháp điều trị mới hiệu quả hơn phương pháp điều trị tiêu chuẩn theo quan điểm thống kê hoặc theo quan điểm lâm sàng, giả thiết không tương ứng là: phương pháp điều trị mới không hiệu quả hơn nhóm đối chứng về lâm sàng/ thống kê học. Căn cứ vào đặc tính tự nhiên vốn có, thiết kế vượt trội hơn bao gồm thử nghiệm vượt trội hơn về thống kê và thử nghiệm vượt trội hơn về lâm sàng. Thử nghiệm tương đương (Equivalence trials) Mục tiêu nghiên cứu này là xác định phương pháp điều trị mới và phương pháp điều trị tiêu chuẩn có hiệu quả tương đương nhau. Giả thiết không: cả hai phương pháp điều trị khác nhau về mặt lâm sàng. Thử nghiệm không thấp kém hơn (Non-inferiority trials) Thử nghiệm không thấp kém hơn được thực hiện để chứng minh phương pháp điều trị mới là hiệu quả nhưng không cần thiết phải vượt trội hơn khi so sánh với phương pháp điều trị tiêu chuẩn. Giả thiết không tương ứng: phương pháp điều trị mới không hiệu quả hơn so với nhóm chứng về mặt lâm sàng. Test kiểm định một phía Test kiểm định một phía được thực hiện đối với các thử nghiệm vượt trội hơn và không thấp kém hơn. Test kiểm định hai phía được sử dụng trong thử nghiệm tương đương. Test kiểm định của các thiết kế nghiên cứu khác nhau được tóm tắt theo bảng dưới đây:
Thiết kế nghiên cứu | Giả thiết không | Giả thiết thay thế | Test thống kê | Không thấp kém hơn | H0:T-S=-δ | Ha: T-S>-δ | Z=(d+δ)/sd | Tương đương | H10:T-S=-δ | H1a: T-S>-δ | Z1=(d+δ)/sd | | H20:T-S=δ | H2a: T-S<δ | Z2=(δ-d)/sd | Vượt trội hơn về mặt thống kê | H0:T-S=0 | Ha: T-S>0 | Z=d/sd | Vượt trội hơn về mặt lâm sàng | H0:T-S=δ | Ha: T-S>δ | Z=(d-δ)/sd |
|
T: phương pháp điều trị mới S: Phương pháp điều trị tiêu chuẩn δ: độ lệch chuẩn chấp nhận về mặt lâm sàng của các dạng thử nghiệm (clinically admissible margin of non-inferiority/equivalence/superiority); d: Sự khác biệt có hiệu quả giữa phương pháp điều trị mới và phương pháp điều trị tiêu chuẩn sd: Sai số chuẩn của d Z: Z tuân theo phân bố chuẩn Công thức tính toán cỡ mẫu [5] [6] Giả định một thử nghiệm đối chứng ngẫu nhiên có hai nhóm so sánh và cả hai nhóm đều có cùng cỡ mẫu. Việc tính toán cỡ mẫu phụ thuộc vào kết quả đo lường của biến chính. Định nghĩa các thông số N: cỡ mẫu mỗi nhóm P: tỷ lệ đáp ứng đối với nhóm điều trị tiêu chuẩn p0: tỷ lệ đáp ứng đối với nhóm điều trị với thuốc mới zx: Độ lệch phân phối chuẩn đối với test một phía hoặc hai phía đối với x d: sự khác biệt thực tế giữa hiệu quả điều trị của hai nhóm δ0: Mức lệch chuẩn chấp nhận về mặt lâm sàng S2: Độ lệch chuẩn chung của hai nhóm so sánh Khi kết quả là biến nhị phân (Dichotomous variable) Công thức đối với nhóm thử nghiệm không thấp kém hơn (non-inferiority)
Công thức với thử nghiệm tương đương (equivalence)
Công thức với thử nghiệm vượt trội hơn về mặt thống kê (statistical superiority)
Công thức với thử nghiệm vượt trội hơn về mặt lâm sàng (clinical superiority)
Khi kết quả là biến liên tục (Continuous variable) Công thức đối với nhóm thử nghiệm không thấp kém hơn (non-inferiority)
Công thức với thử nghiệm tương đương (equivalence)
Công thức với thử nghiệm vượt trội hơn về mặt thống kê (statistical superiority)
Công thức với thử nghiệm vượt trội hơn về mặt lâm sàng (clinical superiority)
Ví dụ 1: Tính toán cỡ mẫu khi kết quả là biến nhị phân Câu hỏi nghiên cứu: Có hay không sự khác biệt về hiệu quả của hai thuốc mirtazapine (thuốc mới) và sertraline (thuốc tiêu chuẩn) trong điều trị chứng trầm cảm kéo dài trong phác đồ điều trị 6 tuần. Các thông số cần biết như sau: p =0.40; p0=0.58; α=0.05; β=0.20; δ=0.18; δ0=0.10. Khi đó:
Ví dụ 2: tính toán cỡ mẫu khi kết quả nghiên cứu là biến liên tục Câu hỏi nghiên cứu: Có hay không một sự khác biệt về hiệu quả của ACE II antagonist (thuốc mới) và ACE inhibitor (thuốc tiêu chuẩn) trong việc điều trị cao huyết áp. Sự thay đổi huyết áp tâm thu khi ngồi (SDBP, mmHg) là đơn vị đo lường kết quả chính so với các số liệu cơ bản đã có. Giả dụ giá trị của các tông số như sau: Giá trị thay đổi trung bình của SDBP trong nhóm mới là 18 mm Hg; Giá trị thay đổi trung bình của SDBPtrong nhóm tiêu chuẩn là 14 mm Hg; α=0.05; β=0.20; δ=4 mmHg; δ0=3 mm Hg; s=8mm Hg. Khi đó:
Bàn luận Trong thực tế, các bước để tính toán cỡ mẫu không quan trọng bằng các bước cần thiết phải thực hiện khi thiết kế một thử nghiệm đối chứng ngẫu nhiên. Trước hết, người nghiên cứu phải xác định cụ thể giả thiết không và giả thiết thay thế cùng với việc xác định sai số loại I (α) và lực mẫu nghiên cứu (1-β). Thứ hai, người nghiên cứu có thể thu thập các thông số liên quan đáng quan tâm và đôi khi cần phải thực hiện một thử nghiệm thí điểm. Thứ ba, cỡ mẫu có thể ước tính dựa trên cơ sở các thông số hợp lý. Trong thực tế điều quan trọng nhất mà độc giả cần biết là sự chọn lựa giả thiết không và giả thiết thay thế; và các giả thiết này có thể điều chỉnh tùy vào mục tiêu nghiên cứu. Một số độc giả có thể gặp phải một số khó khăn trong việc xác định thiết kế nào là không thấp kém hơn/tương đương/ vượt trội hơn. Thông số này có ý nghĩa về mặt lâm sàng nên phải được xác định một cách cẩn trọng và phải được dựa trên các bằng chứng hợp lý. Đôi khi nếu chỉ số δ là quá lớn, một số thuốc không hiệu quả sẽ xuất hiện trên thị trường bởi vì các thuốc này có thể bị ‘phán xét’ là không thấp kém hơn hoặc tương đương. Ngược lại, nếu δ quá nhỏ thì một số hữu dụng của thuốc có thể bị lãng quên. Tóm lại việc chọn δ phải dựa vào các cuộc thảo luận thẳng thắn của các chuyên gia về lâm sàng và các nhà thống kê học, không chỉ dựa vào khuyến cáo của các nhà thống kê. Điều quan trọng khác cần nhớ là khi đã xác định được giá trị δ, giá trị này không thể thay đổi trong thời gian thực hiện nghiên cứu [7] Kết luận Bài viết này giới thiệu đơn giản về các nguyên tắc và phương pháp tính toán cỡ mẫu. Nhà nghiên cứu có thể tính toán cỡ mẫu dựa vào dạng thiết kế nghiên cứu và các phép đo kết quả được đề cập trên đây. Bài viết này cũng cung cấp một số kiến thức về các thông tin cần thiết khi tham khảo ý kiến tư vấn của nhà thống kê đối với việc xác định cỡ mẫu. Nếu một người nào đó quan tâm đến các thiết kế thử nghiệm không thấp kém hơn/tương đương/vượt trội hơn, thì việc hỏi kiến tư vấn của nhà thống kê là cần thiết và nên làm Tài liệu tham khảo 1. Hulley SB. Philadelphia: Wolters Kluwer Health; Designing Clinical Research: An Epidemiologic Approach (3rd ed.) p. 2007. 2. Wittes J. Sample size calculations for randomized controlled trials. Epidemiol Rev. 2002;24:39–53. [PubMed] 3. Lesaffre E. Superiority, equivalence, and non-inferiority trials. Bull NYU Hosp Jt Dis. 2008;66:150–4. [PubMed] 4. ICH Harmonised Tripartite Guideline Statistical principles for clinical trials. Available from: http://www.ich.org/pdfICH/e9.pdf,1998. 5. Hwang IK, Morikawa T. Design issues in noninferiority/equivalence trials. Drug Information J. 1999; 33:1205–18. 6. Li LM, Ye DQ, Zhan SY. Epidemiology (6th ed) Beijing: People's medical publishing house, 2007. 7. Liu YX, Yao C, Chen F, Chen QG, Su BH, Sun RY. Statistical Methods in Clinical Noninferiority/Equivalence Evaluation. Chin J Clin Pharmacol Ther. 2000; 5:344–9.
|