Viện nghiên cứu Y khoa Garvan, Sydney, Australia
Một cách để xem xét mối liên hệ bất định giữa kết quả xét nghiệm và bệnh trạng là qua biểu đồ 2×2 như sau:
|
Bệnh trạng |
||
Có bệnh |
Không có bệnh |
||
Kết quả xét nghiệm |
+ve |
True positive Dương tính thật |
False positive Dương tính giả |
-ve |
False negative Âm tính giá |
True negative Âm tính thật |
- Bệnh nhân mắc bệnh, và kết quả xét nghiệm là dương tính (dương tính thật hay true positive) – không có vấn đề gì;
- Bệnh nhân mắc bệnh, nhưng kết quả xét nghiệm là âm tính (còn gọi là dương tính giả hay false positive;
- Bệnh nhân không mắc bệnh, và kết quả xét nghiệm là âm tính (âm tính giả hay false negative);
- Bệnh nhân không mắc bệnh, nhưng kết quả xét nghiệm là âm tính (còn gọi là âm tính thật hay true negative;
Tỉ lệ dương tính thật, dương tính giả, âm tính thật, và âm tính giả có thể ước tính qua các nghiên cứu tiên lượng. Cách tính các chỉ số này đã được mô tả trong bài trước, nên chúng ta sẽ không lặp lại ở đây, chỉ xin nhắc lại một vài điểm chính: tỉ lệ dương tính thật được gọi là độ nhạy hay sensititivit; tỉ lệ âm tính thật được gọi là độ đặc hiệu hay specificity. Việc chọn phương pháp có độ nhạy hay độ đặc hiệu cao tùy thuộc vào tình hình thực tế của bệnh và nhất là tùy thuộc vào sự trả giá cho “sai lầm”.
Sử dụng xét nghiệm có độ nhạy cao. Phương pháp có độ nhạy cao cho phép chúng ta loại bỏ khả năng mắc bệnh. Do đó, nên chọn phương pháp xét nghiệm có độ nhạy cao nếu bỏ sót bệnh dẫn đến hệ quả nghiêm trọng cho bệnh nhân. Chẳng hạn như nếu chúng ta có lí do để nghi ngờ rằng một bệnh nguy hiểm (như lao phổi, chứng huyết khối tĩnh mạch sâu [deep vein thrombosis hay DVT], bệnh Hodgkin, v.v…), chúng ta cần phương pháp xét nghiệm có độ nhạy cao, để loại trừ khả năng bệnh nhân mắc bệnh với kết quả âm tính. Trong trường hợp khác, chúng ta nên chọn xét nghiệm có độ nhạy cao như kháng HIV để loại trừ nhiễm trùng liên quan đến AIDS. Nói tóm lại, một phương pháp xét nghiệm có độ nhạy cao rất có ích cho người thầy thuốc khi kết quả xét nghiệm là âm tính.
Sử dụng xét nghiệm có độ đặc hiệu cao. Phương pháp xét nghiệm đặc hiệu cao có nghĩa là nếu đối tượng không có bệnh, phương pháp xét nghiệm ít khi nào cho ra kết quả dương tính. Điều này có nghĩa là các xét nghiệm có độ đặc hiệu cao rất có ích cho việc xác định bệnh trạng. Chẳng hạn như trong trường hợp DVT, xét nghiệm D-dimer không có độ đặc hiệu cao (khoảng 63%); do đó, khó mà quyết định điều trị cho dù kết quà xét nghiệm là dương tính. Tất cả các bệnh nhân có kết quả xét nghiệm dương tính thường được xét nghiệm tiếp tục bằng siêu âm (compression ultrasonography) – một phương pháp có độ đặc hiệu cao. Các xét nghiệm đặc hiệu cao rất cần thiết khi kết quả dương tính giả dẫn đến hệ quả nghiêm trọng cho bệnh nhân. Chẳng hạn như trước quyết định hóa học trị liệu cho bệnh nhân, các phương pháp xét nghiệm mô (tissue tests) cần phải được tiến hành. Nói tóm lại, phương pháp xét nghiệm đặc hiệu cao rất có ích khi kết quả xét nghiệm là dương tính.
Cân bằng giữa độ nhạy và đặc hiệu
Một phương pháp xét nghiệm lí tưởng có độ nhạy và đặc hiệu gần 100%. Nhưng trong thực tế, ít khi nào chúng ta có một phương pháp xét nghiệm hoàn hảo như thế. Có những xét nghiệm có độ nhạy cao, nhưng độc đặc hiệu thấp (và ngược lại). Do đó, vấn đề là cần phải cân bằng giữa hai khía cạnh nhạy và đặc hiệu của một phương pháp xét nghiệm, nhất là trong trường hợp kết quả xét nghiệm là một biến liên tục.
Trong trường hợp kết quả xét nghiệm có nhiều giá trị (biến liên tục), việc xác định một giá trị tham chiếu (reference cut-off value) để phân biệt giữa “dương tính” và “âm tính” (hay giữa “bình thường” và “bất bình thường”) là điều rất quan trọng. Thông thường, các một xét nghiệm có nhiều giá trị liên tục, độ nhạy và độ đặc hiệu thường thay đổi nghịch chiều. Khi độ nhạy tăng thì độ đặc hiệu giảm; ngược lại, khi độ nhạy giảm thì độ đặc hiệu tăng. Không có cách gì để gia tăng độ đặc hiệu và độ nhạy trong cùng một lúc cho một xét nghiệm.
Số liệu sau đây (Bảng 1) cho thấy mối liên hệ giữa xét nghiệm PSA (prostate-specific antigen) và ung thư tiền liệt tuyến ở đàn ông người Mĩ trong độ tuổi 70. Nếu giá trị tham chiếu được chọn là # 3 ng/mL thì độ nhạy là 100%, nhưng độ đặc hiệu chỉ 60%. Điều này có nghĩa là dương tính giả lên đến 40%, tức rất nhiều người có kết quả “dương tính” (trên# 3 ng/mL) nhưng họ không bị ung thư. Nếu chọn giá trị tham chiếu là # 13 ng/mL thì độc đặc hiệu là 97% nhưng độ nhạy chỉ 23%; nói cách khác, xét nghiệm bỏ sót 77% người mắc bệnh! Các tác giả đề nghị lấy giá trị tham chiếu là # 5.5 ng/mL vì ở ngưỡng này, độ nhạy là 95% và đặc hiệu là 78%, tức có thể chấp nhận được.
Bảng 1. Độ nhạy và đặc hiệu của xét nghiệm PSA trong tiên lượng ung thư tiền liệt tuyến ở đàn ông người Mĩ da đen |
||
PSA (ng/mL) |
Độ nhạy |
Độ đặc hiệu |
≥ 1 |
1.00 |
0.21 |
≥ 2 |
1.00 |
0.48 |
≥ 3 |
1.00 |
0.60 |
≥ 4 |
0.99 |
0.73 |
≥ 5 |
0.96 |
0.76 |
≥ 6 |
0.94 |
0.79 |
≥ 7 |
0.90 |
0.83 |
≥ 8 |
0.90 |
0.88 |
≥ 9 |
0.68 |
0.90 |
≥ 10 |
0.54 |
0.93 |
≥ 11 |
0.47 |
0.94 |
≥ 12 |
0.30 |
0.95 |
≥ 13 |
0.23 |
0.96 |
≥ 14 |
0.17 |
0.97 |
≥ 15 |
0.11 |
0.97 |
Nguồn: xem tài liệu tham khảo [1] |
Biểu đồ ROC
Một cách khác để mô tả mối liên hệ giữa độ nhạy và đặc hiệu là biểu đồ ROC (receiver operating characteristic) [2]. Biều đồ ROC có nguồn gốc quân sự, vì nó được ứng dụng trong việc phát hiện tàu của địch trên màn hình radar trong Thế chiến thứ II, nhưng trong thời gian 3 thập niên qua, biểu đồ ROC đã được ứng dụng trong chẩn đoán và tiên lượng y khoa rất thành công.
Biểu đồ ROC có trục tung (y-axis) là tỉ lệ dương tính thật, và trục hoành (x-axis) là tỉ lệ dương tính giả (tức 1 trừ cho độ đặc hiệu). Cả hai tỉ lệ dĩ nhiên có giá trị dao động từ 0 đến 100 (hay từ 0 đến 1, nếu dùng xác suất). Hai tỉ lệ này được ước tính cho từng giá trị tham chiếu. Phương pháp xét nghiệm tốt sẽ có những điểm tham chiếu tập trung vào khu vực “Tây Bắc”, tức là những điểm ở góc trái thuộc phía trên của biểu đồ. Những điểm này cho chúng ta biết đó là những giá trị tham chiếu có độ nhạy cao và độ dương tính giả thấp. Biểu đồ 1 dưới đây thể hiện số liệu từ Bảng 1:
Nhìn vào biểu đồ trên, chúng ta thấy có diện tích tối đa của biểu đồ là 1 (vì biểu đồ hình vuông, với mỗi “cạnh” bằng 1). Diện tích dưới đường biểu diễn có thể tính toán bằng phương pháp tích phân, nhưng trong thực tế thì có những chương trình máy tính tính chính xác hơn.
Nếu phương pháp xét nghiệm vô dụng thì tất cả các điểm tham chiếu đều nằm trên đường thẳng nối hai điểm (0, 0) và (1, 1), tức đường 45 độ. Trong trường hợp này, diện tích dưới đường biểu diễn ROC phải bằng 0.5 (xem Biểu đồ 2).
Do đó, một phương pháp xét nghiệm có ích phải có diện tích AUC trên 0.5. Không có ngưỡng nào của AUC để xác định là một xét nghiệm tuyệt vời. Tuy nhiên theo qui ước thì một phương pháp xét nghiệm với AUC trên 0.8 được xem là tốt hay rất tốt; còn AUC dưới 0.6 được xem là không tốt và không thể áp dụng vào lâm sàng được (Bảng 2) [3].
Bảng 2. Diễn giải ý nghĩa của diện tích dưới đường biểu diễn ROC (AUC) |
|
AUC |
Ý nghĩa |
>0.90 |
Rất tốt (Excellent) |
0.80 đến 0.90 |
Tốt (Good) |
0.70 đến 0.80 |
Trung bình (Fair) |
0.60 đến 0.70 |
Không tốt (Poor) |
0.50 đến 0.60 |
Vô dụng (Fail) |
Hiểu y văn
Ngày nay, có rất nhiều phương pháp xét nghiệm được phát triển và được quảng bá rầm rộ. Nhưng phần lớn những phương pháp mới được quảng bá không hẳn tốt hơn phương pháp cũ (qua đánh giá của chỉ số AUC), đó là chưa kể đến chi phí xét nghiệm của những phương pháp mới thường đắt tiền hơn những phương pháp cũ. Một đặc điểm khác là khi mới được giới thiệu, các phương pháp xét nghiệm đều có chỉ số AUC cao, nhưng khi kiểm định lại ở một hay nhiều quần thể độc lập khác thì độ chính xác không tuyệt vời như lúc ban đầu!
Tình trạng thiếu nhất quán này xảy ra vì vấn đề thiết kế nghiên cứu. Nhiều nghiên cứu tiên lượng dựa vào bệnh nhân ở bệnh viện và nhóm chứng thường là sinh viên y khoa khỏe mạnh. Đây là những đối tượng khá “tương phản” nhau về sức khỏe, cho nên kết quả thường “tốt” hơn khi xét nghiệm được áp dụng trong một quần thể đa dạng trong môi trường lâm sàng, nhất là ngoài cộng đồng.
Ngoài ra, một số người mặc dù không có bệnh nhưng có thể có vấn đề sức khỏe khác và do đó có kết quả xét nghiệm “dương tính”, và vì thế gia tăng tỉ lệ dương tính giả và giảm tỉ lệ âm tính thật. Chẳng hạn như CEA (carcinoembryonic antigen) – một xét nghiệm cho ung thư ruột – thường tăng cao ở những bệnh nhân xơ gan và viêm kết tràng; và nếu những bệnh nhân này được xét nghiệm như là nhóm chứng thì tỉ lệ dương tính giả sẽ tăng và độ đặc hiệu sẽ giảm.
Do đó, để đánh giá một phương pháp xét nghiệm mới, chúng ta cần phải trả lời cho được một số câu hỏi quan trọng như sau: Phương pháp xét nghiệm đã được kiểm định trong nhiều quần thể độc lập hay chưa; có chẩn đoán “tiêu chuẩn vàng” để làm tham khảo; phương pháp xét nghiệm đã được thẩm định trong một nhóm đối tượng thích hợp, như ngoài cộng đồng hay chưa; phương pháp được mô tả chi tiết và cụ thể; và độ nhạy, đặc hiệu, và chỉ số AUC? Chỉ khi nào các câu hỏi trên được trả lời thỏa đánh thì phương pháp xét nghiệm mới có thể ứng dụng vào lâm sàng.
Trị số tiên đoán dương tính
Các chỉ số như độ nhạy và đặc hiệu phản ảnh độ chính xác của một phương pháp xét nghiệm. Chẳng hạn như độ nhạy trả lời câu hỏi: nếu bệnh nhân mắc bệnh và nếu bệnh nhân đó đi xét nghiệm thì xác suất có kết quả dương tính là bao nhiêu. Tuy nhiên, trong thực tế, người thầy thuốc muốn có câu trả lời ngược lại: nếu một đối tượng đi xét nghiệm và có kết quả dương tính thì xác suất mà đối tượng đó mắc bệnh là bao nhiêu? Chỉ số trả lời câu hỏi này là positive predictive value (PPV, trị số tiên đoán dương tính).
Trong bài trước, chúng ta đã làm quen với PPV. Nói một cách ngắn gọn, PPV phụ thuộc vào 3 chỉ số: tỉ lệ hiện hành của bệnh (prevalence); độ nhạy; và độ đặc hiệu. Công thức của PPV là như sau:

- Odds mắc bệnh trước khi xét nghiệm:
odds0 = 0.033 / (1 – 0.033) = 0.034
- LR cho phương pháp PSA
LR = 0.67 / (1 – 0.97) = 22.33
- Odds mắc bệnh sau khi đã có xét nghiệm dương tính PSA:
odds1 = 0.034 x 22.33 =0.762
- Xác suất mắc bệnh sau khi đã có xét nghiệm dương tính PSA:
PPV = 0.762 / (1 + 0.762) = 0.433
Bước 2: tính PPV cho phương pháp DRE
- Odds mắc bệnh sau khi có xét nghiệm PSA:
odds0 = 0.433 / (1 – 0.433) = 0.762
- LR cho phương pháp DRE:
LR = 0.50 / (1 – 0.94) = 8.33
- Odds mắc bệnh sau khi đã có xét nghiệm dương tính PSA:
odds1 = 0.762 x 8.33 = 6.35
- Xác suất mắc bệnh sau khi đã có xét nghiệm dương tính PSA:
PPV = 6.35 / (1 + 6.35) = 0.86
Nói cách khác, trước khi có bất cứ kết quả nào, xác suất mắc bệnh ung thư tiền liệt tuyến là 3.3%, nhưng sau khi kết quả xét nghiệm PSA dương tính, xác suất tăng lên 43.3%. Sau khi đã có kết quả dương tính từ DRE, xác suất mà bệnh nhân mắc bệnh tăng lên 86%.
Cỡ mẫu
Các nghiên cứu tiên lượng và chẩn đoán cần phải được thiết kế theo các chuẩn mực khoa học. Trong các chuẩn mực này có việc xác định cỡ mẫu cần thiết cho một nghiên cứu có ý nghĩa. Thông thường các nghiên cứu về xét nghiệm được thiết kế theo mô hình nghiên cứu bệnh chứng (case – control study), mà theo đó một nhóm bệnh nhân đã được xác định có bệnh theo một phương pháp chẩn đoán chuẩn (gold standard), và một nhóm đối tượng không có bệnh.
Công thức xác định cỡ mẫu cần thiết phụ thuộc vào 3 thông số: độ nhạy hay độ đặc hiệu cần ước tính; khoảng tin cậy của độ nhạy hay độ đặc hiệu; và thông số z từ luật phân phối chuẩn. Gọi độ nhạy hay độ đặc hiệu là ∏, khoảng rộng của tin cậy là w, và hệ số khoảng tin cậy từ luật phân phối chuẩn là z, công thức ước tính cỡ mẫu là:
Bảng 3 dưới đây trình bày số cỡ mẫu cần thiết cho một thông số theo từng w khác nhau, với khoảng tin cậy 95%.
Kết luận
Tiên lượng và chẩn đoán đóng vai trò rất quan trọng trong thực hành lâm sàng, nhưng điều khó khăn là vấn đề diễn giải kết quả nghiên cứu và áp dụng cho một bệnh nhân. Vấn đề càng khó khăn hơn đối với các phương pháp xét nghiệm có kết quả là một biến liên tục (thay vì một biến nhị phân). Đối với các xét nghiệm có nhiều giá trị, phương pháp đánh giá độ chính xác của xét nghiệm là dựa vào sự quân bình giữa độ nhạy và độ đặc hiệu cho từng giá trị tham chiếu, và thể hiện bằng chỉ số AUC. Tuy AUC (diện tích dưới đường biểu diễn ROC) là một chỉ số quan trọng và có ích cho việc đánh giá sự hữu hiệu của một xét nghiệm, nhưng phần lớn diện tích này xuất phát từ các giá trị dương tính giả.
Như đề cập, AUC là một chỉ số có thể sử dụng để so sánh các phương pháp xét nghiệm. Nhưng vì một phần lớn của AUC chịu sự chi phối của tỉ lệ dương tính giả, cho nên nói chung AUC rất thiếu tính nhạy. Chẳng hạn như nếu xét nghiệm thứ nhất có AUC là 0.80, và nếu thêm xét nghiệm hai AUC tăng lên 0.82, thì điều đó không có nghĩa là xét nghiệm hai góp phần khiêm tốn vào tiên lượng, mà vì chỉ số AUC thay đổi rất nhỏ. Vài năm gần đây, các nhà nghiên cứu đã phát triển một số phương pháp phân tích mới để đánh giá các xét nghiệm mới so với các xét nghiệm chuẩn, và các phương pháp phân tích mới này đang dần dần được áp dụng rộng rãi trong y văn, nên chúng ta có lẽ sẽ quay lại một bài sau [4,5].
Cần ghi nhận rằng các chỉ số như độ nhạy, đặc hiệu, hay AUC phản ảnh độ chính xác của phương pháp xét nghiệm; chúng không cung cấp xác suất mắc bệnh cho một cá nhân. Để ước tính xác suất này chúng ta cần một thông số quan trọng: đó là tỉ lệ lưu hành (prevalence) hoặc tỉ lệ phát sinh (incidence) của bệnh. Thông số này cần kết hợp với các chỉ số về độ chính xác của phương pháp xét nghiệm để cung cấp một chẩn đoán hay tiên lượng cho bệnh nhân. Nghệ thuật xác suất trong y khoa chính là ở khía cạnh áp dụng nhuần nhuyễn các chỉ số này nhằm nâng cao tính chính xác của chẩn đoán và tiên lượng.
Tài liệu tham khảo và đọc thêm
[1] Morgan TO, et al. Age-specific reference ranges for serum prostate specific antigen in black men. N Engl J Med 1996;335:304-310
[2] Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 1982 Apr;143(1):29-36.
[3] Pepe MS. The statistical evaluation of medical tests for classification and prediction. Oxford University Press 2004.
[4] Michael J. Pencina, Ralph B. D’ Agostino Sr, Ralph B. D’ Agostino Jr, Ramachandran S. Vasan. Evaluating the added predictive ability of a new marker: From area under the ROC curve to reclassification and beyond. Stat Med 2008; 27:157-316.
[5] Cook NR, Ridker PM. Advances in Measuring the Effect of Individual Predictors of Cardiovascular Risk: The Role of Reclassification Measures. Ann Intern Med 2009; 150:11795-802.