slogan

 
 

THỐNG KÊ ỨNG DỤNG TRONG NGHIÊN CỨU TIM MẠCH HỌC

Tóm tắt:  Mô hình Gauss đã từng là hình mẫu chuẩn mực thống trị tư duy khoa học thế kỷ 18 và 19, kết thúc khi thuyết tiến hóa ra đời.

 

TS. NGUYỄN ANH VŨ

Chủ nhiệm Bộ môn Toán, Đại học Y Dược TPHCM

 

Bài viết phân tích tiến hóa nhận thức khoa học về mô hình Gauss, quan hệ giữa thuyết tiến hóa và những nghiên cứu sinh trắc học quyết định sự kết thúc một thời đại khoa học sùng bái phân phối hình chuông.

Từ khóa: hậu kháng sinh, tiến hóa sinh học, tất định luận, thuyết tiến hóa, số liệu, bất định, phân phối, mô hình, moment, phương pháp Monte Carlo.

BOX:

Distribution: từ gốc Latin distributionem “phân phát, phân loại, suất định, sắp xếp”, có động từ distribuere = dis (riêng lẻ từng phần từng cái một) + tribuere (phân phát, chia phần theo suất định).

Moment: từ gốc Latin momentum, là dạng rút gọn của movimentum “chuyển động, thay đổi, sức mạnh thay đổi, năng lực chuyển động”; có động từ movere “chuyển động, lay động, kích động”. Thế kỷ 12, từ Pháp cổ có nghĩa “khoảnh khắc, giá trị, sức nặng, tầm quan trọng”. Giữa thế kỷ 14, được dùng như “phần thời lượng rất nhỏ, tức thời ” 11,15.

 

Thời đại hậu kháng sinh là một khả năng rất gần thực tế của thế kỷ 21. Trong quá trình tiến hóa, vi khuẩn thích nghi và tái tạo những dòng đề kháng cả thuốc chống nhiễm khuẩn mạnh nhất 16. Penicillin, kháng sinh đầu tiên được Alexander Fleming (1881 – 1955) khám phá năm 1929, được sử dụng năm 1945, đến năm 1948 đã xuất hiện Staphylococcus aureus kháng penicillin. Methicillin được điều chế năm 1960 để chống S. aureus nhưng năm 1961 đã phải dùng vancomycin để chống MRSA, dòng S. aureus kháng được methicillin. Đến năm 1997, dòng MRSA kháng vancomycin mang tên VRSA ra đời 7,16.

Tập đoàn vi khuẩn đông đảo với lực tiến hóa rất mạnh tạo ra các chủng đa kháng và siêu kháng. Chủng mang gen NDM-1 đa kháng kháng sinh carbapenem được phát hiện tại Ấn Độ năm 2008. Chủng mang gen MCR-1, đề kháng colistin được phát hiện năm 2011 tại Trung Quốc và 2015 tại châu Âu và Mỹ. Theo dự đoán, vi khuẩn mang gen này có thể đề kháng với tất cả kháng sinh hiện có7. Thực tế liệu sẽ diễn ra đúng như kịch bản đáng sợ đã được cảnh báo? Rồi đây bệnh học nhiễm khuẩn tim mạch sẽ định danh thêm những sát thủ hàng loạt… không hề thầm lặng?

Ngược thời gian trở về thời đại thuyết tiến hóa sinh học hình thành từ những bước tiến gian nan của nhận thức, cũng là thời đại kết thúc sự thống trị tư duy khoa học suốt hai thế kỷ của mô hình Gauss. John Wilder Tukey (1915-2000) nhận định “Kiến thức thực nghiệm lúc nào cũng mờ ảo! Còn kiến thức lý thuyết, như các định luật vật lý, đến nay về chi tiết vẫn luôn sai, dù có cho xấp xỉ rất tốt đi nữa14. Thomas Samuel Kuhn (1922-1996) chỉ ra, lý thuyết khoa học giúp định hình tư duy, nhưng không ai dám tin vào sự chính xác hình thức của lý thuyết. Ngay cả nhận thức khoa học cũng cần một mức mơ hồ thích hợp 14.

Tư tưởng tất định luận bắt nguồn từ Leucippus (thế kỷ 5.TCN) và Democritus(460-370 TCN) khởi xướng, theo đó mọi quá trình tự nhiên hình thành do sự va chạm giữa các nguyên tử. Đến thế kỷ 17, Isaac Newton (1642-1727) sáng tạo cơ học cổ điển, mô tả hoạt động của vũ trụ theo một số định luật. Từ đó gợi ra suy tưởng rằng vũ trụ vốn có bản thiết kế nguyên thủy. Theo đó trật tự phổ biến sẽ hiện ra, khi sự vật hiện tượng được phân loại vào những nhóm đồng nhất. Trật tự ấy chính là thứ giống như luật của sai số đo lường trong thiên văn học 5.

Tư tưởng của Newton ảnh hưởng rất mạnh và lâu dài đến các nhà khoa học. Một khi đã xác định điều kiện ban đầu, vũ trụ cứ thế vận động theo một lịch sử tất định. Như vậy, sự bất định tồn tại trên đời này vốn không phải do những định luật vũ trụ, mà do nhận thức bất toàn của con người. Abraham de Moivre (1667-1754), nhà phát minh mô hình Gauss, còn cho rằng bản chất sự bất định là một vấn đề thần học. Ông cũng biện luận rằng luật của sai số đo lường mô tả sự sai lệch ra ngoài quy cách của bản thiết kế nguyên thủy 1.

Nhà thiên văn học Adolphe Quetelet mang niềm tin mãnh liệt vào một vũ trụ cơ học thống nhất, cái gì đúng ở trên trời cũng đúng ở dưới đất. Vị trí các vì sao là có thật, xác định được bằng cách đo nhiều lần, phép đo chính xác cho kết quả đo tập trung xung quanh trung bình. Chỉ cần số liệu được thu thập, sắp xếp đúng đắn, sẽ cho thấy ngay phân phối Gauss. Thế thì cùng quy luật ấy phải đúng trong xã hội loài người. Số đo nhiều người phải tập trung quanh số đo của một con người trung bình. Chắc chắn là phải thế, dù chẳng ai thấy hay gặp được người đó bao giờ!

Quetelet gặp rất nhiều phản ứng dữ dội trong giới khoa học. Các nhà xã hội học John Stuart Mill (1806-1873) và Auguste François Xavier Comte (1789-1857) cho rằng lối áp đặt toán học này thật là gượng ép. Cứ như thế này thì chân lý cũng chẳng qua là một con số, con người đâu khác gì con xúc sắc. Nhà toán học xuất sắc Louis Poinsot (1777-1859), một trong 72 nhà khoa học được đề bảng vinh danh trên tháp Eiffel, cũng cho rằng thống kê ứng dụng là sự áp bức toán học 8. Tuy nhiên, mô hình Gauss vẫn được nhìn nhận như một quy luật phổ biến, trở thành hình mẫu tư duy khoa học tiêu biểu trong suốt 200 năm.

Hình mẫu khoa học này đã thay đổi hoàn toàn cách làm khoa học thời đó. Các nhà khoa học không còn tùy tiện xóa bỏ những số đo có vẻ không hợp lý nữa. Các quá trình đo được tiến hành cẩn trọng, lặp lại nhiều lần. Các số đo được sắp xếp và đếm số lần xuất hiện. Phân phối tần số thể hiện số lần xuất hiện của số đo, qua đó biết được những số trị đo nào có nhiều, vừa phải hay ít thấy. Phân phối tần suất cho biết tỷ lệ của các số đo chiếm phần lớn, vừa hay nhỏ trên tổng thể các trị số. Khi số đo tập trung dày xung quanh một trung tâm và thưa hơn ở xa trung tâm thì đồ thị của phân phối giống hình quả chuông. Thấy được phân phối hình chuông mới được coi là hoàn thành công việc 12.

Bằng chứng chống lại hình mẫu “quả chuông” cũng bắt đầu được thu thập. Louis Adolphe Bertillon (1821-1883) phát hiện trong bộ số liệu chiều cao lính nghĩa vụ tỉnh Doubs phân phối không cân xứng như hình chuông. Phân phối này có hai đỉnh lồi, thay vì một như phân phối Gauss. Ông giả định là cộng đồng có hai loại người lùn và cao. Sau đó giả thuyết này được chứng nhận, dân cư vùng Doubs có tổ tiên từ tộc Celt và Burgundy3. Walter Frank Rafael Weldon (1860-1906) cũng có nhận xét tương tự khi khảo sát bộ số liệu 23 tính trạng trên mẫu cỡ 1000 con cua ở vịnh Naples 8,10.

Năm 1859, Charles Robert Darwin (1809-1882) đề xuất giả thuyết tiến hóa sinh học chống lại tất định luận, thôi thúc sự hình thành phương pháp luận mới. Loài bao gồm nhiều tập hợp số đông cá thể có đặc trưng thống kê được thể hiện qua các biến dị cá thể. Tiến hóa là quá trình thống kê hình thành từ biến dị di truyền ngẫu nhiên. Các khái niệm biến dị liên tục, chọn lọc tự nhiên, hồi quy tính trạng đều cần đến thu thập bằng chứng và phân tích số liệu. Tất cả biến dị đều có thể đo được và có ý nghĩa, qua đó nhiều mối tương quan có thể giải thích sự chọn lọc tự nhiên và sự hình thành loài 2.

Để đo biến dị đặc tính di truyền, Francis Galton (1822-1911) sử dụng thống kê theo trường phái Quetelet. Ông dành hẳn phần phụ lục cuốn Hereditary Genius để trình bày phương pháp Quetelet và ca ngợi “Thật hiếm có điều gì thích hợp hơn là gây ấn tượng, dưới hình thức tuyệt vời của trật tự vũ trụ, diễn tả bởi luật phân phối tần số của sai số4. Mặt khác, ông nhận ra mô tả hiện tượng sinh học bằng mô hình Gauss dẫn đến nhiều điều phi lý. Vì vậy, Galton nhờ Donald McAllister, một giáo sư toán Đại học Cambridge, giúp phát triển mô hình mới mang tên Galton-McAllister. Đó chính là luật phân phối log-normal theo cách gọi hiện nay, theo đó logarithm của số đo có phân phối Gauss 9.

  Galton rất quen thuộc các phân phối hai đỉnh lồi, kết quả phối hợp của hai phân phối hình chuông. Ông thường dùng kết quả này để giải thích sự hình thành loài mới thông qua khái niệm biến trạng và biến tố. Biến trạng là sự thay đổi xung quanh trung tâm tính trạng của giống loài. Trung tâm khá bền vững do sự hồi quy tính trạng về trung bình. Phân phối của mọi biến trạng đều tuân theo mô hình Gauss 8,10. Biến tố là một tính trạng mới xuất hiện trên một cá thể khác biệt hẳn các cá thể cùng loài, chiếm vị trí ngoại biên. Cá thể mang biến tố có lực thích nghi cao sẽ tồn tại và tái tạo, số lượng biến trạng của nó cũng tăng dần. Mô tả thích hợp nhất chính là mô hình Gauss với trung bình mới.  

Weldon nghĩ rằng giả thuyết về sự tồn tại của 2 chủng cua trong vịnh Naples cũng như vấn đề phân phối hai đỉnh lồi. Như vậy, phải tách phân phối hai đỉnh lồi thành tổng của hai phân phối Gauss. Ông thông báo cho Galton và kêu gọi sự giúp đỡ từ nhà toán học-cơ học Karl Pearson (1857-1936). Pearson đã biết về kết quả nghiên cứu của McAllister, nhưng ông lại đặt ra 3 khả năng về sự khác nhau giữa mô hình Gauss và quan sát thực nghiệm: (a) do sai số lấy mẫu ngẫu nhiên; (b) số liệu lấy từ tổng thể không đồng nhất, gồm nhiều thành phần có phân phối Gauss; (c) số liệu đồng nhất, nhưng lấy từ tổng thể có phân phối không cân xứng.

Sự khẳng định giả thuyết (c) sẽ vứt bỏ hình mẫu chuẩn mực đương thời - mô hình Gauss. Dựa vào phương pháp moment cơ học, Pearson phát minh hệ thống 4 moment thống kê để xét đặc tính của bộ số liệu. Đó là số đo co cụm lại như thế nào (trung bình), phân tán như thế nào (độ lệch chuẩn), không đều như thế nào (độ nghiêng) và đỉnh lồi có dạng như thế nào (độ nhọn). Trong những năm 1890 đến 1895, ông thiết lập 5 hệ thống mô hình mới, bao hàm cả mô hình Gauss 6,8. Jerzy Neyman (1894-1981) đánh giá “rất hiếm thấy khi nào số liệu thực nghiệm không khớp với bất kỳ mô hình nào trong 5 hệ mô hình này8.  

Hệ thống moment giúp phân tích và diễn giải bất kỳ bộ số liệu nào, hệ thống mô hình Pearson gỡ bỏ những hạn chế của mô hình Gauss. Ngày nay, mô tả đặc tính phân phối số liệu của bất kỳ mô hình nào cũng không nằm ngoài hai hệ thống, moment phân vị. Như vậy mô hình Gauss có nói lên được quy luật tự nhiên gì không? Vì sao từng được coi là hình mẫu chuẩn mực của khoa học lâu đến như vậy? Tại sao thực tế nghiên cứu cho thấy đến nay mô hình vẫn được dùng rất rộng rãi? Thực ra khi nào mô hình dùng được? Và còn dùng làm gì nữa không?

Mô hình Gauss không là quy luật tự nhiên, mà hoàn toàn được xác định bởi nhà nghiên cứu. Chính đo hành động ảnh hưởng đến kết quả, chính là quan sát quyết định cái được quan sát. Khi thực hiện nghiên cứu, thông thường nhà khoa học chọn một mục đích rất đặc trưng. Vì vậy, quan sát thường tập trung vào những sự kiện tương đối đồng nhất. Do đó, vô tình mà những sự kiện càng đồng nhất càng được ưu tiên chọn. Như vậy số liệu có xu hướng co cụm quanh một trung tâm, càng xa trung tâm thì càng ít thấy. Trong tình huống này, rõ ràng mô hình Gauss là cơ chế sinh số liệu phù hợp nhất.

 Trong thực tế, mô hình Gauss vẫn được chọn vì tính tiện lợi chứ không vì tính phổ biến. Điều này được giải thích bằng Nguyên lý maximum entropy, được giải thích trong bài viết số 4.Mô hình Gauss thích hợp cho những hiện tượng được đề cập trong Định lý giới hạn trung tâm, được đề cập trong bài viết số 1. Để quyết định có nên dùng mô hình Gauss cho một bộ số liệu hay không, chỉ cần thực hiện một kiểm định thống kê. Các thuật toán kiểm định thông dụng nhất là Anderson-Darling, Shapiro-Wilk và Lilliefors, phần mềm tính toán chỉ trong một nốt nhạc.

 Ngày nay, các phần mềm chuyên dụng giúp ghi bản nhạc không cần dùng ký hiệu nốt nhạc. Tương tự, cũng có cách làm thống kê ứng dụng không cần dùng công thức, được gọi là phương pháp Monte Carlo. Mô hình Gauss tiếp tục chiếm giữ vị trí cốt lõi trong phương pháp Monte Carlo, để hiểu phương pháp Monte Carlo cũng chỉ cần một Định lý giới hạn trung tâm là đủ. Như vậy, mô hình Gauss vẫn tiếp tục đóng một vai trò cốt lõi trong nhiều thế kỷ nữa. Vì khuôn khổ của bài viết không cho phép, phương pháp Monte Carlo sẽ được đề cập đến trong dịp khác.

 

Tài liệu tham khảo

[1] Bellhouse D. R., Genest C., (2007), Matys Biography of Abraham De Moivre, Translated, Annotated and Augmented, Stat. Sci. 22(1): 109-136.
[2] Darwin C.R. (1859), On the origin of species, John Murray, London.
[3] Dupaquier M. (1984), La famille Bertillon et la naissance dune nouvelle science sociale: la demographie, Ann. Demo. Hist. 1983(1): 293-311.
[4] Galton F. (1869), Hereditary Genius: An Inquiry into its laws and consequences, McMillan & Co., London-New York.
[5] Kvasz L. (2004) The invisible link between mathematics and theology, Per. Sci. & Christ.Faith 56: 111-116
[6] Lahcene B. (2013 ) On Pearson families of distributions and its applications, Afr. J. Math. Comput. Sci. Res. 6(5): 108-117
[7] Llor C., Bjerrum L.,(2014) Antimicrobial resistance: risk associated with antibiotic overuse and initiatives to reduce the problem, Ther Adv Drug Saf. 5(6): 229–241.
[8] Magnello E. (2006) Karl Pearson and the origin of modern statistics: An elastician becomes a statistician,  The Rutheford Journal 1.
[9] McAllister D. (1879), The law of the geometric means, Proc. R. Soc.Lond. 29:367-376
[10] Norton B.J (1978) Karl Pearson and Statistics: the social origin of scientific innovation, Soc. Stud. Sci. 8(1): 3-34.
[11] Schwartzman S. (1994), The words of mathematics: An etymological dictionary of mathematical terms used in English, American Mathematics Society, USA.
[12] Simon J.I. (1968) What does the normal curve “mean”? The J. of Edu. Research. 61(10): 435-438
[13] Stigler S. M. (1977) Mathematical statistics in the early states, The Ana. of Stat. 6(2): 239-265
[14] Tukey J.W. (1991) The philosophy of multiple comparison, Stat. Sci. 6(1): 100-118
[15] Weekley E.(1921), An etymological dictionary of modern English, John Murray-Albermale Street, London.
[16] WHO (2014), Antimicrobial resistance: Global report on surveilance, WHO Doc. Prod. Serv., Geneva, Switzeland.