Google search engine

Bài số 4: Hữu ích hay vô ích ?

Tóm tắt: Bài viết phân tích phương pháp mô hình hóa khoa học; qua đó, đề cập đến cơ sở hình thành và tình huống sử dụng cơ bản nhất của mô hình phân phối Gauss.

TS. Nguyễn Anh Vũ

Chủ nhiệm Bộ môn Toán, Đại học Y Dược TPHCM

Trong bài viết, một số phương pháp phân tích nhịp tim hiện đại được tiếp tục giới thiệu.

Từ khóa: mô hình, lý tưởng hóa, thông tin, entropy, nguyên tắc Ockham, phân phối Gauss, biến động nhịp tim, phân tích entropy đa phân giải, biểu đồ Poincaré.

Model: từ gốc Latin “modulus”, với nghĩa “một đơn vị tiêu chuẩn, hay số đo đơn vị”, là từ giảm nhẹ nghĩa của “modus” nghĩa là  “loại, hạng, phạm vi, hạn độ”. Thời trung cổ, tiếng Pháp “modelle”, tiếng Ý “modello”, tiếng Đức cổ “modell” nghĩa là cái khuôn hay hình mẫu. Từ năm 1570, thêm nghĩa “ vật giống hệt được làm theo tỷ lệ khác” hay “ đồ hình kiến trúc”. Từ 1630 được hiểu như “vật mẫu chuẩn, người mẫu mực” và từ 1690 “vật mẫu, người mẫu của nghệ sĩ”. Đến 1900, có thêm nghĩa “kiểu dạng thiết kế xe có động cơ”, từ 1904 là “người mẫu thời trang”.

Data: từ gốc Latin, số nhiều của “datum” nghĩa là “vật hay điều được giả dụ, ban tặng, truyền cho, dựa vào”; có động từ “dare” tương đương “to give” trong tiếng Anh. Có cùng nguồn gốc với “date”, với nghĩa “tháng ngày, thời gian, niên đại”. Do quy ước La Mã kết thúc thư tín bằng datum và ngày tháng, nơi chốn: “datum Romae pridie Kalendas Maias” (được truyền tại Rome vào ngày cuối tháng Tư), dẫn đến việc “data” trở thành từ chỉ thời gian và nơi chốn công khai nhất định. Từ năm 1946, được dùng như “thông tin có thể truyền tải và lưu trữ trên máy tính”.

 (Trích và lược dịch:Từ ngữ toán học, Steven Schwartzman[21]; Từ điển Từ nguyên học Anh ngữ hiện đại, Ernest Weekley[29])

Suy tim là một trạng thái sinh lý bệnh học phức tạp,trong đó việc cung cấp máu và dinh dưỡng cho cơ tim không đủ mức thích đáng. Trong một thời gian dài, các yếu tố nguy cơ suy tim cao ở bệnh nhân tim mạch không được biết đến. Gần đây, chẩn đoán y học có bước đột phá tiếp cận y học chính xác-cá thể hóa [4]. Phương pháp y sinh học phân tử cho phép soi rọi nguyên nhân di truyền học của bệnh lý cơ tim [16]. Nguyên nhân và yếu tố nguy cơ không chỉ do rối loạn hệ gene, mất đồng bộ hệ protein mà còn liên quan đến sự sai hỏng mạng lưới của hệ tương tác gene-protein [13,14].

Mặt khác, những tiến bộ trên thách thức mạnh mẽ kiến thức nền tảng của di truyền học. Mô hình gene trội gene lặn, miễn trừ di truyền tập nhiễm…trở nên quá thô sơ để giải thích hay tiên đoán những hình trạng bệnh lý của phức hệ tương tác gene-protein. Số liệu thu thập được đã trở nên lớn thậm chí cực lớn cả về kích cỡ và độ phức tạp. Trận đại hồng thủy số liệu lớn có vẻ đã nhấn chìm những mô hình lý thuyết xưa cũ thậm chí đẩy các phương pháp khoa học đi đến kết thúc. Hình như mọi lý thuyết đều vô ích, tất cả mô hình đều sai, phương pháp kiểm định giả thuyết trở nên lỗi thời.[1]

Những quan niệm cực đoan còn đi đến phủ định sạch trơn “Càng ngày sự thành công của các bạn càng không cần đến các mô hình nữa” dựa vào trích dẫn lời một nhà thống kê học xuất sắc“Tất cả các mô hình đều sai, song một số có ích[1]. Tuy nhiên, mọi trích dẫn tách rời khỏi ngữ cảnh thì đều mất hết ý nghĩa [18]. Thực ra, điều George Edward Pelham Box (1919-2013) muốn diễn đạt lại là “mọi mô hình đều là sự xấp xỉ của hiện thực, nên mọi mô hình đều đúng[5]. Thông tin cấp độ Petabyte ngày nay là kết quả và bằng chứng cho sự thành công của phương pháp thực nghiệm khoa học.

Ngược dòng lịch sử về thời đại của Galileo Galilei (1564-1642), khi không sẵn có phép đo  chính xác và phương pháp thiết kế thực nghiệm, các kết quả quan sát thường bị ảnh hưởng bởi ý kiến chủ quan của người quan sát. Galileo cho rằng kết quả như thế rất đáng ngờ, mặt khác ông nhận thấy phương pháp lý tưởng hóa là một công cụ nghiên cứu tốt hơn quan sát rất nhiều. Cho đến nay, phương pháp này vẫn được sử dụng mạnh và rộng rãi trong mô hình hóa khoa học. Galileo tin rằng có sự giải thích toán học cho hiện tượng thực nghiệm, ông cho rằng “cuốn sách vĩ đại của tự nhiên được viết bằng ngôn ngữ toán học”.

Có hai phương pháp lý tưởng hóa thường dùng trong nghiên cứu. Phương pháp Aristotle lược bỏ những tính chất không có liên quan thích đáng đến hiện tượng, phân lập khỏi nhóm tính chất có ảnh hưởng quan trọng [10]. Phương pháp Galileo không lược bớt điều kiện mà thay đổi các điều kiện khác đi, nhằm làm đơn giản tình huống phức tạp [15]. Ví dụ trong một mô hình hiệu ứng thiết bị trợ tim đối với động học hệ tim mạch của bệnh nhân suy tim cấp. Các tính chất quan trọng được phân lập gồm có thể tích máu, tỷ lệ dòng chảy và áp suất. Động học hệ tim mạch được đơn giản hóa như một máy bơm máu [9].

Thống kê học nói chung cũng chính là lý tưởng hóa [11]. Kỹ thuật thống kê giúp khử nhiễu, hiệu chỉnh, tổ chức lại số liệu thô. Đó chính là đưa số liệu thôvào khuôn phép lý tưởng hóa [30]. Mô hình số liệu chẳng qua là một phiên bản của số liệu thô được làm cho vừa vặn với các hàm số toán học[25]. Phân phối Gauss là một giả thuyết lý tưởng về cấu trúc số liệu, tuy không tồn tại thực tế nhưng tiện dụng và hiệu lực toán học cao. Theo Bacharoglou “Mọi hàm mật độ xác suất liên tục đều được xấp xỉ bằng một trung bình các hàm phân phối Gauss[2]. Nghĩalà kết quả phép đo nào cũng ẩn chứa các yếu tố được đo chính xác chưa thấy rõ. Đây chính là cơ sở phân loại và phân tích cụm số liệu.

Trở lại vấn đề kết quả quan sát được Galileo đề cập, điều cần làm là giảm đến mức thấp nhất ý kiến chủ quan của người quan sát hiện tượng. Do ngẫu nhiên là không đủ thông tin nên kết quả quan sát bị ảnh hưởng bởi quan điểm chủ quan hay sự bất định khách quan [26]. Quan điểm chủ quan đưa đến chấp nhận nhiều thông tin hơn những gì có sẵn. Tính bất định của số liệu dẫn đến tình huống có nhiều mô hình giải thích một bộ số liệu. Hai điều này sẽ dẫn đến mô hình số liệu phức tạp hơn mức cần thiết, do đó có thể…luôn luôn sai.[20] Như vậy, giải pháp cho vấn đề là giảm lượng thông tin đến mức thấp nhất.

Phương pháp lượng thông tin ít nhất, hay độ phức tạp thấp nhất, được gọi là “Nguyên lý Maximum Entropy”.  Phương pháp do Edwin Thompson Jaynes (1922-1998) đề xuất[12], ngày nay có ứng dụng phổ biến. Nguồn gốc của phương pháp là nguyên tắc Ockham “Entia non sunt multiplicanda praeter necessitatem[22,23,24], nghĩa gốc là “Các đặc tính không nảy sinh ngoài cần thiết tất yếu”. Lượng thông tin được đo bằng Shannon entropy hoặc Fisher information. Lượng thông tin càng ít thì entropy càng cao, information càng thấp. Mô hình tốt nhất cho X là cái làm cho entropy lớn nhất hay information nhỏ nhất.

Đối với mô hình chỉ sử dụng giả thuyết xác định µσ, entropy cao nhất khi phân phối xác suất là N(µ,σ2). Như vậy, khi chỉ dựa vào µσ thì mô hình Gauss là đơn giản nhất, do đó chọn mô hình Gauss là hợp lý nhất. Trong thực nghiệm, phép tính trung bình thường được dùng để khử bớt nhiễu trong số liệu. Khi dùng số đo trung bình, số đo cụ thể không còn ý nghĩa. Do đó, thông tin về số đo cụ thể giảm đi làm cho entropy tăng lên. Phép tính trung bình tiện lợi nên mô hình Gauss thường được dùng trong thực nghiệm.

Biến động nhịp tim được phân tích dựa vào kết quả điện tâm đồ theo ba cách [28]. Cách thứ nhất là phân tích theo miền thời gian (Time domain analysis) dùng thống kê của các khoảng RR. Cách thứ hai là phân tích theo miền tần số (Frequency domain analysis) sử dụng tách phổ năng lượng. Cách thứ ba là phân tích đồng thời (Joint time-frequency analysis). Trong cách thứ ba, kỹ thuật phân tích entropy đa phân giải (Multiscale Etropy Analysis, MSE) và biểu đồ Poincaré (Poincaré plot) cho thấy có tính hữu ích cao hơn phân tích theo miền thời gian và theo miền tần số trong chẩn đoán suy tim ứ huyết và rối loạn nhịp do rung nhĩ. [17]

Biểu đồ Poincaré thuộc dạng phân tán đồ, là biểu đồ liên kết khoảng RRn+1 hiện thời với khoảng RRn trước. Như vậy mỗi điểm trên biểu đồ biểu diễn hai khoảng RR liên tiếp. Đám mây điểm có dạng elipse, diện tích ellipse là đặc trưng chẩn đoán phân biệt. Đối tượng  khỏe mạnh cho diện tích lớn, diện tích nhỏ đặc trưng cho trường hợp mắc bệnh. Độ dài hai trục SD1 và SD2 của elipse chính là độ lệch chuẩn của biến động tức thời và dài hạn của khoảng RR. Đối tượng bệnh có hai đặc trưng số này nhỏ hơn bình thường [19,27].

MSE là một kỹ thuật phân tích tín hiệu, được dùng để phân tích độ phức tạp của tín hiệu sinh học theo chuỗi thời gian. Cơ sở của MSE dựa trên các giả thuyết (a) tín hiệu phức tạp phản ánh sức khỏe của hệ thống đang thích nghi tốt với môi trường, (b) độ phức tạp tồn tại với nhiều mức độ, thể hiện trên nhiều thang đo,(c) trạng thái bệnh làm suy hao thông tin, thể hiện qua sự giảm độ phức tạp của tín hiệu [7].

MSE tính độ đo entropy của tín hiệu với độ phân giải khác nhau. Thuật toán MSE chia tín hiệu gốc thành nhiều phân đoạn rời nhau có cùng độ dài, tính trung bình entropy của số liệu trên những đoạn này. Tiếp theo, thay đổi độ phân giải bằng cách đổi độ dài của phân đoạn rồi lặp lại quá trình tính toán. Độ phức tạp của tín hiệu được tính bằng tổng entropy trên nhiều thang độ phân giải khác nhau. Sự xuất hiện hình mẫu đều đặn và suy giảm mức biến động độ phức tạp chính là dấu hiệu của bệnh [6,8].

Tài liệu tham khảo

[1] Anderson C. (2008) “The end of theory: the data deluge makes the scientific method obsolete”, Wired Magazine
[2] Bacharoglou A.N.G. (2010) “Approximation of probability distributions by convex mixtures of Gaussian measures”, Proceeding AMS 138(7): 2619-2628.
[3] Berhnard S., K. Al Zoukra, C. Schute (2011) “Statistical parameter estimation and signal classification in cardiovascular diagnosis”, WIT Trans. Biom. Health 15:457-469.
[4] Boguski M. (2015) “Precision diagnosis for precision medicine”, J.Prec.Med. 2015
[5] Box G.E.P., J.S.Hunter, W.G. Hunter(1978) Statistics for experimenters, 2nd Ed. Wiley-Interscience
[6] Costa M.A., A.L. Goldberger (2015) “Generalized multiscale entropy analysis: Application to quantifying the complex volatility of human hearbeat time series”, Entropy 17:1197-1203.
[7] Costa M., Goldberger A.L., Peng C.-K.(2005) “Multiscale entropy analysis of biological signals”. Phys Rev E 71:021906.
[8] Costa M., Goldberger A.L., Peng C.-K. (2002) “Multiscale entropy analysis of physiologic time series”. Phys Rev Lett 89:062102.
[9] Creigan V., L.Ferracina, A.Hlod, et al. (2007) “Modeling a heart pump”, Proc. 58th Study Group Math. Ind. Utrecht
[10] Franklin J. (2014) An Aristotelian realist philosophy of mathematics, Palgrave MacMilan, UK
[11] Hartmann S. (2008) Modeling in philosophy of science, Lauener Lib. Anal. Phil. 1: 1-26
[12] Jaynes E.T. (1988) “The relation of Bayesian and maximum entropy methods”, Maximum-Entropy and Bayesian Methods in Science and Engineering (Vol. 1), Kluwer Academic Publishers, 25-29.
[13] Lage K. (2014) “Protein-protein interaction and genetic diseases: the interactome”, Biochim Biophys Acta 1842(10): 1971-1980.
[14] Liu W., Wu A., M.Pellegrini, X.Wang (2015) “Intergrative analysis of human protein, function and disease networks”, Nature. Scientific Reports 5:14344.
[15] McMullin E. (1985) “Galilean idelization”, Stud. His. Phil Sci. A. 16(3): 247-273.
[16] Morrita H., Seidman J., Seidman C. E. (2005) “Genetic causes of human heart failure”, J. Clin. Invest. 115(3): 518-526.
[17] Parasnis R., A. Pawar, M. Manivannan (2015) “Multiscale entropy and Poincaré plot-based analysis of pulse rate variability and heart rate variability of ICU patients”, IEEE, Inter. Conf. of ICIIBMS 2015, Okinawa, Japan.
[18] Pigliuci M. (2009) “The end of theory in science ?” Eur.Mol.Bio.Org. Rep.10(6): 534.
[19] Piskorsky J. , P.Guzik (2007) “Geometry of Poincaré plot of RR intervals and its asymetry in healthy adults”, Physio.Meas. 28: 287-300.
[20] van Fraassen B.C. (2012) “Modeling and measurement: the criterion of critical grounding”, Phil. Sci. 79: 773-784.
[21] Schwartzman S. (1994), The words of mathematics: An etymological dictionary of mathematical terms used in English, American Mathematics Society, USA.
[22] Sober E. (2002) “What is the problem of simplicity”, Simplicity, Inference and economic modeling, Cam.Univ.Press
[23] Sober E. (1981) “The principle of parcimony”, Brit. J. Phil. Sci. 32:145-156.
[24] Sober E. (2015) Ockhams razor: a users manual, Cam. Univ. Press.
[25] Suppes P. (1962) “Models of data”, Proc. Inter. Con 1960: Log. Meth. Phil. Sci. 57: 252-261
[26] Taleb N.N. (2007) The black swan: the impact of the highly improbable, Random House, USA
[27] Tayel M.B, E.I. Al Saba (2015) “Poincaré plot for heart rate variability”, Inter. J. of Medical, Health, Biomedical, Bioengineering and Pharmaceutical Engineering 9(9): 708-711.
[28]  Voss A., S. Schulz, R. Schroeder, M. Baumer, P. Camina (2009), “Methods derived from nonlinear dynamics for analysing heart rate variability”, Phil.Trans. R. Soc. A 367:277-296.
[29] Weekley E.(1921), An etymological dictionary of modern English, John Murray-Albermale Street, London.
[30] Yu, C. H., J.T. Behrens (1995). “Applications of scientific multivariate visualization to behavioral sciences”. Behav.Res. Meth, Inst, and Comp., 2: 264-271.

BÀI VIẾT LIÊN QUAN
XEM THÊM

DANH MỤC

THÔNG BÁO