Mô hình Ngôn ngữ Lớn (LLM) có thể viết các bài viết thuyết phục dựa trên những từ ngữ gợi ý, vượt qua các kỳ thi năng lực chuyên môn và viết thông tin thân thiện và đồng cảm với bệnh nhân. Tuy nhiên, bên cạnh những rủi ro đã được biết đến về hư cấu, tính dễ vỡ và thông tin không chính xác trong LLM, những vấn đề chưa được giải quyết khác đang dần trở thành trọng tâm, chẳng hạn như các mô hình AI chứa đựng “giá trị nhân văn” có khả năng phân biệt đối xử trong quá trình tạo ra và sử dụng, và ngay cả khi LLM không còn bịa đặt nội dung và loại bỏ các kết quả đầu ra rõ ràng có hại, thì “giá trị LLM” vẫn có thể lệch lạc so với giá trị nhân văn.
Vô số ví dụ minh họa cách dữ liệu được sử dụng để huấn luyện các mô hình AI mã hóa các giá trị cá nhân và xã hội, những giá trị này có thể được củng cố trong mô hình. Những ví dụ này liên quan đến một loạt các ứng dụng, bao gồm giải thích tự động các bức ảnh chụp X-quang ngực, phân loại các bệnh về da và ra quyết định theo thuật toán liên quan đến việc phân bổ nguồn lực y tế. Như đã nêu trong một bài báo gần đây trên tạp chí của chúng tôi, dữ liệu huấn luyện có thiên kiến có thể khuếch đại và tiết lộ các giá trị và thiên kiến hiện diện trong xã hội. Ngược lại, nghiên cứu cũng chỉ ra rằng AI có thể được sử dụng để giảm thiên kiến. Ví dụ, các nhà nghiên cứu đã áp dụng các mô hình học sâu vào phim chụp X-quang đầu gối và phát hiện ra các yếu tố bị bỏ sót bởi các chỉ số mức độ nghiêm trọng tiêu chuẩn (do các bác sĩ X-quang phân loại) trong khớp gối, do đó làm giảm sự khác biệt về cơn đau không giải thích được giữa bệnh nhân da đen và da trắng.
Mặc dù ngày càng nhiều người nhận ra sự thiên vị trong các mô hình AI, đặc biệt là về mặt dữ liệu đào tạo, nhiều điểm đầu vào khác của các giá trị nhân văn vẫn chưa được chú trọng đúng mức trong quá trình phát triển và triển khai các mô hình AI. AI y tế gần đây đã đạt được những kết quả ấn tượng, nhưng phần lớn vẫn chưa xem xét rõ ràng các giá trị nhân văn và sự tương tác của chúng với đánh giá rủi ro và suy luận xác suất, cũng như chưa được mô hình hóa.
Để cụ thể hóa những khái niệm trừu tượng này, hãy tưởng tượng bạn là một bác sĩ nội tiết được yêu cầu kê đơn hormone tăng trưởng tái tổ hợp cho một bé trai 8 tuổi, dưới phân vị thứ 3 của độ tuổi. Nồng độ hormone tăng trưởng được kích thích của bé trai này dưới 2 ng/mL (giá trị tham chiếu >10 ng/mL, giá trị tham chiếu ở nhiều quốc gia ngoài Hoa Kỳ là >7 ng/mL), và gen mã hóa hormone tăng trưởng của bé đã phát hiện các đột biến bất hoạt hiếm gặp. Chúng tôi tin rằng việc áp dụng liệu pháp hormone tăng trưởng ở người là hiển nhiên và không thể chối cãi trong bối cảnh lâm sàng này.
Việc áp dụng liệu pháp hormone tăng trưởng ở người trong các trường hợp sau đây có thể gây tranh cãi: chiều cao của một bé trai 14 tuổi luôn nằm trong khoảng phần trăm thứ 10 so với các bạn cùng lứa tuổi và nồng độ hormone tăng trưởng ở người cao nhất sau khi kích thích là 8 ng/mL. Không có đột biến chức năng nào được biết đến có thể ảnh hưởng đến chiều cao, cũng không có nguyên nhân nào khác gây ra tình trạng lùn, và tuổi xương của bé là 15 tuổi (tức là không chậm phát triển). Chỉ một phần của tranh cãi là do sự khác biệt về giá trị ngưỡng do các chuyên gia xác định dựa trên hàng chục nghiên cứu liên quan đến nồng độ hormone tăng trưởng ở người được sử dụng để chẩn đoán tình trạng thiếu hụt hormone tăng trưởng đơn độc. Ít nhất cũng có nhiều tranh cãi bắt nguồn từ sự cân bằng giữa rủi ro và lợi ích của việc sử dụng liệu pháp hormone tăng trưởng ở người theo quan điểm của bệnh nhân, cha mẹ bệnh nhân, chuyên gia chăm sóc sức khỏe, công ty dược phẩm và bên chi trả. Các bác sĩ nội tiết nhi khoa có thể cân nhắc các tác dụng phụ hiếm gặp của việc tiêm hormone tăng trưởng hàng ngày trong 2 năm với khả năng không hoặc chỉ tăng trưởng tối thiểu về kích thước cơ thể người trưởng thành so với hiện tại. Các bé trai có thể tin rằng ngay cả khi chiều cao của chúng chỉ tăng thêm 2 cm thì việc tiêm hormone tăng trưởng vẫn đáng giá, nhưng bên chi trả và công ty dược phẩm có thể có quan điểm khác nhau.
Chúng tôi lấy eGFR dựa trên creatinine làm ví dụ, đây là một chỉ số chức năng thận được sử dụng rộng rãi để chẩn đoán và phân giai đoạn bệnh thận mạn tính, xác định điều kiện ghép thận hoặc hiến thận, và xác định tiêu chuẩn giảm liều và chống chỉ định cho nhiều loại thuốc kê đơn. EGFR là một phương trình hồi quy đơn giản được sử dụng để ước tính mức lọc cầu thận đo được (mGFR), vốn là một tiêu chuẩn tham chiếu, nhưng phương pháp đánh giá tương đối phức tạp. Phương trình hồi quy này không thể được coi là một mô hình AI, nhưng nó minh họa nhiều nguyên tắc về giá trị con người và lý luận xác suất.
Điểm đầu tiên để các giá trị của con người được đưa vào eGFR là khi lựa chọn dữ liệu để điều chỉnh các phương trình. Hàng đợi ban đầu được sử dụng để thiết kế công thức eGFR chủ yếu bao gồm những người tham gia da đen và da trắng, và khả năng áp dụng của nó cho nhiều nhóm dân tộc khác vẫn chưa rõ ràng. Các điểm đầu vào tiếp theo của các giá trị của con người vào công thức này bao gồm: chọn độ chính xác mGFR làm mục tiêu chính để đánh giá chức năng thận, mức độ chính xác chấp nhận được là bao nhiêu, cách đo độ chính xác và sử dụng eGFR làm ngưỡng để kích hoạt việc ra quyết định lâm sàng (chẳng hạn như xác định điều kiện ghép thận hoặc kê đơn thuốc). Cuối cùng, khi lựa chọn nội dung của mô hình đầu vào, các giá trị của con người cũng sẽ được đưa vào công thức này.
Ví dụ, trước năm 2021, các hướng dẫn đề xuất điều chỉnh mức creatinine trong công thức eGFR dựa trên độ tuổi, giới tính và chủng tộc của bệnh nhân (chỉ được phân loại là người da đen hoặc không phải da đen). Việc điều chỉnh dựa trên chủng tộc nhằm mục đích cải thiện độ chính xác của công thức mGFR, nhưng vào năm 2020, các bệnh viện lớn bắt đầu đặt câu hỏi về việc sử dụng eGFR dựa trên chủng tộc, đưa ra các lý do như trì hoãn đủ điều kiện ghép tạng của bệnh nhân và cụ thể hóa chủng tộc như một khái niệm sinh học. Nghiên cứu đã chỉ ra rằng việc thiết kế các mô hình eGFR theo chủng tộc có thể có tác động sâu sắc và khác nhau đến độ chính xác và kết quả lâm sàng; Do đó, việc tập trung chọn lọc vào độ chính xác hoặc tập trung vào một phần kết quả phản ánh các đánh giá về giá trị và có thể che giấu việc ra quyết định minh bạch. Cuối cùng, nhóm công tác quốc gia đã đề xuất một công thức mới được điều chỉnh lại mà không xem xét đến chủng tộc để cân bằng các vấn đề về hiệu suất và công bằng. Ví dụ này minh họa rằng ngay cả một công thức lâm sàng đơn giản cũng có nhiều điểm vào các giá trị của con người.
So với các công thức lâm sàng chỉ có một số ít các chỉ số dự đoán, LLM có thể bao gồm hàng tỷ đến hàng trăm tỷ tham số (trọng số mô hình) hoặc nhiều hơn, khiến việc hiểu trở nên khó khăn. Lý do chúng tôi nói "khó hiểu" là vì trong hầu hết các LLM, cách chính xác để thu thập phản hồi thông qua việc đặt câu hỏi không thể được lập bản đồ. Số lượng tham số cho GPT-4 vẫn chưa được công bố; Tiền thân của nó là GPT-3 có 175 tỷ tham số. Nhiều tham số hơn không nhất thiết có nghĩa là khả năng mạnh hơn, vì các mô hình nhỏ hơn bao gồm nhiều chu kỳ tính toán hơn (chẳng hạn như chuỗi mô hình LLaMA [Mô hình ngôn ngữ lớn Meta AI]) hoặc các mô hình được tinh chỉnh dựa trên phản hồi của con người sẽ hoạt động tốt hơn các mô hình lớn hơn. Ví dụ, theo đánh giá của con người, mô hình InstrumentGPT (một mô hình có 1,3 tỷ tham số) hoạt động tốt hơn GPT-3 trong việc tối ưu hóa kết quả đầu ra của mô hình.
Chi tiết đào tạo cụ thể của GPT-4 vẫn chưa được tiết lộ, nhưng chi tiết của các mô hình thế hệ trước, bao gồm GPT-3, InstrumentGPT và nhiều LLM nguồn mở khác, đã được công bố. Ngày nay, nhiều mô hình AI đi kèm với thẻ mô hình; dữ liệu đánh giá và bảo mật của GPT-4 đã được công bố trên một thẻ hệ thống tương tự do công ty tạo mô hình OpenAI cung cấp. Việc tạo ra LLM có thể được chia thành hai giai đoạn: giai đoạn tiền đào tạo ban đầu và giai đoạn tinh chỉnh nhằm tối ưu hóa kết quả đầu ra của mô hình. Trong giai đoạn tiền đào tạo, mô hình được cung cấp một kho ngữ liệu lớn bao gồm văn bản gốc trên Internet để huấn luyện nó dự đoán từ tiếp theo. Quá trình "hoàn thành tự động" tưởng chừng đơn giản này tạo ra một mô hình nền tảng mạnh mẽ, nhưng nó cũng có thể dẫn đến hành vi gây hại. Các giá trị của con người sẽ bước vào giai đoạn tiền đào tạo, bao gồm việc lựa chọn dữ liệu tiền đào tạo cho GPT-4 và quyết định loại bỏ nội dung không phù hợp như nội dung khiêu dâm khỏi dữ liệu tiền đào tạo. Bất chấp những nỗ lực này, mô hình cơ bản vẫn có thể không hữu ích hoặc không có khả năng chứa các kết quả đầu ra có hại. Trong giai đoạn tinh chỉnh tiếp theo, nhiều hành vi hữu ích và vô hại sẽ xuất hiện.
Trong giai đoạn tinh chỉnh, hành vi của các mô hình ngôn ngữ thường bị thay đổi sâu sắc thông qua tinh chỉnh có giám sát và học tăng cường dựa trên phản hồi của con người. Trong giai đoạn tinh chỉnh có giám sát, nhân viên nhà thầu được thuê sẽ viết các ví dụ phản hồi cho các từ gợi ý và trực tiếp đào tạo mô hình. Trong giai đoạn học tăng cường dựa trên phản hồi của con người, người đánh giá sẽ sắp xếp các kết quả đầu ra của mô hình thành các ví dụ về nội dung đầu vào. Sau đó, áp dụng các kết quả so sánh ở trên để tìm hiểu "mô hình phần thưởng" và cải thiện mô hình hơn nữa thông qua học tăng cường. Sự tham gia của con người ở mức độ thấp đáng kinh ngạc có thể tinh chỉnh các mô hình lớn này. Ví dụ, mô hình InstrumentGPT đã sử dụng một nhóm gồm khoảng 40 nhân viên nhà thầu được tuyển dụng từ các trang web crowdsourcing và đã vượt qua bài kiểm tra sàng lọc nhằm mục đích chọn ra một nhóm người chú thích nhạy cảm với sở thích của các nhóm dân số khác nhau.
Như hai ví dụ cực đoan này, cụ thể là công thức lâm sàng đơn giản [eGFR] và LLM mạnh mẽ [GPT-4], đã chứng minh, việc ra quyết định và các giá trị của con người đóng vai trò không thể thiếu trong việc định hình kết quả đầu ra của mô hình. Liệu các mô hình AI này có thể nắm bắt được các giá trị đa dạng của bệnh nhân và bác sĩ không? Làm thế nào để hướng dẫn công khai việc ứng dụng AI trong y học? Như đã đề cập dưới đây, việc xem xét lại phân tích quyết định y tế có thể cung cấp một giải pháp có nguyên tắc cho những vấn đề này.
Phân tích quyết định y khoa không quen thuộc với nhiều bác sĩ lâm sàng, nhưng nó có thể phân biệt giữa lý luận xác suất (đối với các kết quả không chắc chắn liên quan đến việc ra quyết định, chẳng hạn như có nên sử dụng hormone tăng trưởng ở người trong tình huống lâm sàng gây tranh cãi được thể hiện trong Hình 1 hay không) và các yếu tố cân nhắc (đối với các giá trị chủ quan gắn liền với các kết quả này, có giá trị được định lượng là "tiện ích", chẳng hạn như giá trị tăng 2 cm chiều cao của nam giới), cung cấp các giải pháp có hệ thống cho các quyết định y khoa phức tạp. Trong phân tích quyết định, trước tiên các bác sĩ lâm sàng phải xác định tất cả các quyết định và xác suất có thể liên quan đến từng kết quả, sau đó kết hợp tiện ích của bệnh nhân (hoặc bên khác) liên quan đến từng kết quả để lựa chọn phương án phù hợp nhất. Do đó, tính hợp lệ của phân tích quyết định phụ thuộc vào việc thiết lập kết quả có toàn diện hay không, cũng như việc đo lường tiện ích và ước tính xác suất có chính xác hay không. Về mặt lý tưởng, cách tiếp cận này giúp đảm bảo rằng các quyết định dựa trên bằng chứng và phù hợp với sở thích của bệnh nhân, do đó thu hẹp khoảng cách giữa dữ liệu khách quan và các giá trị cá nhân. Phương pháp này đã được đưa vào lĩnh vực y khoa cách đây vài thập kỷ và được áp dụng cho việc ra quyết định của từng bệnh nhân và đánh giá sức khỏe cộng đồng, chẳng hạn như đưa ra khuyến nghị sàng lọc ung thư đại trực tràng cho cộng đồng nói chung.
Trong phân tích quyết định y khoa, nhiều phương pháp khác nhau đã được phát triển để xác định tính hữu dụng. Hầu hết các phương pháp truyền thống đều lấy giá trị trực tiếp từ từng bệnh nhân. Phương pháp đơn giản nhất là sử dụng thang đánh giá, trong đó bệnh nhân đánh giá mức độ ưa thích của họ đối với một kết quả nhất định trên thang đo kỹ thuật số (chẳng hạn như thang tuyến tính từ 1 đến 10), với các kết quả sức khỏe cực đoan nhất (chẳng hạn như hoàn toàn khỏe mạnh và tử vong) nằm ở cả hai đầu. Phương pháp trao đổi thời gian là một phương pháp thường được sử dụng khác. Trong phương pháp này, bệnh nhân cần đưa ra quyết định về lượng thời gian khỏe mạnh mà họ sẵn sàng dành ra để đổi lấy một khoảng thời gian sức khỏe kém. Phương pháp đánh bạc tiêu chuẩn là một phương pháp thường được sử dụng khác để xác định tính hữu dụng. Trong phương pháp này, bệnh nhân được hỏi họ thích lựa chọn nào trong hai lựa chọn: hoặc sống một số năm nhất định trong tình trạng sức khỏe bình thường với xác suất cụ thể (p) (t), và chịu rủi ro tử vong với xác suất 1-p; Hoặc đảm bảo sống trong t năm trong các tình trạng sức khỏe chéo. Hỏi bệnh nhân nhiều lần ở các giá trị p khác nhau cho đến khi họ không còn ưa thích bất kỳ lựa chọn nào, để có thể tính toán tính hữu dụng dựa trên phản hồi của bệnh nhân.
Ngoài các phương pháp được sử dụng để thu thập sở thích cá nhân của từng bệnh nhân, các phương pháp cũng đã được phát triển để mang lại lợi ích cho nhóm bệnh nhân. Đặc biệt, các cuộc thảo luận nhóm tập trung (tập hợp bệnh nhân để thảo luận về những trải nghiệm cụ thể) có thể giúp hiểu được quan điểm của họ. Để tổng hợp hiệu quả lợi ích nhóm, nhiều kỹ thuật thảo luận nhóm có cấu trúc khác nhau đã được đề xuất.
Trên thực tế, việc áp dụng trực tiếp tiện ích vào quá trình chẩn đoán và điều trị lâm sàng rất tốn thời gian. Để giải quyết vấn đề này, bảng câu hỏi khảo sát thường được phân phối cho các nhóm dân số được chọn ngẫu nhiên để tính điểm tiện ích ở cấp độ dân số. Một số ví dụ bao gồm bảng câu hỏi 5 chiều EuroQol, bảng câu hỏi rút gọn về trọng số tiện ích 6 chiều, Chỉ số Tiện ích Y tế và công cụ Bảng câu hỏi Chất lượng Cuộc sống Cốt lõi 30 của Tổ chức Nghiên cứu và Điều trị Ung thư Châu Âu.
Thời gian đăng: 01-06-2024




