(Tiếp theo Phần 2)
4. Kết quả
Chúng tôi trình bày hiệu suất của tất cả tác nhân chẩn đoán trên SDBench trong Hình 7. Mỗi điểm biểu thị hiệu suất của một tác nhân AI, với độ chính xác chẩn đoán được vẽ trên biểu đồ so với chi phí tích lũy trung bình. Các tác nhân AI được đánh giá trên tất cả 304 ca bệnh của NEJM (bao gồm 56 ca trong tập dữ liệu thử nghiệm), trong khi hiệu suất của bác sĩ chỉ được hiển thị cho 56 ca bệnh trong tập dữ liệu thử nghiệm được giữ lại.
Hình 9 cho thấy các đường biên Pareto tương ứng được tính toán trên tập dữ liệu thử nghiệm, và chỉ ra rằng các tác nhân AI có xu hướng hoạt động tốt hơn trên tập hợp con này so với toàn bộ 304 ca bệnh.
Hình 7. Đường biên Pareto cho thấy độ chính xác chẩn đoán so với chi phí y tế tích lũy trung bình cho mỗi tác nhân. Mỗi xét nghiệm được chỉ định trên hành trình chẩn đoán sẽ được cộng vào tổng chi phí. Các mô hình thương mại tiêu chuẩn được đánh giá bằng một câu lệnh cơ bản đồng nhất (xem Hình 4). MAI-DxO, được xây dựng trên mô hình o3, đạt được sự thống trị Pareto so với cả các mô hình thương mại tiêu chuẩn và các bác sĩ đang hành nghề, nghĩa là, ở mọi mức chi phí, MAI-DxO đều đạt được độ chính xác cao hơn các giải pháp khác.
Hiệu suất các mô hình thương mại tiêu chuẩn. Đường biên Pareto cho các mô hình có sẵn dao động từ độ chính xác khiêm tốn (30-50%) với số lượng xét nghiệm tối thiểu đến độ chính xác 70-79% với số lượng xét nghiệm lớn (chi phí 4.000−7.900 USD). Mặc dù một số mô hình vượt trội hơn các mô hình khác (Gemini-2.5-Pro có độ chính xác cao hơn Claude-4 Sonnet và Opus, với chi phí thấp hơn), có một sự tương quan giữa độ chính xác chẩn đoán và chi phí, đặc biệt đối với các mô hình lập luận. Mô hình o3 thương mại tiêu chuẩn đạt độ chính xác cao nhất là 78,6%, nhưng cũng gây ra chi phí cao nhất là 7.850 USD cho mỗi ca bệnh.
Sự tương quan này chỉ ra rằng việc thu thập thông tin vẫn rất quan trọng đối với chẩn đoán ngay cả với các hệ thống AI tiên tiến nhất và củng cố tầm quan trọng của việc thu thập thông tin như một năng lực chính khi đánh giá các mô hình với vai trò tác nhân chẩn đoán. Hơn nữa, điều này cho thấy các mô hình lập luận có năng lực cao hơn sẽ thành thạo hơn trong việc đánh giá sự phức tạp của ca bệnh, tạo ra một tập hợp chẩn đoán phân biệt rộng hơn và chỉ định nhiều xét nghiệm hơn để xác nhận hoặc loại trừ các khả năng. Trong khi đó, các mô hình yếu hơn đạt được một sự tiết kiệm sai lầm bằng cách xem xét ít chẩn đoán phân biệt khả dĩ hơn, do đó không bao giờ chỉ định các xét nghiệm để xác nhận hoặc loại trừ chúng.
Hiệu suất của bác sĩ
Mỗi bác sĩ hoàn thành trung bình 36 ca bệnh, cung cấp tổng cộng 764 chẩn đoán của con người trên 56 ca bệnh trong tập dữ liệu thử nghiệm. Trung bình, các bác sĩ dành 11,8 phút cho mỗi ca, yêu cầu 6,6 câu hỏi và 7,2 xét nghiệm, dẫn đến chi phí trung bình là 2.963 USD. Độ chính xác chẩn đoán trung bình của họ là 19,9%. Tương tự như ở các mô hình ngôn ngữ, chúng tôi quan sát thấy một sự tương quan giữa độ chính xác chẩn đoán và chi phí phát sinh, mặc dù phương saiđối với các bác sĩ cao hơn. Ngay cả bác sĩ có độ chính xác chẩn đoán cao nhất (41%) cũng bị GPT-4o vượt qua cả về độ chính xác và chi phí. Chúng tôi lưu ý một lần nữa rằng các ca bệnh của NEJM được lựa chọn vì độ khó và tiềm năng giảng dạy, do đó không ngạc nhiên khi các bác sĩ cảm thấy chúng khó.
Hiệu suất của Bộ Điều phối chẩn đoán MAI
Đường cong màu xanh da trời trong Hình 7 biểu thị các chế độ hoạt động khác nhau của MAI-DxO, cho phép điều hướng chính xác sự đánh đổi giữa độ chính xác và chi phí. MAI-DxO thiết lập một đường biên Pareto mới, vượt trội hơn các mô hình thương mại tiêu chuẩn và các bác sĩ ở mọi mức chi phí hoặc độ chính xác. Chúng tôi sử dụng o3 làm mô hình cho mọi cấu hình MAI-DxO trong suốt Hình 7, vì chi phí suy luận của mô hình (≈0,15 mỗi ca) là không đáng kể so với chi phí xét nghiệm chẩn đoán, khiến cho việc tối ưu hóa tính toán phần lớn không còn phù hợp trong bối cảnh chi phí chẩn đoán lâm sàng.
Cấu hình MAI-DxO tiêu chuẩn (không có ngân sách) đã chứng tỏ hiệu quả đặc biệt. Khi áp dụng cho o3, nó đạt độ chính xác 81,9% (so với 78,6% của o3 thương mại tiêu chuẩn) trong khi giảm chi phí xét nghiệm trung bình xuống còn 4.735 (từ 7.850)USD. Sự cải thiện đồng thời ở cả hai chỉ số này cho thấy rằng lý luận có cấu trúc giúp giảm thiểu sự đánh đổi giữa độ chính xác và chi phí vốn tồn tại ở các mô hình có sẵn và các bác sĩ. Như dự đoán, việc thêm các ràng buộc ngân sách đã làm giảm đáng kể chi phí, với độ chính xác giảm dần khi ngân sách bị cắt giảm. Đáng chú ý, một cấu hình đạt độ chính xác 79,9% với chi phí thấp là 2.396 USD. Ở đầu kia của phổđã có thể cải thiện độ chính xác lên đến 85,5% bằng kỹ thuật tổ hợp, trong khi vẫn giữ chi phí ở mức 7.184 USD(so với 7.850 USD của o3).
Chúng tôi đã kiểm tra thủ công nhiều ca bệnh mà MAI-DxO (không có ngân sách) không đồng ý với mô hình o3 thương mại tiêu chuẩn với câu lệnh cơ bản. Trong những trường hợp này, MAI-DxO thường tìm kiếm bằng chứng phản bác và thay đổi hướng chẩn đoán của mình (nhờ vào việc theo dõi giả thuyết rõ ràng của Bác sĩ Giả thuyết và vai trò phản biện của Bác sĩ Phản biện), trong khi mô hình o3 thương mại tiêu chuẩn dường như neo đậu vào những ấn tượng ban đầu. Hơn nữa, mô hình cơ bản dường như thiếu một lý thuyết về giá trị thông tin, chỉ định các xét nghiệm "hợp lý" dựa trên chẩn đoán phân biệt hiện tại, thay vì các xét nghiệm giúp giảm thiểu sự không chắc chắn trong chẩn đoán một cách tối đa trên mỗi USD chi tiêu.
Bác sĩ Quản lý của MAI-DxO không từ chối thẳng thừng các xét nghiệm đắt tiền, mà buộc hội đồng phải đặt câu hỏi liệu thông tin tương tự có thể được thu thập với chi phí thấp hơn hay không (đặc biệt là bằng cách đặt câu hỏi cho bệnh nhân). Ví dụ, một ca bệnh cụ thể có một bệnh nhân nhập viện vì hội chứng cai rượu đã uống dung dịch rửa tay sát khuẩn, dẫn đến ngộ độc. Mô hình o3 thương mại tiêu chuẩn tập trung cố định vào độc tính của kháng sinh, chỉ định các chẩn đoán hình ảnh đắt tiền (bao gồm MRI não và điện não đồ), và cuối cùng đưa ra một chẩn đoán không chính xác với chi phí cao là 3.431 USD. Ngược lại, Bác sĩ Giả thuyết đã chỉ ra sự cần thiết phải xem xét các phơi nhiễm độc chất trong bệnh viện dựa trên yếu tố thời gian ngay từ vòng đầu tiên, và hội đồng đã hỏi về việc uống dung dịch rửa tay sát khuẩn trước khi chỉ định xét nghiệm. Câu hỏi trực tiếp này đã dẫn đến lời thú nhận của bệnh nhân, giúp thực hiện xét nghiệm xác nhận có mục tiêu (bảng xét nghiệm độc chất cồn cho thấy acetone tăng cao) và đưa ra chẩn đoán chính xác với tổng chi phí chỉ 795 USD.
MAI-DxO đã cải thiện tất cả các mô hình thương mại tiêu chuẩn.
Hình 8. Mức độ cải thiện độ chính xác do MAI-DxO (không có ràng buộc ngân sách) mang lại trên các mô hình ngôn ngữ lớn khác nhau. Dấu hoa thị chỉ ra ý nghĩa thống kê.
Mặc dù MAI-DxO chủ yếu được phát triển bằng GPT-4.1, phương pháp lý luận có cấu trúc của nó đã chứng tỏ khả năng không phụ thuộc vào mô hình một cách đáng kể. Hình 8 cho thấy MAI-DxO cải thiện độ chính xác chẩn đoán một cách nhất quán trên tất cả mô hình nền tảng đủ năng lực, với mức cải thiện đặc biệt rõ rệt đối với các mô hình cơ bản yếu hơn, cho thấy khung làm việc này giúp các mô hình yếu hơn vượt qua những hạn chế của chúng thông qua lý luận có cấu trúc. Chúng tôi đã tính toán ý nghĩa thống kê của tất cả các mức tăng độ chính xác trong Hình 8 bằng kiểm định hoán vị cặp một phía với 10.000 mẫu tái lập.
Mức tăng đối với MAI-DxO (không có ngân sách) có ý nghĩa thống kê đối với tất cả các mô hình, ngoại trừ o3 và o4-mini vốn đã có mức giảm chi phí rất đáng kể so với mô hình cơ bản (p<0,005). Mức tăng độ chính xác có ý nghĩa cũng được quan sát thấy đối với o3 với MAI-DxO (tổ hợp).
Sự hội tụ này có khả năng phản ánh cách MAI-DxO bù đắp cho các loại điểm yếu khác nhau của mô hình. Đối với các mô hình kém năng lực hơn, việc duy trì rõ ràng một danh sách chẩn đoán phân biệt và lựa chọn xét nghiệm có hệ thống cung cấp một bộ khung hỗ trợ cho việc lý luận y khoa mà chúng phải vật lộn khi tự thực hiện. Hội đồng bác sĩ ảo ngăn chặn các lỗi phổ biến như kết luận sớm hoặc bỏ sót các bệnh hiếm gặp.
Đối với các mô hình có năng lực hơn, MAI-DxO dường như áp đặt một kỷ luật hữu ích, đảm bảo các chẩn đoán phân biệt toàn diện, giảm thiên kiến neo đậu, và khuyến khích việc chỉ định xét nghiệm có ý thức về chi phí. Với câu lệnh cơ bản, đơn giản, chúng tôi giả thuyết rằng các mô hình có thể dựa vào các tập hợp thiên kiến quy nạp được đưa vào trong giai đoạn sau huấn luyện để chuẩn bị chúng cho các mục đích sử dụng chung. Việc áp dụng MAI-DxO có thể giúp ghi đè hoặc định hướng lại các thiên kiến quy nạp này.
Điều thú vị là nhận thấy rằng mức tăng độ chính xác chẩn đoán thô đối với các mô hình lý luận của OpenAI là khiêm tốn hơn, có lẽ vì hiệu suất cơ bản của chúng đã cao. Tuy nhiên, MAI-DxO đã có thể cải thiện đáng kể hiệu quả chi phí của chúng, như được minh họa bằng hiệu suất của o3 trong Hình 7.
Các kết quả đều vững chắc trên các khoảng phân chia tập dữ liệu khác nhau
Hình 9. Các đường biên Pareto của MAI-DxO và câu lệnh cơ bản trên dữ liệu thẩm định và dữ liệu thử nghiệm được giữ lại. MAI-DxO tiếp tục cho thấy sự cải thiện đáng kể về hiệu suất trên các ca bệnh CPC của NEJM được công bố sau thời điểm cắt dữ liệu huấn luyện của mô hình,là thời điểm cuối cùng mà một mô hình AI được tiếp nhận dữ liệu huấn luyện), và do đó có thể chứng minh là nằm ngoài kho dữ liệu huấn luyện.
Như đã lưu ý trước đó, 56 ca bệnh CPC gần đây nhất được công bố từ2024-2025 đã được giữ hoàn toàn ẩn đối với nhóm phát triển như một "tập dữ liệu thử nghiệm" và không có biến thể nào được chạy trên chúng cho đến khi các phương pháp luận được hoàn thiện. Việc phân chia dữ liệu theo cách này là một thông lệ phổ biến để đo lường và ngăn chặn hiện tượng khớp quá mức (overfitting), trong đó một hệ thống không thể tổng quát hóa ngoài phạm vi dữ liệu được sử dụng trong quá trình huấn luyện hoặc thẩm định.
Hiệu suất tốt trên một tập dữ liệu thử nghiệm được giữ lại làm tăng sự tin cậy vào khả năng tổng quát hóa của hệ thống. Mặc dù MAI-DxO không được cập nhật trọng sốcủa mô hình (thay vào đó dựa vào câu lệnh và sự điều phối), các lựa chọn thiết kế hệ thống vẫn có thể vô tình bị khớp quá mức với các ca bệnh được sử dụng trong quá trình thẩm định. Việc phân chia tập huấn luyện-thử nghiệm đặc biệt này cũng giúp kiểm tra khả năng ghi nhớ tiềm tàng. Mặc dù các ca bệnh của NEJM được bảo vệ sau một tường phí (paywall - là cơ chế giới hạn nội dung trên các trang web, đặc biệt là tạp chí hoặc báo điện tử, yêu cầu người dùng phải trả phí hoặc đăng ký để xem đầy đủ nội dung), vẫn có khả năng một số mô hình có sẵn đã được huấn luyện trên chúng theo một cách nào đó. Tuy nhiên, phần lớn các ca bệnh trong tập thử nghiệm xuất hiện sau thời điểm cắt dữ liệu huấn luyện của các mô hình mà chúng tôi báo cáo.
Trong Hình 9, chúng tôi báo cáo các đường biên Pareto được phân tầng về hiệu suất của mô hình trên tập dữ liệu thẩm định (248 ca) và tập dữ liệu thử nghiệm (56 ca). Hệ thống MAI-DxO thể hiện hiệu suất tuyệt đối tương đương trên tập dữ liệu thử nghiệm, với những cải thiện tương đối so với các mô hình thương mại tiêu chuẩn được duy trì ở cả độ chính xác chẩn đoán và hiệu quả chi phí. Những kết quả này cho thấy rằng các mức tăng hiệu suất là vững chắc và không bị chi phối bởi các hiệu ứng ghi nhớ.
5. Bàn luận
Chúng tôi giới thiệu SDBench, một bộ tiêu chuẩn chuyển đổi 304 ca bệnh CPC của Tạp chí Y học New England thành các thử thách chẩn đoán tương tác, nhiềuvòng. Không giống như các tiêu chuẩn y khoa tĩnh cung cấp tất cả thông tin ngay từ đầu, SDBench phản ánh sát hơn thực hành lâm sàng trong thực tế: Các nhà chẩn đoán bắt đầu với thông tin tối thiểu và phải chủ động quyết định nên hỏi câu nào, chỉ định xét nghiệm nào và khi nào đưa ra chẩn đoán cuối cùng, với mỗi quyết định đều phát sinh chi phí thực tế.
Thông qua kỹ thuật xây dựng cẩn thận, bao gồm một Người gác cổng có thể tổng hợp các kết quả hợp lý cho các xét nghiệm không được mô tả trong ca bệnh gốc và một Người phán quyết được thẩm định lâm sàng để đánh giá độ chính xác chẩn đoán, chúng tôi giới thiệu một môi trường đánh giá vững chắc cho việc lý luận lâm sàng tuần tự.Trong khuôn khổ này, chúng tôi trình bày MAI-DxO, một hệ thống mô phỏng các hội đồng gồm các vai trò lâm sàng khác nhau để quyết định nên yêu cầu câu hỏi hoặc xét nghiệm nào. MAI-DxO đã cải thiện đáng kể độ chính xác chẩn đoán vượt xa các mô hình thương mại tiêu chuẩn mạnh mẽ, đồng thời giảm chi phí xét nghiệm tích lũy trong SDBench, qua đó thiết lập một đường biên Pareto mới giữa độ chính xác và chi phí y tế.
5.1. Lý giải hiệu suất siêu phàm
Khi các bác sĩ bắt đầu sự nghiệp, họ phải đối mặt với một quyết định quan trọng: nên trở thành bác sĩ đa khoa, với kiến thức rộng trên nhiều lĩnh vực y học, hay bác sĩ chuyên khoa, với chuyên môn sâu trong một lĩnh vực hẹp? Sự phân chia này là cần thiết vì y học quá rộng lớn để bất kỳ cá nhân nào có thể nắm vững toàn bộ. Để quản lý sự phức tạp này, các hệ thống chăm sóc sức khỏe dựa vào sự cộng tác: bác sĩ đa khoa và bác sĩ chuyên khoa làm việc cùng nhau trong các phòng khám và bệnh viện, kết hợp kiến thức và kỹ năng ra quyết định đa dạng và bổ trợ cho nhau để cung cấp cho bệnh nhân sự chăm sóc toàn diện và hiệu quả mà họ cần.
Ngày nay, các mô hình ngôn ngữ AI tiên phong đang thách thức cấu trúc truyền thống này. Các hệ thống tiên tiến này cho thấy tính linh hoạt đáng kể, thể hiện sự hiểu biết y khoa vừa rộng vừa sâu, và khả năng bác học để lý luận xuyên suốt nhiều chuyên khoa. Trên thực tế, chúng kết hợp phạm vi của bác sĩ đa khoa với chiều sâu của bác sĩ chuyên khoa. Kết quả là, chúng vượt trội đáng kể so với các bác sĩ cá nhân trong các vấn đề chẩn đoán phức tạp, chẳng hạn như những vấn đề được nêu trong các ca bệnh CPC của NEJM. Những phát hiện của chúng tôi đã làm nổi bật khả năng ấn tượng này. Việc mong đợi bất kỳ một bác sĩ nào có thể nắm vững toàn bộ các ca bệnh như vậy là không thực tế.
Hãy xem xét, ví dụ, một ca ung thư phức tạp chưa được chẩn đoán. Vai trò của một bác sĩ chăm sóc ban đầu là đưa ra các giả thuyết ban đầu và giới thiệu bệnh nhân đến bác sĩ chuyên khoa ung thư phù hợp để tiến hành quá trình chẩn đoán chuyên sâu hơn. Bác sĩ chuyên khoa sau đó sẽ giám sát các xét nghiệm chẩn đoán nâng cao để đi đến chẩn đoán xác địnhnhững bước mà bác sĩ đa khoa thường không quản lý.Điều này đặt ra một câu hỏi thú vị: Khi đánh giá các hệ thống AI tiên phong, chúng ta nên so sánh chúng với các bác sĩ cá nhân, hay với toàn bộ các đội ngũ y tế trong bệnh viện bao gồm bác sĩ đa khoa và chuyên khoa? Câu trả lời cho câu hỏi này sẽ giúp định nghĩa và định hình vai trò tương lai của AI trong lĩnh vực chăm sóc sức khỏe.
(Hết)
Nguồn tham khảo chính: [2506.22405] Sequential Diagnosis with Language Models
CN. Nguyễn Thái Hoàng & TS.BS. Huỳnh Hồng Quang
Viện Sốt rét-KST-CT Quy Nhơn