Một nghiên cứu nhỏ gần đây đã chỉ ra rằng các bác sĩ, ngay cả khi được hỗ trợ bởi chatbot AI, vẫn không thể đưa ra những chẩn đoán chính xác bằng cách mà chatbot AI tự thực hiện.
Nhu cầu ứng dụng máy tính vào chẩn đoán bệnh đã có từ thế kỉ trước
Câu chuyện về việc các nhà khoa muốn sử dụng máy tính như một bác sĩ đã tồn tại từ những năm 1950. Họ bắt đầu bằng câu hỏi: các bác sĩ chẩn đoán bệnh như thế nào? Trên thực tế, không ai có thể hoàn toàn hiểu rõ quá trình này. Nói một cách khác, giờ anh em thử yêu cầu bác sĩ chia sẻ lý do, từng bước giải thích cách chẩn đoán thì nhiều khả năng họ sẽ gặp khó khăn. Câu trả lời thường liên quan đến trực giác và kinh nghiệm, nhưng việc giải thích chi tiết từng bước là một thách thức.
Vào năm 1970, Khoa Khoa học Máy tính tại Đại học Pittsburgh đã mời tiến sĩ Jack Myers, một bác sĩ nổi tiếng với khả năng chẩn đoán xuất sắc và trí nhớ siêu phàm, tham gia vào dự án phát triển hệ thống chẩn đoán máy tính. Tiến sĩ Myers được yêu cầu phân tích chi tiết các bệnh án và mô tả cách ông tư duy khi đưa ra chẩn đoán. Từ đó, các nhà khoa học đã chuyển đổi cách suy nghĩ của ông thành logic máy tính và tạo ra hệ thống INTERNIST-1. Hệ thống này bao gồm thông tin về hơn 500 căn bệnh và 3.500 triệu chứng khác nhau.
Mặc dù thử nghiệm ban đầu của INTERNIST-1 cho kết quả tích cực, hệ thống này không bao giờ thực sự thành công do khó sử dụng và mất nhiều thời gian để nhập liệu. Hơn nữa, khả năng cập nhật kiến thức hạn chế khiến độ tin cậy của hệ thống giảm dần theo thời gian.
Trong những năm 1990, hàng loạt ứng dụng tương tự đã được phát triển nhưng không thành công. Các hệ thống này không thân thiện với người dùng. Ngoài ra, các bác sĩ còn là một tác nhân khi họ không tin tưởng sử dụng chúng. Điều này dẫn đến một câu hỏi mới: liệu việc mô phỏng cách bác sĩ chẩn đoán có thực sự cần thiết? Quan điểm rằng máy tính phải bắt chước con người dần bị thay thế bởi ý tưởng tận dụng những điểm mạnh riêng của máy tính. Mặc dù máy tính không thể giải thích chi tiết quá trình ra quyết định như con người, chúng có thể cung cấp kết quả chính xác – yếu tố then chốt làm nên giá trị của chúng.
Sự ra đời của ChatGPT là một minh chứng cho quan điểm này. Chatbot AI như ChatGPT không cần phải mô phỏng quy trình tư duy của bác sĩ mà vẫn có thể đưa ra các chẩn đoán chính xác nhờ khả năng dự đoán ngôn ngữ từ thuật toán và dữ liệu huấn luyện khổng lồ. Với giao diện thân thiện và khả năng tương tác cao, ChatGPT trở thành công cụ hỗ trợ mạnh mẽ cho bác sĩ. Nhưng liệu ChatGPT hay các chatbot AI có thể vượt qua các bác sĩ trong việc chẩn đoán bệnh?
Nghiên cứu so sánh khả năng chẩn đoán của bác sĩ và chatbot AI
Một nghiên cứu nhỏ do các bác sĩ nội trú tại Trung tâm Y tế Beth Israel Deaconess ở Boston thực hiện đã so sánh khả năng chẩn đoán giữa ba nhóm:
- Bác sĩ tự chẩn đoán.
- ChatGPT tự chẩn đoán.
- Bác sĩ sử dụng ChatGPT để hỗ trợ.
Nghiên cứu bao gồm 50 bác sĩ từ các bệnh viện hàng đầu của Mỹ. Họ được yêu cầu đưa ra ba chẩn đoán cho mỗi trường hợp bệnh án, giải thích lý do và cung cấp bằng chứng cho mỗi quyết định. Cuối cùng, họ phải đưa ra chẩn đoán cuối cùng và đề xuất phương án điều trị tiếp theo.
Điểm đặc biệt của nghiên cứu này là sử dụng 105 bệnh án từ những năm 1990 chưa từng được công bố trên các tạp chí khoa học nhằm đảm bảo tính khách quan – không có bác sĩ nào từng đọc qua các bệnh án này trước đó và ChatGPT cũng chưa được huấn luyện với dữ liệu này.
Kết quả bất ngờ: chatbot AI có khả năng chẩn đoán tốt hơn các bác sĩ
Kết quả nghiên cứu gây bất ngờ khi ChatGPT đạt độ chính xác trung bình lên đến 90% trong việc phân tích các bệnh án và cung cấp giải thích rõ ràng về quá trình phân tích của nó. Trong khi đó, nhóm bác sĩ sử dụng ChatGPT chỉ đạt mức chính xác trung bình 76%, còn nhóm bác sĩ tự chẩn đoán mà không có sự hỗ trợ của chatbot thì kết quả còn thấp hơn.
Điều này cho thấy rằng chatbot AI vượt trội hơn so với cả việc các bác sĩ tự vận hành hoặc khi họ sử dụng chatbot làm công cụ hỗ trợ. Tiến sĩ Rodman – người tham gia thiết kế nghiên cứu – ban đầu kỳ vọng rằng sự kết hợp giữa bác sĩ và chatbot sẽ mang lại kết quả tốt nhất, nhưng kết quả lại đi ngược lại kỳ vọng của ông.
Điều này cho thấy rằng chatbot AI thể hiện tốt hơn so với việc các bác sĩ vận hành độc lập hay cả khi có sự trợ giúp của chatbot. Và kì vọng của tiến sĩ Rodman về việc AI trở thành công cụ hỗ trợ đắc lực cho bác sĩ vẫn còn một chặng đường dài để hoàn thành.
Tiến sĩ Rodman đã thử tìm hiểu lý do tại sao các bác sĩ lại có hiệu suất đánh giá thấp như vậy dù có sự trợ giúp của Chatbot. Ông thử tra cứu cách họ tương tác với ChatGPT thì nhận ra rằng nhiều bác sĩ tỏ ra hoài nghi về độ tin cậy của ChatGPT khi nó đưa ra những thông tin khác biệt với nhận định cá nhân của họ. Khi đó, họ thường có xu hướng ngó lơ những nhận định này. Điều này, theo nhiều nhà khoa học thì hoàn toàn dễ hiểu vì con người thường có xu hướng tự tin thái quá với những điều họ cho rằng họ đúng.
Ngoài ra, nhiều bác sĩ chưa biết cách khai thác tối đa tiềm năng của chatbot AI. Họ chủ yếu xem ChatGPT như một công cụ tìm kiếm thông tin thay vì như một trợ lý tương tác thông minh. Chỉ một số ít bác sĩ biết cách tận dụng tối đa khả năng của ChatGPT bằng cách nhập toàn bộ bệnh án vào hệ thống để nhận phân tích chi tiết và khách quan về tình trạng bệnh.