ChatGPT sắp đủ tài để trở thành bác sĩ. Điều này có ý nghĩa gì đối với AI và bác sĩ?

Kỳ thi Cấp phép Y tế Hoa Kỳ (USMLE) là một kỳ thi khó vượt qua nhất ở Hoa Kỳ, được yêu cầu đối với tất cả sinh viên y khoa và bác sĩ muốn làm việc với tư cách là người hành nghề y được cấp phép trong nước. Tuy nhiên, một nghiên cứu gần đây đã cho thấy rằng ChatGPT, một mô hình ngôn ngữ lớn phổ biến, đã đạt điểm đủ tốt để vượt qua USMLE. Nghiên cứu này đã trích xuất các câu hỏi từ kỳ thi và thực hiện bài kiểm tra USMLE ba bước bằng ChatGPT. Kết quả thử nghiệm cho thấy ChatGPT đạt được độ chính xác từ 52,4 đến 75%, gần 60% số điểm cần thiết để vượt qua kỳ thi. Mặc dù ChatGPT không thể thay thế bác sĩ, nó có thể giúp sinh viên y khoa dễ dàng hiểu các chủ đề phức tạp hơn và chuẩn bị ghi chú cho các kỳ thi. Tương lai của AI trong giáo dục y tế và chăm sóc sức khỏe vẫn cần được đánh giá và cải thiện để đảm bảo tương tác lành mạnh giữa con người và AI.
Kỳ thi Cấp phép Y tế Hoa Kỳ (USMLE) là một trong những kỳ thi khó vượt qua nhất ở Hoa Kỳ. Kỳ thi ba bước này là bắt buộc đối với tất cả sinh viên y khoa và bác sĩ muốn làm việc với tư cách là người hành nghề y được cấp phép trong nước.
Nhưng chờ đã, nếu con người có thể trở thành bác sĩ được cấp phép bằng cách vượt qua kỳ thi này, liệu AI có thể làm điều tương tự không?
Hóa ra, ChatGPT, AI giật gân “hãy hỏi tôi bất cứ điều gì và tôi sẽ trả lời như một con người” đã đạt điểm đủ tốt để vượt qua USMLE.
Trong một nghiên cứu được công bố gần đây, một nhóm các nhà nghiên cứu tại công ty khởi nghiệp chăm sóc sức khỏe AnsibleHealth có trụ sở tại California đã yêu cầu ChatGPT thực hiện bài kiểm tra USMLE ba bước. Thật thú vị, mô hình ngôn ngữ lớn phổ biến (LLM) có thể đạt được điểm từ 52,4 đến 75%, gần 60% số điểm cần thiết để vượt qua kỳ thi. Nói cách khác, nó đôi khi vượt qua kỳ thi, đôi khi trượt, nhưng luôn gần như vượt qua.
Nhận xét về những phát hiện này, Nello Cristianini, một chuyên gia về AI tại Đại học Bath, người không tham gia vào nghiên cứu, cho biết:
“Tại Hoa Kỳ, các Bác sĩ có bằng Tiến sĩ Y khoa (MD) bắt buộc phải vượt qua USMLE để được cấp phép y tế. Độ chính xác phân phối tối thiểu là 60% (và tỷ lệ phân phối dường như trên 90%. Phần mềm chatGPT đạt được độ chính xác phân phối “gần” (có nghĩa là ít hơn) trong hầu hết các cài đặt, nhưng nó gần và nằm trong phạm vi phân phối đối với một số tác vụ.”
bác sĩ sẽ gặp bạn bây giờ
Các nhà nghiên cứu đã trích xuất các câu hỏi có sẵn công khai từ kỳ thi USMLE tháng 6 năm 2022 và sau đó loại bỏ 26 câu hỏi dựa trên hình ảnh khỏi chúng. Sau đó, họ thực hiện bài kiểm tra ChatGPT ba bước USMLE bao gồm tổng cộng 350 câu hỏi. Kết quả thử nghiệm khá ấn tượng.
“Chúng tôi thấy rằng ChatGPT đã hoạt động ở hoặc gần ngưỡng vượt qua độ chính xác 60%. Là người đầu tiên đạt được điểm chuẩn này, điều này đánh dấu một cột mốc quan trọng trong sự trưởng thành của AI. Thật ngạc nhiên, ChatGPT đã có thể đạt được những kết quả này mà không cần đầu vào cụ thể từ một huấn luyện viên con người. Hơn nữa, ChatGPT hiển thị lý luận dễ hiểu và hiểu biết lâm sàng hợp lệ, mang lại sự tự tin cao hơn về độ tin cậy và khả năng diễn giải,” các tác giả nghiên cứu cho biết.
Mô hình AI đã cung cấp những hiểu biết mới trong 88,9% câu trả lời của nó và khoảng 94% câu trả lời mà nó cung cấp có liên quan đến các câu hỏi trong bài kiểm tra. Các nhà nghiên cứu cũng so sánh kết quả với PubMedGPT, một chương trình AI giống như ChatGPT do Đại học Stanford phát triển dành riêng để trả lời các câu hỏi liên quan đến y tế.
Mặc dù PubMedGPT đã được đào tạo bằng cách cung cấp tất cả thông tin liên quan đến tài liệu y sinh, nhưng nó chỉ có thể đạt 50,8% trong USMLE so với ChatGPT đạt trên 52,4%. Những kết quả này ngụ ý rằng trong tương lai, mô hình ngôn ngữ này có thể đóng một vai trò quan trọng trong cả giáo dục y tế và thực hành lâm sàng.
“Đây là một kỳ tích ấn tượng và chúng ta nên kỳ vọng sẽ thấy nhiều đột phá như vậy về AI trong tương lai. Tuy nhiên, có một lưu ý là Kỳ thi Cấp phép Y tế Hoa Kỳ được thiết kế để gây khó cho con người chứ không phải cho máy móc; có nhiều lĩnh vực mà con người hiệu quả hơn nhiều so với AI (như điều hướng một không gian lộn xộn hoặc diễn giải các tín hiệu xã hội). Sự vượt trội của con người này sẽ không tồn tại mãi mãi; Một ngày nào đó, AI sẽ tốt hơn chúng ta ở hầu hết mọi nhiệm vụ”, TS. Stuart Armstrong, nhà nghiên cứu AI và đồng sáng lập Aligned AI (ông không phải là tác giả của nghiên cứu).
Vậy điều đó có nghĩa là ChatGPT đã sẵn sàng trở thành bác sĩ của bạn?
Đối với con người, nếu họ vượt qua kỳ thi thì có, họ có đủ điều kiện để hành nghề hoặc theo đuổi một con đường sự nghiệp nhất định. Nhưng điều này không có nghĩa tương tự đối với AI – hoàn toàn không.
Kỳ thi này rất khó, và nhiều người đã vượt qua. Chỉ bằng cách vượt qua kỳ thi dành cho con người, một thuật toán mới không thể được coi là đủ tiêu chuẩn để làm việc như một bác sĩ.
Ví dụ, các kỳ thi y tế như USMLE kiểm tra kiến thức cần thiết để hành nghề y nhưng không kiểm tra các thuộc tính như sự đồng cảm, thái độ quan tâm, khả năng thực hiện dưới áp lực, lòng nhân đạo, kỹ năng ra quyết định, v.v. ChatGPT có thể có kiến thức nhưng nó không thể thay thế bác sĩ.
Hơn nữa, AI không có hiểu biết thực sự về những gì nó đang nói. Nó chỉ là một công cụ dự đoán văn bản, tạo nội dung từ đầu vào của nó. Nhưng chỉ vì nó không có những gì cần thiết để trở thành một bác sĩ không có nghĩa là nó vô dụng. Đối với người mới bắt đầu, nó chắc chắn có thể giúp các bác sĩ và sinh viên y khoa và tiết kiệm rất nhiều thời gian.
Ví dụ: nhóm tại AnsibleHealth đã sử dụng ChatGPT để viết lại và quản lý “các báo cáo nặng về biệt ngữ” của họ để bệnh nhân dễ hiểu. Điều này đã giúp nhân viên của họ giao tiếp với bệnh nhân dễ dàng hơn. Ngoài ra, ChatGPT cũng có thể giúp sinh viên y khoa dễ dàng hiểu các chủ đề phức tạp hơn và chuẩn bị ghi chú cho các kỳ thi.
“Ngoài tiện ích cho giáo dục y tế, AI hiện được định vị sẽ sớm trở nên phổ biến trong thực hành lâm sàng, với các ứng dụng đa dạng trên tất cả các lĩnh vực chăm sóc sức khỏe. Một số lượng lớn các nghiên cứu thực tế và quan sát hỗ trợ vai trò linh hoạt của AI trong hầu hết các ngành và chuyên khoa y tế bằng cách cải thiện đánh giá rủi ro, giảm dữ liệu, hỗ trợ quyết định lâm sàng, hiệu quả hoạt động và giao tiếp với bệnh nhân”, các tác giả nghiên cứu cho biết.
Tuy nhiên, trước khi các nhà hoạch định chính sách đưa các mô hình AI như vậy vào giáo dục y tế và chăm sóc sức khỏe, họ sẽ phải đưa ra các quy tắc, quy định và cơ sở hạ tầng phù hợp để đảm bảo các tương tác lành mạnh giữa con người và AI. Trong khi đó, mô hình AI cũng cần được cải thiện hơn nữa để có thể mang lại kết quả đầu ra tốt hơn và chính xác hơn.
Nghiên cứu hiện tại không hoàn hảo, nó có một số hạn chế bao gồm kích thước đầu vào nhỏ mà họ đã sử dụng để kiểm tra hiệu suất của ChatGPT. Các nhà nghiên cứu có kế hoạch khắc phục tất cả những hạn chế như vậy trong các công trình nghiên cứu về ChatGPT và AI trong tương lai của họ.
Nghiên cứu được công bố trên tạp chí Sức khỏe kỹ thuật số PLOS.