06
03-2024
Độ chính xác của Chatbot trong nhãn khoa

Một nghiên cứu ở Canada, dẫn đầu bởi tác giả Andrew Mihalache, MD, từ Trường Y khoa Temerty, Đại học Toronto, Toronto, Ontario, Canada, đã báo cáo rằng ChatGPT-4 (OpenAI) có hiệu quả tổng thể “khá” khi trả lời các câu hỏi trắc nghiệm nhãn khoa không liên quan đến hình ảnh đa tiêu cự. 1

Phân tích chính xác các hình ảnh lâm sàng là trọng tâm của điều trị trong Nhãn khoa để đảm bảo điều trị thích hợp. Với sự phát triển nhanh chóng của trí tuệ nhân tạo (AI) trên toàn cầu, độ chính xác của công nghệ như chatbots là điều bắt buộc.

Các tác giả nhận xét về tầm quan trọng của công nghệ này, “Nhãn khoa phụ thuộc vào việc phân tích hình ảnh đa phương thức để đảm bảo độ chính xác của chẩn đoán. Hình ảnh đa phương thức nâng cao kết quả của bệnh nhân thông qua chẩn đoán sớm hơn và chính xác hơn cũng như các lần thăm khám và điều trị theo dõi hiệu quả hơn. 2,3 Phiên bản mới của chatbot có tiềm năng lớn trong việc nâng cao hiệu quả giải đoán hình ảnh nhãn khoa, điều này có thể giảm khối lượng công việc cho bác sĩ lâm sàng, giảm thiểu sự khác biệt trong cách giải thích và sai sót, và cuối cùng là cải thiện kết quả của bệnh nhân.”

Họ đã tiến hành một nghiên cứu để đánh giá hiệu quả hoạt động của ChatGPT-4 khi xử lý dữ liệu hình ảnh. Một bộ dữ liệu công khai về các trường hợp nhãn khoa, OCTCase, một nền tảng giáo dục y tế của Khoa Nhãn khoa và Khoa học Thị giác tại Đại học Toronto, đã được sử dụng. Tổng cộng có 137 trường hợp và 99% có câu hỏi trắc nghiệm. các tác giả giải thích. Kết quả chính của nghiên cứu là tính chính xác của chatbot trong việc trả lời các câu hỏi liên quan đến nhận dạng hình ảnh.

Hiệu suất Chatbot

Trong số 136 trường hợp có câu hỏi trắc nghiệm, chatbot được giao nhiệm vụ xử lý 429 câu hỏi trắc nghiệm; 448 hình ảnh cũng được đưa vào phân tích.

“Chatbot đã trả lời chính xác 299 câu hỏi trắc nghiệm trong tất cả các trường hợp (70%). Hiệu suất của chatbot tốt hơn đối với các câu hỏi về võng mạc so với các câu hỏi về thần kinh-nhãn khoa (77% so với 58%; chênh lệch = 18%; khoảng tin cậy 95% [CI], 7,5%-29,4%; χ21 = 11,4; P  < 0,001),” Tiến sĩ Mihalache và đồng nghiệp đã báo cáo.

Họ cũng nhận thấy rằng chatbot đã trả lời các câu hỏi không dựa trên hình ảnh tốt hơn so với các câu hỏi dựa trên hình ảnh (82% so với 65%; chênh lệch = 17%; KTC 95%, 7,8%-25,1%; χ21 = 12,2; P  < 0,001).

Cuối cùng, chatbot cho thấy hiệu suất trung bình khi trả lời các câu hỏi dựa trên các chủ đề về ung thư mắt (đúng 72%), nhãn khoa nhi (đúng 68%), viêm màng bồ đào (đúng 67%) và bệnh tăng nhãn áp (đúng 61%).

Các tác giả kết luận: “Trong nghiên cứu này, phiên bản gần đây của chatbot đã trả lời chính xác hầu hết các câu hỏi trắc nghiệm liên quan đến các trường hợp nhãn khoa yêu cầu đầu vào đa phương thức từ OCTCase, mặc dù hoạt động tốt hơn đối với các câu hỏi không dựa vào phân tích hình ảnh nhãn khoa. Khi các mô hình ngôn ngữ lớn đa phương thức ngày càng trở nên phổ biến, cần phải liên tục nhấn mạnh việc sử dụng chúng một cách thích hợp trong y học và nêu bật những lo ngại xung quanh vấn đề bảo mật và đạo đức sinh học. Các nghiên cứu trong tương lai nên tiếp tục nghiên cứu khả năng diễn giải các phương thức hình ảnh nhãn khoa khác nhau của chatbot để đánh giá xem liệu cuối cùng nó có thể trở nên chính xác như các hệ thống máy học cụ thể trong nhãn khoa hay không.”

Tài liệu tham chiếu:

  1. Mihalache A, Huang RS, Popovic MM, et al. Accuracy of an artificial intelligence Chatbot’s interpretation of clinical ophthalmic images. JAMA Ophthalmol. 2024; published online February 29; doi:10.1001/jamaophthalmol.2024.0017
  2. Schuster AK, Wolfram C, Hudde T, et al. Impact of routinely performed optical coherence tomography examinations on quality of life in patients with retinal diseases-results from the ALBATROS data collection. J Clin Med. 2023;12(12):3881. doi:10.3390/jcm12123881
  3. Huang D, Swanson EA, Lin CP, et al. Optical coherence tomography. Science. 1991;254(5035):1178-1181. doi:10.1126/science.1957169

Nguồn: Ophthalmologytimes