מאת פרופ' גיא רובין
מנהל היחידה לכירורגיה של היד במרכז הרפואי העמק, עפולה
Comparison of ChatGPT-3.5, ChatGPT-4, and Orthopaedic Resident Performance on Orthopaedic Assessment Examinations.
רקע: לתוכנות אינטיליגנציה מלאכותית יש יכולת לענות על שאלות מורכבות כולל שאלות רפואיות. מטרת המחקר היתה להשוות את התפקוד של מתמחים באורתופדיה לשתי תוכנות בפתרון מבחנים. מטרה נוספת היתה להשוות תת השוואה לתפקוד של כל קבוצה בשאלות עם וללא תמונות.
שיטות: נלקחו 148 שאלות מבנק בחינות (ResStudy) אשר ניתנו למתמחים באורתופדיה והוזנו לתוכנות ChatGPT-3.5 ואז ל- GPT-4.
תוצאות: תוצאות המענה היו 29.4% ל-ChatGPT-3.5, 47.2% ל- GPT-4ו-74.2% למתמחים והיו טובים באופן מובהק אצל המתמחים משתי התוכנות. התוכנות ענו באופן מובהק טוב יותר על שאלות ללא תמונות בעוד המתמחים לא ענו טוב יותר באופן מובהק לפי סוג השאלה.
מסקנות: מתמחים באורתופדיה יכלו לענות על יותר שאלות מאשר כל אחת מהתוכנות. לא סביר שהתוכנות יוכלו לעבור את מבחן ההסמכה האורתופדי האמריקאי.
למאמר המלא
Massey PA, Montgomery C, Zhang AS. Comparison of ChatGPT-3.5, ChatGPT-4, and Orthopaedic Resident Performance on Orthopaedic Assessment Examinations. J Am Acad Orthop Surg. 2023 Dec 1;31(23):1173-1179.