مشورت پزشکی از هوش مصنوعی ممنوع

نتایج یک مطالعه جدید نشان می‌دهد که هوش مصنوعی تقریباً در نیمی از موارد، توصیه‌های مشکل‌ساز در مورد سلامت ارائه می‌دهد.

به گزارش پایگاه خبری پیام خلیج فارس، تصور کنید که دور از جانتان به تازگی سرطان در مراحل اولیه در شما تشخیص داده شده است و قبل از ملاقات بعدی با پزشکتان، سوالی را در یک چت‌بات هوش مصنوعی تایپ می‌کنید مبنی بر اینکه «کدام کلینیک‌ها می‌توانند سرطان را با موفقیت درمان کنند؟»

در عرض چند ثانیه، پاسخی شسته‌رفته و پاورقی‌دار دریافت می‌کنید که انگار توسط یک پزشک متخصص نوشته شده است.

به ادعاهایی که بی‌اساس هستند، پاورقی‌ها به جایی نمی‌رسند و چت‌بات هرگز اشاره نمی‌کند که خود سوال ممکن است سوال اشتباهی برای پرسیدن باشد.

این سناریو فرضی نیست. تقریباً می‌توان گفت این همان چیزی است که تیمی متشکل از هفت محقق هنگام قرار دادن پنج چت‌بات محبوب جهان در یک تست استرس سیستماتیک اطلاعات سلامت به آن دست یافتند و نتایج آن در مجله BMJ Open منتشر شده است.

از هر کدام از چت‌بات‌های ChatGPT، Gemini، Grok، Meta AI و DeepSeek، 50 سوال در مورد سلامت و پزشکی در مورد سرطان، واکسن‌ها، سلول‌های بنیادی، تغذیه و عملکرد ورزشی پرسیده شد.

دو متخصص به طور مستقل هر پاسخ را ارزیابی کردند. آنها دریافتند که تقریباً 20 درصد از پاسخ‌ها «بسیار مشکل‌ساز»، نیمی از آنها «مشکل‌ساز» و 30 درصد «تا حدودی مشکل‌ساز» بودند.

هیچ یک از چت‌بات‌ها به طور قابل اعتمادی فهرست‌های مرجع کاملاً دقیقی تولید نکردند و تنها دو مورد از 250 سوال به طور کامل از پاسخ دادن امتناع ورزیدند.

در مجموع، هر پنج چت‌بات تقریباً عملکرد یکسانی داشتند. گراک(Grok) بدترین عملکرد را داشت که 58 درصد از پاسخ‌هایش به عنوان «مشکل‌ساز» علامت‌گذاری شد، بالاتر از ChatGPT با 52 درصد و Meta AI با 50 درصد.

با این حال، عملکرد بر اساس موضوع متفاوت بود. چت‌بات‌ها به بهترین شکل واکسن‌ها و سرطان را مدیریت کردند که زمینه‌هایی با بدنه‌های تحقیقاتی بزرگ و ساختاریافته هستند. با این حال تقریباً یک چهارم مواقع پاسخ‌های مشکل‌دار ارائه دادند.

آنها بیشتر در مورد تغذیه و عملکرد ورزشی، حوزه‌هایی که مملو از توصیه‌های متناقض آنلاین هستند و شواهد دقیق در عمل کمتر است، دچار مشکل شدند.

سوالات با پایان باز جایی بودند که واقعاً اوضاع به هم می‌ریخت. 32 درصد از این پاسخ‌ها بسیار مشکل‌ساز ارزیابی شدند، در حالی که فقط 7 درصد برای پاسخ‌های بسته این مشکل را داشتند. این تمایز اهمیت دارد، زیرا اکثر پرسش‌های مربوط به سلامت در دنیای واقعی، پرسش‌های با پایان باز هستند.

مردم از چت‌بات‌ها سوالات درست یا غلط نمی‌پرسند. آنها چیزهایی مانند این می‌پرسند که «کدام مکمل‌ها برای سلامت به صورت کلی بهترین هستند؟» این نوع پرسش، پاسخی روان و مطمئن اما بالقوه مضر را می‌طلبد.

هنگامی که محققان از هر چت‌بات فهرست 10 مرجع علمی را خواستند، میانگین امتیاز کامل بودن آن فهرست فقط 40 درصد بود.

هیچ چت‌باتی در 25 تلاش، حتی یک فهرست مرجع کاملاً دقیق هم ارائه نکرد. خطاها از نویسندگان اشتباه و لینک‌های خراب گرفته تا مقالات کاملاً ساختگی متغیر بود.

این یک خطر خاص است، زیرا منابع مانند مدرک به نظر می‌رسند. یک خواننده غیرحرفه‌ای که یک فهرست استناد با قالب‌بندی منظم را می‌بیند، دلیل کمی برای شک به محتوای آن دارد.

چرا چت‌بات‌ها اشتباه می‌کنند؟

یک دلیل ساده وجود دارد که چرا چت‌بات‌ها پاسخ‌های پزشکی را اشتباه می‌دهند. مدل‌های زبانی همه چیز را نمی‌دانند. آنها بر اساس داده‌های آموزشی و زمینه خود، محتمل‌ترین کلمه بعدی از نظر آماری را پیش‌بینی می‌کنند. آنها شواهد را نمی‌سنجند یا قضاوت ارزشی نمی‌کنند.

مطالب آموزشی آنها شامل مقالات داوری‌شده و همچنین محتوای رِدیت، وبلاگ‌های سلامت و استدلال‌های رسانه‌های اجتماعی است.

محققان سوالات خنثی نپرسیدند. آنها عمداً دستورالعمل‌هایی را طراحی کردند که چت‌بات‌ها را به سمت ارائه پاسخ‌های گمراه‌کننده سوق دهد. این یک تکنیک استاندارد تست استرس در تحقیقات ایمنی هوش مصنوعی است که به عنوان «تیم قرمز» شناخته می‌شود.

این بدان معناست که میزان خطا احتمالاً بیش از آنچه با عبارات خنثی‌تر مواجه می‌شوید، است. این مطالعه همچنین نسخه‌های رایگان هر مدل موجود در فوریه 2025 را آزمایش کرد. نسخه‌های پولی و نسخه‌های جدیدتر ممکن است عملکرد بهتری داشته باشند.

با این حال، اکثر مردم از این نسخه‌های رایگان استفاده می‌کنند و اکثر سوالات مربوط به سلامت با دقت بیان نشده‌اند. شرایط مطالعه نشان می‌دهد که مردم واقعاً چگونه از این ابزارها استفاده می‌کنند.

یافته‌های مقاله به صورت جداگانه وجود ندارند. آنها در میان مجموعه‌ای رو به رشد از شواهد قرار می‌گیرند که تصویری منسجم را ترسیم می‌کنند.

مطالعه‌ای در فوریه 2026 در مجله Nature Medicine نکته‌ای شگفت‌انگیز را نشان داد. خود چت‌بات‌ها تقریباً در ۹۵ درصد مواقع می‌توانستند پاسخ پزشکی صحیح را دریافت کنند، اما وقتی افراد واقعی از همین چت‌بات‌ها استفاده می‌کردند، فقط کمتر از ۳۵ درصد مواقع به پاسخ صحیح می‌رسیدند که بهتر از افرادی که اصلاً از آنها استفاده نمی‌کردند، نبود.

به عبارت ساده، مسئله فقط این نیست که آیا چت‌بات پاسخ صحیح را ارائه می‌دهد یا خیر، بلکه این است که آیا کاربران روزمره می‌توانند آن پاسخ را به درستی درک و استفاده کنند یا خیر.

یک مطالعه اخیر که در مجله Jama Network Open منتشر شده است، ۲۱ مدل هوش مصنوعی پیشرو را آزمایش کرد. محققان از آنها خواستند که تشخیص‌های پزشکی احتمالی را بررسی کنند.

وقتی به مدل‌ها فقط جزئیات اولیه مانند سن، جنسیت و علائم بیمار داده می‌شد، آنها در بیش از ۸۰ درصد مواقع در ارائه مجموعه صحیحی از شرایط ممکن شکست می‌خوردند، اما هنگامی که محققان یافته‌های معاینه و نتایج آزمایشگاهی را وارد کردند، دقت به بالای ۹۰ درصد رسید.

در همین حال، یک مطالعه دیگر در ایالات متحده که در مجله Nature Communications Medicine منتشر شده است، نشان داد که چت‌بات‌ها به راحتی اصطلاحات پزشکی ساختگی را تکرار و حتی در مورد آنها توضیح می‌دهند.

روی هم رفته، این مطالعات نشان می‌دهند که نقاط ضعف موجود در مطالعه جدید، ویژگی‌های یک روش تجربی نیستند، بلکه منعکس کننده چیزی اساسی‌تر در مورد جایگاه امروز فناوری هستند.

این چت‌بات‌ها از بین نمی‌روند و نباید هم بروند. آنها می‌توانند موضوعات پیچیده را خلاصه کنند، به تهیه سوالات برای پزشکان کمک کنند و به عنوان نقطه شروعی برای تحقیق عمل کنند، اما این مطالعه به روشنی بیان می‌کند که نباید با آنها به عنوان مراجع پزشکی مستقل رفتار شود.

اگر از یکی از این چت‌بات‌ها برای مشاوره پزشکی استفاده می‌کنید، هرگونه ادعای سلامتی که ارائه می‌دهد را بررسی کنید، ارجاعات آن را به عنوان پیشنهادهایی برای بررسی به جای واقعیت در نظر نگیرید و توجه کنید که پاسخ، مطمئن به نظر می‌رسد، اما هیچ سلب مسئولیتی ارائه نمی‌دهد.