نام کاربری یا نشانی ایمیل
رمز عبور
مرا به خاطر بسپار
به گزارش پایگاه خبری پیام خلیج فارس، تصور کنید که دور از جانتان به تازگی سرطان در مراحل اولیه در شما تشخیص داده شده است و قبل از ملاقات بعدی با پزشکتان، سوالی را در یک چتبات هوش مصنوعی تایپ میکنید مبنی بر اینکه «کدام کلینیکها میتوانند سرطان را با موفقیت درمان کنند؟»
در عرض چند ثانیه، پاسخی شستهرفته و پاورقیدار دریافت میکنید که انگار توسط یک پزشک متخصص نوشته شده است.
به ادعاهایی که بیاساس هستند، پاورقیها به جایی نمیرسند و چتبات هرگز اشاره نمیکند که خود سوال ممکن است سوال اشتباهی برای پرسیدن باشد.
این سناریو فرضی نیست. تقریباً میتوان گفت این همان چیزی است که تیمی متشکل از هفت محقق هنگام قرار دادن پنج چتبات محبوب جهان در یک تست استرس سیستماتیک اطلاعات سلامت به آن دست یافتند و نتایج آن در مجله BMJ Open منتشر شده است.
از هر کدام از چتباتهای ChatGPT، Gemini، Grok، Meta AI و DeepSeek، 50 سوال در مورد سلامت و پزشکی در مورد سرطان، واکسنها، سلولهای بنیادی، تغذیه و عملکرد ورزشی پرسیده شد.
دو متخصص به طور مستقل هر پاسخ را ارزیابی کردند. آنها دریافتند که تقریباً 20 درصد از پاسخها «بسیار مشکلساز»، نیمی از آنها «مشکلساز» و 30 درصد «تا حدودی مشکلساز» بودند.
هیچ یک از چتباتها به طور قابل اعتمادی فهرستهای مرجع کاملاً دقیقی تولید نکردند و تنها دو مورد از 250 سوال به طور کامل از پاسخ دادن امتناع ورزیدند.
در مجموع، هر پنج چتبات تقریباً عملکرد یکسانی داشتند. گراک(Grok) بدترین عملکرد را داشت که 58 درصد از پاسخهایش به عنوان «مشکلساز» علامتگذاری شد، بالاتر از ChatGPT با 52 درصد و Meta AI با 50 درصد.
با این حال، عملکرد بر اساس موضوع متفاوت بود. چتباتها به بهترین شکل واکسنها و سرطان را مدیریت کردند که زمینههایی با بدنههای تحقیقاتی بزرگ و ساختاریافته هستند. با این حال تقریباً یک چهارم مواقع پاسخهای مشکلدار ارائه دادند.
آنها بیشتر در مورد تغذیه و عملکرد ورزشی، حوزههایی که مملو از توصیههای متناقض آنلاین هستند و شواهد دقیق در عمل کمتر است، دچار مشکل شدند.
سوالات با پایان باز جایی بودند که واقعاً اوضاع به هم میریخت. 32 درصد از این پاسخها بسیار مشکلساز ارزیابی شدند، در حالی که فقط 7 درصد برای پاسخهای بسته این مشکل را داشتند. این تمایز اهمیت دارد، زیرا اکثر پرسشهای مربوط به سلامت در دنیای واقعی، پرسشهای با پایان باز هستند.
مردم از چتباتها سوالات درست یا غلط نمیپرسند. آنها چیزهایی مانند این میپرسند که «کدام مکملها برای سلامت به صورت کلی بهترین هستند؟» این نوع پرسش، پاسخی روان و مطمئن اما بالقوه مضر را میطلبد.
هنگامی که محققان از هر چتبات فهرست 10 مرجع علمی را خواستند، میانگین امتیاز کامل بودن آن فهرست فقط 40 درصد بود.
هیچ چتباتی در 25 تلاش، حتی یک فهرست مرجع کاملاً دقیق هم ارائه نکرد. خطاها از نویسندگان اشتباه و لینکهای خراب گرفته تا مقالات کاملاً ساختگی متغیر بود.
این یک خطر خاص است، زیرا منابع مانند مدرک به نظر میرسند. یک خواننده غیرحرفهای که یک فهرست استناد با قالببندی منظم را میبیند، دلیل کمی برای شک به محتوای آن دارد.
چرا چتباتها اشتباه میکنند؟
یک دلیل ساده وجود دارد که چرا چتباتها پاسخهای پزشکی را اشتباه میدهند. مدلهای زبانی همه چیز را نمیدانند. آنها بر اساس دادههای آموزشی و زمینه خود، محتملترین کلمه بعدی از نظر آماری را پیشبینی میکنند. آنها شواهد را نمیسنجند یا قضاوت ارزشی نمیکنند.
مطالب آموزشی آنها شامل مقالات داوریشده و همچنین محتوای رِدیت، وبلاگهای سلامت و استدلالهای رسانههای اجتماعی است.
محققان سوالات خنثی نپرسیدند. آنها عمداً دستورالعملهایی را طراحی کردند که چتباتها را به سمت ارائه پاسخهای گمراهکننده سوق دهد. این یک تکنیک استاندارد تست استرس در تحقیقات ایمنی هوش مصنوعی است که به عنوان «تیم قرمز» شناخته میشود.
این بدان معناست که میزان خطا احتمالاً بیش از آنچه با عبارات خنثیتر مواجه میشوید، است. این مطالعه همچنین نسخههای رایگان هر مدل موجود در فوریه 2025 را آزمایش کرد. نسخههای پولی و نسخههای جدیدتر ممکن است عملکرد بهتری داشته باشند.
با این حال، اکثر مردم از این نسخههای رایگان استفاده میکنند و اکثر سوالات مربوط به سلامت با دقت بیان نشدهاند. شرایط مطالعه نشان میدهد که مردم واقعاً چگونه از این ابزارها استفاده میکنند.
یافتههای مقاله به صورت جداگانه وجود ندارند. آنها در میان مجموعهای رو به رشد از شواهد قرار میگیرند که تصویری منسجم را ترسیم میکنند.
مطالعهای در فوریه 2026 در مجله Nature Medicine نکتهای شگفتانگیز را نشان داد. خود چتباتها تقریباً در ۹۵ درصد مواقع میتوانستند پاسخ پزشکی صحیح را دریافت کنند، اما وقتی افراد واقعی از همین چتباتها استفاده میکردند، فقط کمتر از ۳۵ درصد مواقع به پاسخ صحیح میرسیدند که بهتر از افرادی که اصلاً از آنها استفاده نمیکردند، نبود.
به عبارت ساده، مسئله فقط این نیست که آیا چتبات پاسخ صحیح را ارائه میدهد یا خیر، بلکه این است که آیا کاربران روزمره میتوانند آن پاسخ را به درستی درک و استفاده کنند یا خیر.
یک مطالعه اخیر که در مجله Jama Network Open منتشر شده است، ۲۱ مدل هوش مصنوعی پیشرو را آزمایش کرد. محققان از آنها خواستند که تشخیصهای پزشکی احتمالی را بررسی کنند.
وقتی به مدلها فقط جزئیات اولیه مانند سن، جنسیت و علائم بیمار داده میشد، آنها در بیش از ۸۰ درصد مواقع در ارائه مجموعه صحیحی از شرایط ممکن شکست میخوردند، اما هنگامی که محققان یافتههای معاینه و نتایج آزمایشگاهی را وارد کردند، دقت به بالای ۹۰ درصد رسید.
در همین حال، یک مطالعه دیگر در ایالات متحده که در مجله Nature Communications Medicine منتشر شده است، نشان داد که چتباتها به راحتی اصطلاحات پزشکی ساختگی را تکرار و حتی در مورد آنها توضیح میدهند.
روی هم رفته، این مطالعات نشان میدهند که نقاط ضعف موجود در مطالعه جدید، ویژگیهای یک روش تجربی نیستند، بلکه منعکس کننده چیزی اساسیتر در مورد جایگاه امروز فناوری هستند.
این چتباتها از بین نمیروند و نباید هم بروند. آنها میتوانند موضوعات پیچیده را خلاصه کنند، به تهیه سوالات برای پزشکان کمک کنند و به عنوان نقطه شروعی برای تحقیق عمل کنند، اما این مطالعه به روشنی بیان میکند که نباید با آنها به عنوان مراجع پزشکی مستقل رفتار شود.
اگر از یکی از این چتباتها برای مشاوره پزشکی استفاده میکنید، هرگونه ادعای سلامتی که ارائه میدهد را بررسی کنید، ارجاعات آن را به عنوان پیشنهادهایی برای بررسی به جای واقعیت در نظر نگیرید و توجه کنید که پاسخ، مطمئن به نظر میرسد، اما هیچ سلب مسئولیتی ارائه نمیدهد.
مرکز مبادله ارز و طلا نرخهای حوالهای دلار، یورو، درهم، یوان و روبل را برای چهارشنبه دوم اردیبهشت ۱۴۰۵ اعلام کرد.
سازمان تامیناجتماعی اعلام کرد که علیرغم استمرار شرایط خاص ناشی از جنگ تحمیلی و مشکلات و محدودیتهای وصول حقبیمه به عنوان منبع اصلی درآمدهای ماهیانه سازمان و با تأمین منابع مالی از روشهای مختلف، پرداخت مستمری فروردینماه تکمیل شد.
دبیر فدراسیون طیور گفت: با اجرای تولید قراردادی و افزایش بهره وری، قیمت تمام شده حداقل ۱۵ تا ۲۰ درصد کاهش مییابد.
قیمت دلار در روز سهشنبه به دلیل بلاتکلیفی در برگزاری مذاکرات ایران و آمریکا افزایش یافت. در این شرایط، معاملهگران برای خرید یا فروش دلار محتاط شدهاند.