Humans Reign Super: ChatGPT در امتحانات حسابداری کوتاه می آید

Humans Reign Super: ChatGPT در امتحانات حسابداری کوتاه می آید

ChatGPT

این مطالعه عظیم با 327 نویسنده مشترک از 186 موسسه در 14 کشور مختلف انجام شد.

ماه گذشته، OpenAI آخرین محصول چت ربات هوش مصنوعی خود، GPT-4 را معرفی کرد. این شرکت ادعا می کند که این ربات که از یادگیری ماشینی برای تولید متن به سبک زبان طبیعی استفاده می کند، در امتحانات مختلف عملکرد فوق العاده ای داشته است. به طور خاص، آن را در صدک 90 در آزمون وکالت به دست آورد، 13 از 15 آزمون AP را قبول کرد، و نمره تقریبا کامل در آزمون GRE Verbal دریافت کرد.

دانشگاهیان دانشگاه بریگام یانگ (BYU) و 186 موسسه دیگر در مورد عملکرد فناوری OpenAI در امتحانات حسابداری کنجکاو بودند. از این رو، آنها مدل اصلی ChatGPT را تحت آزمایش قرار دادند. محققان بیان کرده اند که اگرچه ChatGPT هنوز در زمینه حسابداری نیاز به بهبود دارد، اما این پتانسیل را دارد که روش آموزش و یادگیری افراد را برای بهتر شدن متحول کند.

دیوید وود، نویسنده ارشد این مطالعه، استاد حسابداری BYU، می‌گوید: «زمانی که این فناوری برای اولین بار عرضه شد، همه نگران بودند که دانشجویان اکنون می‌توانند از آن برای تقلب استفاده کنند. اما فرصت های تقلب همیشه وجود داشته است. بنابراین برای ما، ما سعی می‌کنیم بر روی آنچه می‌توانیم با این فناوری انجام دهیم، تمرکز کنیم که قبلاً نمی‌توانستیم برای بهبود فرآیند تدریس برای اساتید و فرآیند یادگیری برای دانشجویان انجام دهیم. آزمایش آن چشم باز بود.»

ChatGPT از زمان اولین بار در نوامبر 2022 به سریع ترین پلتفرم فناوری در حال رشد تبدیل شده است و در کمتر از دو ماه به 100 میلیون کاربر رسیده است. در پاسخ به بحث شدید در مورد اینکه چگونه مدل‌هایی مانند ChatGPT باید در آموزش نقش داشته باشند، وود تصمیم گرفت تا حد امکان اساتید بیشتری را استخدام کند تا ببیند هوش مصنوعی در برابر دانشجویان واقعی حسابداری دانشگاه چگونه عمل می‌کند.

طرح جذب نویسنده همکار او در رسانه های اجتماعی منفجر شد: 327 نویسنده مشترک از 186 موسسه آموزشی در 14 کشور در این تحقیق شرکت کردند و 25181 سوال امتحان حسابداری کلاس درس را ارائه کردند. آنها همچنین دانشجویان BYU (از جمله دختر وود، جسیکا) را به خدمت گرفتند تا 2268 سؤال بانک درسی آزمون دیگر را به ChatGPT بدهند. سوالات شامل سیستم های اطلاعات حسابداری (AIS)، حسابرسی، حسابداری مالی، حسابداری مدیریتی، و مالیات می شد و از نظر سختی و نوع (درست/نادرست، چند گزینه ای، پاسخ کوتاه و غیره) متفاوت بود.

اگرچه عملکرد ChatGPT چشمگیر بود، اما دانش آموزان عملکرد بهتری داشتند. دانش‌آموزان میانگین کلی 76.7% را در مقایسه با امتیاز ChatGPT 47.4% کسب کردند. در 11.3 درصد از سؤالات، ChatGPT امتیاز بالاتری از میانگین دانش آموز کسب کرد و به ویژه در AIS و حسابرسی عملکرد خوبی داشت. اما ربات هوش مصنوعی در ارزیابی‌های مالیاتی، مالی و مدیریتی بدتر عمل کرد، احتمالاً به این دلیل که ChatGPT با فرآیندهای ریاضی مورد نیاز برای نوع دوم مشکل داشت.

هنگامی که نوبت به نوع سوال می رسید، ChatGPT در سوالات درست/غلط (68.7٪ درست) و سوالات چند گزینه ای (59.5٪) بهتر عمل کرد، اما با سوالات کوتاه پاسخ (بین 28.7٪ تا 39.1٪) مشکل داشت. به طور کلی، پاسخ به سؤالات با مرتبه بالاتر برای ChatGPT دشوارتر بود. در واقع، گاهی اوقات ChatGPT توضیحات نوشتاری معتبری را برای پاسخ های نادرست ارائه می دهد یا به همان سؤال به روش های مختلف پاسخ می دهد.

این کامل نیست. جسیکا وود، که در حال حاضر دانشجوی سال اول دانشگاه BYU است، گفت: «از آن برای همه چیز استفاده نمی کنید. “تلاش برای یادگیری صرفاً با استفاده از ChatGPT یک کار احمقانه است.”

محققان همچنین برخی از روندهای جذاب دیگر را از طریق این مطالعه کشف کردند، از جمله:

  • ChatGPT همیشه زمانی را که در حال انجام ریاضیات است تشخیص نمی دهد و خطاهای مزخرفی مانند اضافه کردن دو عدد در یک مسئله تفریق یا تقسیم اعداد اشتباه می کند.
  • ChatGPT اغلب برای پاسخ های خود توضیحاتی ارائه می دهد، حتی اگر آنها نادرست باشند. در موارد دیگر، توضیحات ChatGPT دقیق است، اما سپس به انتخاب پاسخ چند گزینه ای اشتباه ادامه می دهد.
  • ChatGPT گاهی اوقات حقایق را می سازد. به عنوان مثال، هنگام ارائه یک مرجع، یک مرجع واقعی تولید می کند که کاملاً ساخته شده است. اثر و گاهی نویسندگان حتی وجود ندارند.

با این حال، نویسندگان کاملاً انتظار دارند که GPT-4 به طور تصاعدی در سؤالات حسابداری مطرح شده در مطالعه آنها و مسائل ذکر شده در بالا بهبود یابد. آنچه آنها امیدوارکننده‌تر می‌دانند این است که چگونه ربات چت می‌تواند به بهبود آموزش و یادگیری کمک کند، از جمله توانایی طراحی و آزمایش تکالیف، یا شاید برای پیش‌نویس کردن بخش‌هایی از پروژه استفاده شود.

ملیسا لارسون، یکی از نویسندگان مطالعه و استاد حسابداری BYU، گفت: «این فرصتی است تا در مورد اینکه آیا اطلاعات ارزش افزوده را آموزش می‌دهیم یا نه، فکر کنیم. این یک اختلال است و ما باید ارزیابی کنیم که از اینجا به کجا می رویم. البته، من هنوز هم TA دارم، اما این ما را مجبور می کند که از آنها به روش های مختلف استفاده کنیم.”

اشتراک گذاری پست

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *