موضوع سخنرانی : پرسمان، سامانه پرسش و پاسخ از اسناد فارسی
در فروردینماه ۹۶، دانشکدهی کامپیوتر دانشگاه اصفهان یکی از اولین آزمایشگاههای تخصصی کلانداده را با پشتوانهی کارگروهی تخصصی از اساتید صاحبنظر دانشکدهی کامپیوتر دانشگاه اصفهان بنا گذاشت. در همین راستا گروه کلان دادهی دانشگاه اصفهان با همکاری سه تن از اساتید گروه کامپیوتر شامل دکتر محمدعلی نعمتبخش، دکتر افسانه فاطمی و دکتر احمد زائری و به سرپرستی دکتر محمدعلی نعمتبخش آغاز به کار کرد و اکنون پس از فعالیت چند ساله در حوزههای مختلف علوم کلان دادهها، به عنوان یکی از اولین خوشههای پژوهش و توسعهی فعال، در دانشگاه اصفهان به فعالیت خود ادامه میدهد. در حال حاضر این گروه متشکل از 6 عضو هیئت علمی، بیش از 30 دانشجوی دکتری و غالب بر 30 دانشجوی ارشد در حال تحصیل است که هر کدام به صورت فردی و یا گروهی بر روی بخشی از اکوسیستم کار با کلان دادهها و در قالب پروژهها و پایاننامههای ارشد و دکتری مشغول پژوهش و توسعه در فناوریهای مربوطه هستند.
در سالهای اخیر، توسعه سیستمهای پرسش پاسخ (QAS) به طور قابلتوجهی پیشرفت کرده است که نتیجه دستاوردهای به دست آمده در پردازش زبان طبیعی و یادگیری ماشین است. هدف این پیشنهاده ایجاد یک سیستم پرسش پاسخ یا چت بات است که میتوانند با ارجاع به منابع دانش معتبر فراهم شده به سؤالات کاربران در زمینه آنها پاسخ دهد LLM ها فناوری کلیدی هوش مصنوعی هستند که به عنوان هسته اصلی برای درک زبان و تولید متن درچت بات های هوشمند و دیگر برنامه های کاربردی پردازش زبان طبیعی استفاده می شوند. متأسفانه، فناوری LLM دارای ضعف هایی است که کارایی سیستم های پرسش پاسخ مبتنی بر آن را به شدت تحت تاثیر قرار می دهد. از جمله این ضعف ها می توان به توهم و عدم به روزرسانی اطلاعات اشاره کرد. چرا که داده های آموزشی LLM ثابت است و تاریخ مشخصی برای دانشی موجود در آن وجود دارد.
RAG یک چارچوب هوش مصنوعی است که LLMها را قادر میسازد تا اطلاعات دقیق و بهروز را از منابع دانش خارجی بازیابی کنند و درک بهتری در مورد فرآیند تولید متن در LLM در اختیار کاربران قرار دهد. با وجود اینکه استفاده از RAG در کنار LLM ها پژوهشی در لبه تکنولوژی محسوب می شود، خود دچار چالش هایی است که برای توسعه چنین سیستمی باید مدیریت شوند. از جمله این چالش ها می توان به بازیابی مطالب نامربوط یا بی ارزش، مشکلات تولید بر اساس مطالب بازیابی شده متناقض، توهم زایی LLM ها، حساسیت به ابرپارامترها و … اشاره کرد.
غلبه بر چالش های RAG در ارتباط با زبان پیجیده و کم منبع فارسی به دلیل عدم وجود مدلهای زبانی کارا مختص زبان فارسی و همچنین عدم دسترسی رایگان به مدلهای زبانی چند زبانه، بیش از پیش دشوار خواهد بود و پژوهش های متمرکز و عمیقی را برای به نتیجه رساندن این سیستم برای زبان فارسی و تولید محصول می طلبد.
خوشه کلان داده دانشگاه اصفهان محصولی را با عنوان پرسمان طراحی و اجرا کرده است که شامل یک سیستم QA هوشمند متناسب با اسناد فارسی است. این سیستم از جدیدترین مدلهای زبان و تکنیکهای تولید تقویتشده بازیابی،RAG برای ارائه پاسخهای دقیق و مرتبط به پرسشهای کاربر استفاده میکند و قابل انطباق با دامنه های متفاوت است.
اگر چه توسعه چنین سیستمی می تواند مستقل از زبان حایز اهمیت ویژه ای در دنیای امروز باشد، با توجه به عدم وجود منابع فارسی کافی و زیرساخت های مورد نیاز اموزش مدل های زبانی در داخل کشور، عدم وجود مدل های زبانی بزرگ مختص زبان فارسی و ضعف کارایی یا عدم دسترسی آزاد به مدل های زبانی بزرگ چند زبانه برای زبان فارسی، برای زبان فارسی بسیار چالش برانگیز است و اهمیت محصول را بیش از پیش برجسته می سازد. این محصول در ایجاد سیستمی به عنوان واسط بین کاربران و حجم عظیم محتوای فارسی حائز اهمیت است و در نهایت باعث بهبود کارایی بازیابی اطلاعات و تجربه کاربر و افزایش بازدهی صنایع خواهد شد.