دکتر زهرا زجاجی - رویداد هوش مصنوعی اصفهان

موضوع سخنرانی : پرسمان، سامانه پرسش و پاسخ از اسناد فارسی
در فروردین‌ماه ۹۶، دانشکده‌ی کامپیوتر دانشگاه اصفهان یکی از اولین آزمایشگاه‌های تخصصی کلان‌داده را با پشتوانه‌ی کارگروهی تخصصی از اساتید صاحب‌نظر دانشکده‌ی کامپیوتر دانشگاه اصفهان بنا گذاشت. در همین راستا گروه کلان داده‌ی دانشگاه اصفهان با همکاری سه تن از اساتید گروه کامپیوتر شامل دکتر محمدعلی نعمت‌بخش، دکتر افسانه فاطمی و دکتر احمد زائری و به سرپرستی دکتر محمدعلی نعمت‌بخش آغاز به کار کرد و اکنون پس از فعالیت چند ساله در حوزه‌های مختلف علوم کلان داده‌ها، به عنوان یکی از اولین خوشه‌های پژوهش و توسعه‌ی فعال، در دانشگاه اصفهان به فعالیت خود ادامه می‌دهد. در حال حاضر این گروه متشکل از 6 عضو هیئت علمی، بیش از 30 دانشجوی دکتری و غالب بر 30 دانشجوی ارشد در حال تحصیل است که هر کدام به صورت فردی و یا گروهی بر روی بخشی از اکوسیستم کار با کلان داده‌ها و در قالب پروژه‌ها و پایان‌نامه‌های ارشد و دکتری مشغول پژوهش و توسعه در فناوری‌های مربوطه هستند.
در سال‌های اخیر، توسعه سیستم‌های پرسش پاسخ (QAS) به طور قابل‌توجهی پیشرفت کرده است که نتیجه دستاوردهای به دست آمده در پردازش زبان طبیعی و یادگیری ماشین است. هدف این پیشنهاده ایجاد یک سیستم پرسش پاسخ یا چت بات است که میتوانند با ارجاع به منابع دانش معتبر فراهم شده به سؤالات کاربران در زمینه آنها پاسخ دهد LLM ها فناوری کلیدی هوش مصنوعی هستند که به عنوان هسته اصلی برای درک زبان و تولید متن درچت بات های هوشمند و دیگر برنامه های کاربردی پردازش زبان طبیعی استفاده می شوند. متأسفانه، فناوری LLM دارای ضعف هایی است که کارایی سیستم های پرسش پاسخ مبتنی بر آن را به شدت تحت تاثیر قرار می دهد. از جمله این ضعف ها می توان به توهم و عدم به روزرسانی اطلاعات اشاره کرد. چرا که داده های آموزشی LLM ثابت است و تاریخ مشخصی برای دانشی موجود در آن وجود دارد.
RAG یک چارچوب هوش مصنوعی است که LLMها را قادر می‌سازد تا اطلاعات دقیق و به‌روز را از منابع دانش خارجی بازیابی کنند و درک بهتری در مورد فرآیند تولید متن در LLM در اختیار کاربران قرار دهد. با وجود اینکه استفاده از RAG در کنار LLM ها پژوهشی در لبه تکنولوژی محسوب می شود، خود دچار چالش هایی است که برای توسعه چنین سیستمی باید مدیریت شوند. از جمله این چالش ها می توان به بازیابی مطالب نامربوط یا بی ارزش، مشکلات تولید بر اساس مطالب بازیابی شده متناقض، توهم زایی LLM ها، حساسیت به ابرپارامترها و … اشاره کرد.
غلبه بر چالش های RAG در ارتباط با زبان پیجیده و کم منبع فارسی به دلیل عدم وجود مدلهای زبانی کارا مختص زبان فارسی و همچنین عدم دسترسی رایگان به مدلهای زبانی چند زبانه، بیش از پیش دشوار خواهد بود و پژوهش های متمرکز و عمیقی را برای به نتیجه رساندن این سیستم برای زبان فارسی و تولید محصول می طلبد.
خوشه کلان داده دانشگاه اصفهان محصولی را با عنوان پرسمان طراحی و اجرا کرده است که شامل یک سیستم QA هوشمند متناسب با اسناد فارسی است. این سیستم از جدیدترین مدل‌های زبان و تکنیک‌های تولید تقویت‌شده بازیابی،RAG برای ارائه پاسخ‌های دقیق و مرتبط به پرسش‌های کاربر استفاده می‌کند و قابل انطباق با دامنه های متفاوت است.
اگر چه توسعه چنین سیستمی می تواند مستقل از زبان حایز اهمیت ویژه ای در دنیای امروز باشد، با توجه به عدم وجود منابع فارسی کافی و زیرساخت های مورد نیاز اموزش مدل های زبانی در داخل کشور، عدم وجود مدل های زبانی بزرگ مختص زبان فارسی و ضعف کارایی یا عدم دسترسی آزاد به مدل های زبانی بزرگ چند زبانه برای زبان فارسی، برای زبان فارسی بسیار چالش برانگیز است و اهمیت محصول را بیش از پیش برجسته می سازد. این محصول در ایجاد سیستمی به عنوان واسط بین کاربران و حجم عظیم محتوای فارسی حائز اهمیت است و در نهایت باعث بهبود کارایی بازیابی اطلاعات و تجربه کاربر و افزایش بازدهی صنایع خواهد شد.

جلسه سخنرانی دکتر زهرا زجاجی

ویرایش اطلاعات با موفقیت انجام شد