بهبود مدل کاربر در وب سایت بصورت خودکار با استفاده از معناشناسی با مفاهیم خاص دامنه
گرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار میرود. برای مقابله با این مشکل، سیستمهای شخصیسازی وب ارائه شدهاند که محتوا و سرویسهای یک وبسایت را با افراد براساس علایق و رفتار گردشی آنها سازگار میکنند. یک مولفهی اساسی در هر سیستم شخصیسازی وب، مدل کاربر آن است. محتوای صفحات یک وبسایت را میتوان به منظور ایجاد مدل دقیقتری از کاربر مورد استفاده قرار داد، اما رویکردهای مبتنی بر کلمات کلیدی نگرش عمیقی از وبسایت ندارند. اخیرا تحقیقاتی برای ترکیب کردن معنای موجود در وبسایت در نمایش کاربران آن انجام شده است. تمامی این تلاشها یا از یک ردهبندی یا واژگان شناختی خاص و دست ساخته و یا از واژگانشناختیهای عمومی مانند WordNet برای نگاشت مشاهده صفحات به عناصر معنایی استفاده میکنند. با این وجود ساختن یک سلسله مراتب از مفاهیم بصورت دستی زمانبر و هزینهبر است. از سوی دیگر منابع معنایی لغوی عمومی از پوشش کم عبارات خاص دامنه رنج میبرند. در این پایان نامه ما قصد داریم که هر دوی این نقصها را برطرف کنیم. دستاورد اصلی ما این است که مکانیسمی برای بهبود نمایش کاربر در وبسایت بصورت خودکار و با استفاده از یک منبع معنایی لغوی جامع معرفی میکنیم. ما از Wikipedia، بزرگترین دایرهالمعارف امروزی به عنوان یک منبع غنی معنایی برای بهبود ساخت خودکار مدل برداری از علایق کاربر بهرهبرداری میکنیم. معماری ارائه شده شامل تعدادی مولفه است که عبارتند از: پیش پردازش اولیه، استخراج مفاهیم دامنهی وب سایت، استخراج کلمات کلیدی از وبسایت، سازندهی بردار کلمات کلیدی و نگاشت کلمات کلیدی به مفاهیم. دستاورد مهم دیگر استفاده از ساختار وب سایت برای محدود کردن خودکار مفاهیم خاص دامنه میباشد. سرانجام، آخرین دستاورد آن یک روش جدید نگاشت کلمات کلیدی به مفاهیم است. ارزیابی های ما نشان میدهد که روش پیشنهادی همراه با منبع معنایی لغوی جامع آن کاربران را بصورت موثرتری نسبت به روش کلمات کلیدی و نیز روشهای بر مبنای WordNet نمایندگی میکند.
کلمات کلیدی: مدلسازی کاربر، کاوش Wikipedia، تکنیکهای معنایی ، شخصیسازی وب
دانشگاه صنعتی امیرکبیر – دانشکده مهندسی کامپیوتر و فناوری اطلاعات – پایاننامه کارشناسی ارشد رشته مهندسی کامپیوتر گرایش نرمافزار
بهبود مدل کاربر در وبسایت بصورت خودکار با استفاده از معناشناسی با مفاهیم خاص دامنه
نگارش: آقای قادریان
استاد:دکتر احمد عبداله زاده بارفروش
فهرست
۱- مقدمه
مقدمه
۱-۱- دلایل نیاز به شخصی سازی وب..
۱-۱-۱- گرانبار شدن اطلاعات..
۱-۱-۲- نیاز به جذب مشتری پابرجای برای وب سایت..
۱-۲- تعریف شخصی سازی وب..
۱-۳- فواید سیستم شخصی سازی وب..
۱-۴- تفاوت شخصی سازی وب با تطبیق طرح کلی سایت..
۱-۵- طبقه بندی عملکردهای اصلی شخصی سازی وب..
۱-۶- نیازمندیهای اصلی سیستم شخصی سازی وب..
۱-۷- رویکرد های موجود در شخصی سازی وب..
۱-۸- نقش وب کاوی کاربرد وب در شخصی سازی وب..
۱-۹- نیاز به استفاده از محتوا در شخصی سازی وب..
۱-۱۰- نیاز به استفاده از معنا در شخصی سازی وب..
۱-۱۱- هدف پروژه
۱-۱۲- نحوه ی گردآوری مراجع.
۱-۱۳- رویکرد بکار رفته در تحقیق.
۱-۱۴- ساختار پایان نامه
مراجع.
۲- مطالب پیش زمینه
مقدمه
۲-۱- شخصی سازی وب براساس وب کاوی کاربرد وب..
۲-۱-۱- آماده سازی و مدلسازی داده
۲-۱-۱-۱- منابع و انواع داده
۲-۱-۱-۱-۱- داده های کاربرد
۲-۱-۱-۱-۱-۱- فرمت های ثبت..
۲-۱-۱-۱-۱-۲- منابع داده های کاربرد
۲-۱-۱-۱-۲- داده های محتوا
۲-۱-۱-۱-۳- داده های ساختار
۲-۱-۱-۱-۴- داده های کاربران.
۲-۱-۱-۲- آماده سازی و پیش پردازش داده ها
۲-۱-۱-۲-۱- پاکسازی داده ها
۲-۱-۱-۲-۲- شناسایی کاربر.
۲-۱-۱-۲-۳- تشخیص مشاهده صفحه
۲-۱-۱-۲-۴- تشخیص جلسه ی کاربر.
۲-۱-۱-۲-۵- تکمیل مسیر.
۲-۱-۱-۲-۶- تشخیص تراکنش…
۲-۱-۱-۲-۷- پیش پردازش نهایی داده های کاربرد
۲-۱-۱-۲-۸- یکپارچه سازی داده ها از منابع گوناگون.
۲-۱-۲- کشف الگو از داده های کاربرد وب..
۲-۱-۲-۱- سطوح و انواع تحلیل.
۲-۱-۲-۲- وظایف داده کاوی بر روی داده های کاربرد وب..
۲-۱-۲-۲-۱- کاوش قواعد انجمنی.
۲-۱-۲-۲-۲- کشف الگوهای ترتیبی.
۲-۱-۲-۲-۳- خوشه بندی.
۲-۱-۳- استفاده از الگوهای کشف شده جهت شخصی سازی وب..
۲-۱-۴- زمینه های تحقیقاتی شخصی سازی وب..
۲-۲- منابع معنایی لغوی.
۲-۲-۱- فرهنگ لغت..
۲-۲-۲- فرهنگ های جامع.
۲-۲-۳- واژگان شناختی و رده بندی.
۲-۲-۳-۲- رده بندی.
۲-۲-۳-۳- واژگان شناختی ها و رده بندی های موجود
۲-۲-۳-۳-۱- واژگان شناختی های مربوط به یک دامنه ی خاص…
۲-۲-۳-۳-۲- واژگان شناختی های عمومی.
۲-۲-۳-۳-۲-۱- CYC و OpenCYC..
۲-۲-۳-۳-۲-۲- WordNet
۲-۲-۳-۳-۲-۳- دایرکتوری های وب..
۲-۲-۳-۴- زبان های نمایش واژگان شناختی.
۲-۲-۴- فرهنگ های عمومی.
۲-۲-۴-۱- Wikipedia.
۲-۲-۴-۱-۱- نقاط ضعف و قوت Wikipedia.
۲-۲-۴-۱-۲- ساختار Wikipedia.
۲-۲-۴-۱-۳- انواع اطلاعات معنایی لغوی در Wikipedia.
۲-۲-۵- نتیجه گیری.
مراجع.
۳- کارهای انجام شده در زمینه مدلسازی کاربر در شخصی سازی وب با استفاده از محتوای وب..
مقدمه
۳-۱- تکنیک های مورد استفاده
۳-۱-۱- تکنیک tf-idf
۳-۱-۲- تکنیک تحلیل معنایی پنهان.
۳-۱-۳- تکنیک های مربوط به محاسبه ی ارتباط معنایی دو کلمه
۳-۱-۳-۱- معیارهای ارتباط معنایی مهم در ساختارهای سلسله مراتبی.
۳-۱-۳-۱-۱- رویکردهای مبتنی بر مسیر.
۳-۱-۳-۱-۲- رویکردهای مبتنی بر محتوای اطلاعات..
۳-۱-۳-۱-۳- رویکردهای مبتنی بر همپوشانی متن.
۳-۱-۳-۲- رویکردهای محاسبه ی ارتباط معنایی دو کلمه برای روابط غیر رابطه ی هست..
۳-۱-۳-۳- کارهای انجام شده در مورد محاسبه ی ارتباط معنایی دو کلمه در Wikipedia.
۳-۲- رویکردهای انجام شده در زمینه ی مدلسازی کاربر در وب سایت با استفاده از محتوای صفحات
۳-۲-۱- رویکردهای بر مبنای کلمات کلیدی.
۳-۲-۲- رویکردهای معنایی.
۳-۲-۲-۱- روش های آماری.
۳-۲-۲-۲- روش های مبتنی بر سلسله مراتب..
جمع بندی.
مراجع.
۴- روش پیشنهادی.
مقدمه
۴-۱- تعریف مساله
۴-۲- طراحی روش جدید.
۴-۲-۱- مولفه ی پیش پردازش اولیه ی ثبت..
۴-۲-۲- مولفه ی استخراج کلمات کلیدی از صفحات وب سایت..
۴-۲-۳- مولفه ی استخراج مفاهیم دامنه از وب سایت..
۴-۲-۴- مولفه ی سازنده ی بردار کلمات کلیدی.
۴-۲-۵- مولفه ی نگاشت..
۴-۶- دیاگرام های UML قسمت های اصلی سیستم.
۴-۷- بررسی تطابق طرح پیشنهادی با صورت مساله
جمع بندی.
مراجع.
۵- جزئیات پیاده سازی.
مقدمه
۵-۱- مولفه ی پیش پردازش اولیه ی ثبت..
۵-۱-۲- نحوه ی دریافت ثبت وب سرور
۵-۲- مولفه ی استخراج کلمات کلیدی از صفحات وب سایت..
۵-۳- مولفه ی استخراج مفاهیم دامنه از وب سایت..
۵-۴- مولفه ی سازنده ی بردار کلمات کلیدی.
۵-۵- مولفه ی نگاشت..
۵-۶- پیاده سازی آزمایشات..
جمع بندی.
مراجع.
۶- ارزیابی روش پیشنهادی.
مقدمه
۶-۱- مجموعه داده ها
۶-۲- پارامترهای ارزیابی.
۶-۳- بررسی درستی مولفه های سیستم.
۶-۴- آزمایشات انجام شده
۶-۴-۱- سخت افزار مورد استفاده
۶-۴-۲- نتایج آزمایشات..
۶-۴-۳- تحلیل نتایج آزمایشات..
جمع بندی.
مراجع.
۷- نتیجه گیری و کارهای آینده
مقدمه
۷-۱- نتایج حاصل از پروژه
۷-۲- دستاوردهای پروژه
۷-۳- کارهای آینده
مراجع.
واژه نامه
فهرست شکل ها
شکل ۲-۱- مولفه های برون خطی آماده سازی داده و کشف الگو.
شکل ۲-۲- مولفه برخط شخصی سازی وب.
شکل ۲-۳- تراکنش HTTP.
شکل ۲-۴- URL و URI.
شکل ۲-۵- مکان های جمع آوری داده های کاربرد وب.
شکل ۲-۶- مثالی از مدل کردن رفتار گردشی کاربر با زنجیره ی مارکف.
شکل ۲-۷- مثالی از مدل کردن رفتار گردشی در یک درخت تجمعی.
شکل ۲-۸- مثالی از استخراج پروفایل های تجمعی کاربرد از خوشه های تراکنش ها.
شکل ۲-۹- بخشی از زمینه های تحقیقاتی شخصی سازی وب.
شکل ۲-۱۰- نمونه ای از واژگان شناختی.
شکل ۲-۱۱- نمونه ای از یک رده بندی.
شکل ۳-۱- استفاده از SVD برای تجزیه ماتریس d * t.
شکل ۳-۲- مفسر معنایی سیستم ESA.
شکل ۳-۳- ماتریس session-page view.
شکل ۳-۴- تولید C-log.
شکل ۴-۱- معماری کلی سیستم پیشنهادی.
شکل ۴-۲- جزئیات مولفه ی استخراج کلمات کلیدی.
شکل ۴-۳- شبه کد مولفه استخراج کلمات کاندیدا.
شکل ۴-۴- شبه کد مولفه رتبه بندی کلمات کاندیدا.
شکل ۴-۵- جزئیات مولفه ی استخراج مفاهیم دامنه.
شکل ۴-۶- شبه کد بخش فیلتر کردن کاندیدا.
شکل ۴-۷- شبه کد مولفه سازنده بردار کلمات کلیدی.
شکل ۴-۸- شبه کد مولفه ی نگاشت.
شکل ۴-۹- class diagram مولفه های اصلی سیستم.
شکل ۴-۱۰- sequence diagram بخش اصلی سیستم.
فهرست جدول ها
جدول ۲-۱- مثال هایی از ارتباطات لغوی در WordNet.
جدول ۲-۲- منابع اطلاعات معنایی لغوی در Wikipedia.
جدول ۲-۳- مقایسه ی انواع منابع معنایی لغوی جهت استفاده در شخصی سازی وب.
جدول ۴-۱- بردارهای کلمات کلیدی صفحات وب سایت مثال۱
جدول ۴-۲- بردارهای کلمات کلیدی جلسه ی داده شده در مثال۱٫
جدول ۴-۳- کلمات کلیدی و وزن های فرضی آنها در مثال ۲٫
جدول ۴-۴- مفاهیم موجود در صفحات جلسات کاربر به همراه وزن های آنها در مثال ۲٫
جدول ۵-۱- ساختار دستور CustomLog.
جدول ۵-۲- ساختار دستور LogFormat.
جدول ۶-۱- نتایج آزمایشات انجام شده بر روی ۱۰۰ جلسه ی تصادفی
مشاهده انلاین فایل وجود ندارد
نوع فایل: قالب بندی ورد
تعداد صفحات: 155 صفحه
اندازه فایل: 402 کیلوبایت
قیمت: رایگان
گزارش خرابی لینک دانلودگزارش خطای لینک
لطفا ایمیل و توضیحات مربوطه را وارد کنید.
در اولین فرصت لینک دانلود به ایمیل شما ارسال خواهد شد