جستجوي پيشرفته | کتابخانه مجازی الفبا

عنوان :

خوشه‌بندی اسناد متنی الکترونیکی بر اساس دانش پس‌زمینه و وزن‌دهی ابعاد و مفاهیم

نویسنده:

محمد زنجانی

نوع منبع :

رساله تحصیلی , کتابخانه عمومی

وضعیت نشر :

ایرانداک,

کلیدواژه‌های اصلی :

چندمعنایی , واژگان , زبان فارسی , هستی‌شناسی , تحلیل معنایی , علوم و علوم کاربردی , زبان نوشتاری , معنی‌شناسی , واژ , هستان‌شناسی فارس‌نت , رفع ابهام از معانی کلمه , فاکتورگیری نامنفی ماتریس , خوشه‌بندی متنی , ابهام‌زدایی , ارزش‌سنجی , پس زمینه , تجزیه و تحلیل معنایی , خوشه‌بندی سند , متن الکترونیکی

چکیده :

خوشه‌بندی یا دسته‌بندی بدون نظارت با سازمان‌دهی پیکره‌های بزرگ متنی، نقش کلیدی در پیمایش و مرور آسان انبوهی از متون دارد. نقش این سازمان‌دهی در موتورهای جستجو برای ارائه‌ خوشه‌های معنادار مرتبط با پرس‌و‌جو، جهت پیشگیری از سردرگمی کاربر در حجم عظیمی از اسناد بازیابی شده بیشتر نمایان می‌شود. علاوه بر مشکلاتی نظیر تعداد ابعاد بسیار زیاد و تحلیل خوشه‌ای، متاسفانه دیدگاه متعارف خوشه‌بندی‌های افرازی و سلسله‌مراتبی، به متن، همانند کیسه‌ای از کلمات است که در نتیجه در مقایسه‌ها فقط شباهت‌های ظاهری اسناد مورد توجه قرار می‌گیرد. در این نوع دیدگاه، کلمات یا تِرم‌ها کاملا ناهمبسته‌اند و به روابط کلمات (مثل هم‌معنایی و شمول) توجهی نمی‌شود. همچنین تلاشی برای رفع ابهام از کلمات چند‌معنایی صورت نمی‌گیرد. عدم توجه به این گونه مسائل غالبا منجر به خوشه‌بندی با ‌کیفیت پایین و یا غیرمعنایی می‌شود.در این تحقیق، زبان فارسی با توجه به اهمیت آن به عنوان یکی از زبان‌های زنده دنیا و رشد روزافزون متون الکترونیکی به زبان نوشتاری فارسی، مورد توجه قرار گرفته است. ایده اصلی یافتن توصیف‌های مناسب برای دانش پس‌زمینه و غنی‌سازی متن فارسی با استفاده از آن جهت افزایش کیفیت خوشه‌بندی است. برای نیل به این مقصود از منبع دانش خارجی با نام واژ-هستان‌شناسی فارس‌نت استفاده شده است. با کمک فارس‌نت عملیات رفع ابهام از دسته‌های معنایی کلمه صورت پذیرفته، روابط هم‌معنایی و شمول مربوط به معنای کلمه رفع ابهام شده، وارد بردار کلمات متن می‌شود. همچنین برای خوشه‌بندی متنی بر رهیافت نمایش مبتنی بر اجزاء یا فاکتورگیری نامنفی ماتریسِ ترم-متن تاکید شده است. نتایج ارزیابی‌های صورت گرفته بر روی پیکره استاندارد متنی همشهری، نشان از بهبود کیفیت خوشه‌بندی متون فارسی غنی‌شده (بخصوص با رابطه شمول) در مقایسه با خوشه‌بندی خام دارد. همچنین تاثیر این روابط در بهبود کیفیت خوشه‌بندی و نیز توضیح خوشه‌ای بر پایه فاکتورگیری نامنفی ماتریس بیشتر از خوشه‌بندی Bisecting Kmeans بوده است.

مشخصات اثر

عنوان :

مدیریت سوالات متداول فارسی کاربران مبتنی بر هستان شناسی و پروفایل کاربری

نویسنده:

مرتضی پوررضا شهری

نوع منبع :

رساله تحصیلی , کتابخانه عمومی

وضعیت نشر :

ایرانداک,

کلیدواژه‌های اصلی :

بازیابی اطلاعات , زبان فارسی , هستی‌شناسی , علوم و علوم کاربردی , نظام‌های اطلاعاتی مدیریت , خوشه‌بندی داده‌ها , سوالات متداول کاربران , پروفایل کاربر , علوم کامپیوتر،‌کاربردهای میان رشته ای

چکیده :

سیستم‌های مدیریت سوالات متداول کاربران، FAQ، در سال‌های اخیر توجه بسیاری را به خود جلب نموده است. این سیستم‌ها تا حد زیادی هزینه‌های پشتیبانی محصولات تولیدکنندگان را کاهش می‌دهند. هدف از این تحقیق پیاده‌سازی سیستم مدیریت سوالات متداول فارسی مبتنی بر هستان‌شناسی و پروفایل‌های کاربری می‌باشد. در این تحقیق، هستان‌شناسی فارسی برای مفاهیم حوزه کامپیوتر ایجاد می‌شود. ابتدا سوالات ورودی، که همگی به زبان محاوره‌ای می‌باشند، به حالت رسمی فارسی تبدیل می‌شوند. پس از انجام پیش‌پردازش‌های لازم، به کمک روش پیشنهادی جدید، میزان شباهت معنایی پرسش‌ها با یکدیگر سنجیده می‌شود و در یک ماتریس شباهت ذخیره‌سازی می‌گردد. با استفاده از الگوریتم خوشه‌بندی پیشنهادی، این پرسش‌ها در خوشه‌هایی که پرسش‌های داخل هر خوشه، از نظر معنایی به یکدیگر شباهت دارند، قرار داده می‌شوند. پرسش‌هایی که در خوشه‌های با اعضای بیشتری هستند، به عنوان پرسش‌های پرتکرار در نظر گرفته می‌شوند و با استفاده از این خوشه‌ها، لیست پرسش‌های متداول استخراج می‌گردد.هر کاربر با وارد کردن پرس و جوی موردنظر خود، لیستی از پرسش‌های مرتبط با پرس وجوی ورودی را دریافت می‌کند. در حین کار با سیستم، برای هر کاربر با توجه به شیوه کار با سیستم و پرس وجوهای ورودی، پروفایل‌هایی ایجاد می‌شود که در پرس و جوهای بعدی از این پروفایل‌ها برای بهبود نتایج جستجو استفاده می‌شود. با یک الگوریتم بازیابی نوین، با استفاده از پروفایل‌های کاربری، نتایج مرتبط پرسش کاربر استخراج می‌شود.

مشخصات اثر

عنوان :

استخراج حقایق از متون فارسی در قالب RDF

نوع منبع :

رساله تحصیلی , کتابخانه عمومی

وضعیت نشر :

ایرانداک,

کلیدواژه‌های اصلی :

زبان فارسی , هستی‌شناسی , شبکه معنایی , پردازش زبان طبیعی , علوم و علوم کاربردی , وب معناشناختی , استخراج اطلاعات , گردآوری اطلاعات , علوم کامپیوتر،‌کاربردهای میان رشته ای , چارچوب توصیف منابع , زبان پرس و جو , پروتکل اسپارکل

چکیده :

با توجه به حجم عظیم دانش و اطلاعات بشر و رشد روزافزون مستندات در زمینه‌های مختلف، پردازش زبان‌های طبیعی و تبدیل متون به دانش قابل فهم برای ماشین، مورد توجه قرار گرفته است. با استفاده از سیستم‌های استخراج اطلاعات می‌توان بطور خودکار پایگاه دانشی ساخت‌یافته از متون ایجاد کرد. در واقع هدف یک سیستم استخراج اطلاعات، استخراج حقایق از متون غیرساخت‌یافته و نمایش آن‌ها در قالب‌های ساخت‌یافته مانند سه‌گانه‌های RDF می‌باشد. اگر حقایق در قالب معنایی RDF نگاشت شوند، می‌توان اطلاعات مورد نیاز را با ساخت و ارسال پرس‌وجوهای SPARQL روی پایگاه دانش بدست آورد. در این پایان‌نامه، روشی برای استخراج آزاد حقایق از متون زبان فارسی پیشنهاد شده است که در آن استخراج حقایق در سطح جمله و بر اساس تشخیص افعال و روابط وابستگی‌ بین اجزای جمله انجام می‌شود. راه‌کار پیشنهادی، حقایق اصلی را بر اساس فعل و حقایق فرعی را بر اساس روابط بین گروه‌های اسمی جمله استخراج و برای تبدیل به قالب RDF آماده‌سازی می‌کند. برای نگاشت حقایق در قالب معنایی RDF، URI قسمت‌های نهاد، مسند و گزاره یک حقیقت با استفاده از شبکه واژگان و ویکی‌پدیا شناسایی می‌شود. در نتیجه در راه‌کار پیشنهادی شبکه واژگان فردوس‌نت بصورت خودکار بر اساس شبکه واژگان انگلیسی ایجاد می‌شود. نتایج حاصل از ارزیابی نشان می‌دهد که روش پیشنهادی در استخراج حقایق موفق بوده و باعث بهبود دقت و فراخوانی نسبت به سیستم‌های موجود می‌شود. علاوه بر‌این سیستم پیشنهادی حقایق را در قالب معنایی RDF استخراج می‌کند.

مشخصات اثر

عنوان :

دسته‌بندی اسناد فارسی به کمک هستان‌شناسی فارس‌نت

نویسنده:

صباسادات مدنی

نوع منبع :

رساله تحصیلی , کتابخانه عمومی

وضعیت نشر :

ایرانداک,

کلیدواژه‌های اصلی :

زبان فارسی , هستی‌شناسی , سند الکترونیکی , شبکه معنایی , روابط معنایی , ابهام‌زدایی , علوم و علوم کاربردی , علوم کامپیوتر، هوش مصنوعی , دسته‌بندی , دسته بندی متون فارسی , آنتولوژی فارس نت , بردار مشخصه معنایی , عملیات رفع ابهام , فارس‌نت

چکیده :

با توجه به رشد روزافزون اسناد الکترونیکی، نیاز به یک دسته بند کارا در حوزه داده کاوی واضح است. اخیراً به منظور افزایش دقت دسته بندی، استفاده از آنتولوژی لغوی به عنوان مرجع خارجی و نیز استخراج دانش از متون در فرآیند دسته بندی، مطرح شده است؛ از این رو، هدف از انجام این پروژه ارائه و پیاده سازی سیستم دسته بندی خودکار اسنادی است که آنتولوژی لغوی فارس نت را در عملیات دسته بندی داخل می نماید. این امر منجر به افزایش اوزان کلمات مرتبط با دانش پیش زمینه متن می شود. راهکار پیشنهادی برای استفاده از آنتولوژی لغوی، تمرکز بر روی بردار مشخصه ی معنایی را محور فعالیت های خود قرار داده است؛ تا بدین وسیله فرآیند دسته بندی را بهبود بخشد. در این پروژه ضمن بررسی و مطالعه ی روش های بکارگیری آنتولوژی لغوی در فرآیند دسته بندی، آنتولوژی لغوی فارس نت را به منظور استخراج روابط معنایی استفاده می نماییم.در سیستم ارائه شده، کلیه ی اجزاء تشکیل دهنده ی سیستم دسته بندی شامل پردازشگر لغوی، کاهنده ی ویژگی، انتخاب کننده ی ویژگی، وزن دهی به ویژگی و طبقه بندی کننده اسناد، لحاظ شده است. در این پروژه الگوریتم χ^2 در بخش انتخاب مشخصه و روش وزن دهی ویژگی نرمال شده TFIDF در بخش وزن دهی به کار گرفته می شود. پیش از اعمال روش وزن دهی به مشخصه ها، بردار مشخصه معنایی برای هر کلمه کلیدی توسط مفاهیم استخراج شده از آنتولوژی لغوی فارس نت، ایجاد می شود. نتایج ارزیابی های انجام شده نشان دهنده ی بهبود قابل توجهی در کارایی و دقت الگوریتم دسته بندی با بکارگیری آنتولوژی لغوی فارس نت است.

مشخصات اثر

عنوان :

بررسی استعاره‌های ظرف و مظروف در زبان فارسی مطبوعات

نویسنده:

حسین آذربایجانی

نوع منبع :

رساله تحصیلی , کتابخانه عمومی

وضعیت نشر :

ایرانداک,

کلیدواژه‌های اصلی :

ارزش (منطق) , ارزشهای خبری , زبان فارسی , هستی‌شناسی , معنی شناسی شناختی , استعاره , زبان شناسی , روزنامه‌‌نگاری , سرخط خبر , معنی‌شناسی , رسانه‌های خبری , استعاره ظرف و مظروف , زبان مطبوعات

چکیده :

نتایج پژوهش نشان داد که پاسخ به پرسش (1) می تواند مثبت باشد؛ با توجه به بسامد بالای 156 استعاره در 81 خبر، که تقریبا 2 استعاره در هر خبر است، می توان استعاره را نوعی از شگردهای بیان تلویحی در متون مطبوعاتی دانست.در پاسخ به پرسش (2) پژوهش و بر اساس تقسیم بندی لیکاف از انواع استعاره می توان گفت استعاره های جان بخشی با نسبت 24 به 156 حدودا 15 درصد از استعاره های موجود در پیکره را شامل می شدند. بعد از آنها استعاره های جهتی با 13 مورد رتبه دوم را داشتند و استعاره های ظرف و مظروف با فقط 8 مورد و 5 درصد از استعاره های موجود در پیکره، از کمترین بسامد برخوردار بودند. پاسخ پرسش (3) بیشترین ارتباط با وقوع همزمان در 69 خبر بین استعاره و ارزش خبری برخورد دیده می شود. بعد از آن ارزشهای خبری شهرت و شگفتی هستند که هر یک در 35 خبر با استعاره وقوع همزمان دارند. در رتبه سوم، ارزش خبری تازگی است که در 33 خبر وقوع همزمان با استعاره دارد. در 30 خبر وقوع همزمان استعاره و ارزش خبری مجاورت دیده می شود. در 26 خبر وقوع همزمان استعاره و ارزش خبری بزرگی را شاهدیم. و در پایان در 23 خبر وقوع همزمان استعاره و ارزش خبری دربرگیری را داریم. پس بیشترین ارتباط استعاره را می توان با ارزش خبری برخورد مشاهده کرد و ارزشهای خبری بعدی به ترتیب فوق در ارتباط با استعاره دیده می شوند. حال به بررسی صحت و سقم فرضیه های پژوهش بپردازیم. آنچنان که در نمودارهای فصل 4 دیدیم، بسامد استعاره های موجود در تیتر و لید خبرهای پیکره تحقیق در بین 81 خبر به 156 استعاره می رسد؛ یعنی به طور متوسط 92/1 استعاره در هر خبر و این یافته فرضیه (1) پژوهش را در محدوده پیکره مورد بررسی تایید می کند. در مورد فرضیه (2) از میان 156 استعاره موجود در کل پیکره، 31 استعاره در تیترها و 125 استعاره در لیدها وجود دارد. استعاره های ظرف و مظروف دارای کمترین بسامد –هشت- و استعاره های جان بخشی دارای بیشترین بسامد -24- بوده اند. در میان ارزشهای خبری بیشترین بسامد -76- را ارزش خبری «برخورد» دارد؛یعنی از 81 خبر تنها پنج خبر فاقد این ارزش بوده اند. بدین ترتیب فرضیه (2) نیز پذیرفته می شود.اما در رد فرضیه (3) اذعان به این نکته ضروری است که در پیکره مورد بررسی استعاره های ظرف و مظروف از بسامد بسیار کمی برخوردار بودند؛ یعنی 8 استعاره در 81 خبر که چیزی حدود 10 درصد می شود و اگر بسامد نسبت به تعداد کل استعاره ها نیز در نظر گرفته شود به میزان ناچیز 5 درصد می رسیم.

مشخصات اثر

از :	{0}
پست الکترونیک :	{1}
تلفن :	{2}
دورنگار :	{3}
Aaddress :	{4}
متن :	{5}

جستجوي پيشرفته | کتابخانه مجازی الفبا

ورود

ثبت نام

در تلگرام به ما بپیوندید