کشف ارتباطات مفهومی آیات قرآن کریم در بستر تفاسیر قرآن با استفاده از تکنیکهای دادهکاوی
Article data in English (انگلیسی)
پژوهش پيش رو با کشف ارتباطهاي مفهومي بين آيات قرآن کريم از بين کتب تفسير، پردازش سريعتر و هوشمندتري را براي محققين قرآني فراهم آورده است. نتيجه اين تحقيق، تفسير يک آيه با آيات ديگر نيست؛ بلکه مجموعهاي است که به مفسر در جستوجوي مفاهيم آيات کمک ميکند. تفسير قرآن كريم در گرو معرفت به قرآن است و چون شناخت آن درجات گوناگونى دارد، بنابراين تفسير آن نيز مراتب مختلفي خواهد داشت (ترجمه تفسير الميزان، 1374، ص9). در اولويت اول، بهترين تفسير، تفسير ائمه اطهار خواهد بود و اولويت دوم، شاگردان برجسته طبقه اول محسوب مىشوند که در تفسير قرآن کريم از قرآن و روايات استفاده کردهاند (همان، ص14).
نوآوري اين تحقيق، استفاده از وجود ارتباط بين اجزای هر پاراگراف در کتب تفسيري است. همپاراگراف بودن يا باهمآيي دو آيه در يک پاراگراف در کتب تفسير و علوم قرآني، ميتواند ارتباط مفهومي بين آيات قرآن را مشخص كند. براي حذف دادههاي نويز احتمالي، ميتوان موارد کمتکرار را ناديده گرفت. به عبارت ديگر، همتراکنش بودن زياد يک يا چند آيه با يک يا چند آيه ديگر در پاراگرافهايي که بيش از يک قطعه آيه متفاوت دارند، ارتباط مفهومي آيات را نشان ميدهد. تاکنون با اين روش و به اين گستردگي، کاري مشاهده نشده است و نتيجه اين تحقيق ميتواند به شکل ابزاري مفيد براي دانشمندان و مفسرين علوم قرآني به کار رود.
-
-
- مراحل کار در اين تحقيق
-
ابتدا با نظر خبرگان، مجموعهاي از متون تفاسير موجود در برنامه جامع تفاسير نور بهعنوان دادههاي اين تحقيق انتخاب ميگردد. در گام بعدي، محدوده و آدرس آيات از متون استخراج ميشود. براي مشخص کردن آدرس هر آيه ميتوان از روش دستي يا روشهاي تشخيص هوشمند آيات قرآن کريم استفاده کرد. براي اين کار ميتوان از تحقيق شاهمحمدی، علیزاده، حبیبزاده بیژنی و مینایی بیدگلی (2012م) که براي تشخيص آيات قرآن کريم با رسمالخطهاي متفاوت در متن کتب فارسي و عربي انجام شده است، استفاده کرد. در گام بعد، محدوده پاراگرافها با علایم ويرايشي و قوانين مشخصي تعيين ميگردد. براي اين کار ميتوان از تحقيق الهيمنش و مينايي بيدگلي (1390) که در زمينه تشخيص محدوده جملات در متون عربي و فارسي انجام شده است، استفاده کرد. در گام بعد، تکه متن آيه به همراه شماره سوره و آيه و آدرس آيات در پاراگراف هر کتاب، استخراج و در جداول قرار ميگيرند. به اين شکل که به ازاي هر پاراگراف، آيات بهکاررفته در آن پاراگراف مشخص ميشود (در هر رکورد، يک تراکنش قرار دارد). در گام بعد، تعداد تکرار آيات با همديگر يا همنشيني آيات در پاراگرافها استخراج ميشود؛ و در گام بعد، موارد پرتکرار به دست ميآيد (قواعد باهمآيي و الگوهاي تکراري)؛ و در نهايت، با ترکيب تکنيکهاي دادهکاوي، برخي ارتباطات مفهومي قوي بين آيات قرآن کريم استخراج و پيشبيني ميگردد.
دادهكاوي، تركيبي از علوم آمار، هوش مصنوعي، يادگيري ماشين، شناسايي الگو و پايگاه داده است (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص31). دادهکاوي، فرايند کشف الگوهاي جالب و دانش از ميان حجم انبوهي از دادههاست. نحوه کار و جاي استفاده از تکنيکهاي دادهکاوي متفاوت است. مهمترين روشهاي دادهکاوي عبارتاند از:
1. کاوش الگوهاي مکرر: الگوهايي (مانند مجموعه اقلام، زيرساختارها يا زيرتواليها) که در زيرمجموعه دادهها با فراواني بالا ديده ميشوند، الگوهاي مکرر ناميده ميشوند.
2. خوشهبندي: به فرايندي اطلاق ميشود که مجموعهاي از اشيا به چندين دسته يا خوشه گروهبندي ميشوند؛ به ترتيبي که اشيای درون يک خوشه بسيار شبيه به يکديگر و اشيای خوشههاي مختلف بسيار متفاوتاند. در اين روش، تعداد خوشهها از قبل مشخص نيست و فقط اشيا گروهگروه ميشوند. اين روش جزء روشهاي بدون ناظر است.
3. ردهبندي: در اين روش الگوهايي برای توصيف دستههاي مهم دادهها استخراج ميشود. اين الگوها که ردهبند ناميده ميشوند، ميتوانند دادههاي جديد را به يکي از دستههاي ازپیشتعريفشده نسبت دهند. اين فرايند در دو گام انجام ميگيرد: در گام اول که يادگيري است، الگو ساخته ميشود و در گام بعدي، يعني ردهبندي، بهمنظور پيشگويي برچسبهاي دسته، از الگوی ساختهشده در گام اول استفاده ميشود. پس پيشبيني و تعيين نتيجه نهايي با اين روش است و مشخص ميکند نتايج با احتمال چند درصد امکانپذير است يا احتمالاً امکانپذير نيست. اين روش جزء روشهاي با ناظر است.
-
- مروري بر کارهاي انجامشده
تعيين ارتباط مفهومي متون کوتاه با بهرهگيري از تکنيکهاي دادهکاوي، کاربردهاي مفيدي را شامل ميشود؛ از جمله: ابهامزدايي از مفهوم کلمات، استخراج و بازيابي اطلاعات، نمايهسازي خودکار، انتخاب واژگاني، خلاصهسازي متن، تصحيح خودکار خطاهاي واژگاني، خوشه شدن واژه و متن، و... که به برخي از اين موارد در مقاله عابديني و مينايي بيدگلي (1390) اشاره شده است. پژوهشهاي انجامشده براي تعيين ارتباط بين آيات قرآن کريم را با توجه به روش بهکاررفته در آنها ميتوان به سه دسته تقسيم کرد که در ادامه بيان شده است.
در پژوهش صوفي و همكاران (1397) موضوعات مطرحشده ذيل تفسير هر آيه از کتاب تفسير راهنما، با نرمافزاري که به همين منظور تهيه شده، استخراج و در قالب جداول در پايگاه دادهها ذخيره گرديده است؛ مانند شكل 1 که شامل 1662 ستون به تعداد موضوعات و 6236 سطر به تعداد آيات ميباشد.
شکل 1 تشکيل پايگاهداده موضوعات آيات
با استفاده از تکنيک خوشهبندي سعي شده است ارتباطات موضوعي سورهها مشخص شود و با استفاده از الگوريتمهاي کشف الگوهاي مکرر، باهمآييهاي موضوعات آيات و قواعد باهمآيي ميان آنها استخراج شده است. براي کشف قواعد باهمآيي ميان موضوعات آيات، از الگوريتم Apriori[1] استفاده شده است.
نمونهاي از قواعد باهمآيي کشفشده بين موضوعات هر آيه با تعداد تکرار اين الگوي مکرر، در شكل 2 آمده است.
شکل 2 باهمآيي بين موضوعات بهکاررفته در آيات
اعتبارسنجي نتايج اين پژوهش، اكثراً براساس نظرات خبرگان صورت گرفته است. بخشي از نتايج اين مطالعه، در قالب درختوارهاي كه شباهت و نحوه ارتباط موضوعي و معنايي سورهها را نمايش ميدهد، ارايه گردیده و در ارزيابي شباهت سورهها و خوشههاي سورهها نيز از ضريب وارد و جاکارد استفاده شده است.
يکي از دلايل استفاده از تفسير راهنما در اين تحقيق، ردهبندي موضوعات ذيل آيات بيان گردیده است. در نتيجه، استخراج موضوعات هر آيه با برنامه آسانتر ميشود. در نهايت، اين تحقيق موضوعات مشترک بين سورهها و آيات قرآن کريم را با برنامه محاسبه ميکند که ميتواند خبرگان و محققين قرآني را در تعيين موضوعات هر آيه و سوره ياري کند (صوفي، و همكاران، 1397).
اما نظرات محققين در تعيين موضوع هر آيه ممکن است متفاوت باشد و بهتر است از چندين تفسير موضوعي استفاده شود و موضوعات هر آيه با توجه به تکرار در تفاسير مختلف، وزندهي شود. همچنين برخي آيات (مانند آيه 255 سوره بقره) طولانياند و موضوعات زيادي را دربر ميگيرند و با آيه ديگري که فقط يک موضوع دارد، ارتباط ضعيفي برقرار ميکنند که بهتر است آيات طولاني با توجه به موضوعات بهکاررفته در آنها، به جملههاي کوچکتري تقسيم شوند تا با تکههايي که همموضوعاند، ارتباط ايجاد شود.
در پژوهش سراج و همکاران (1392)، که در «گروه پژوهشي پويشگران قرآن» انجام شده، بخشي از دادههاي کتاب فرهنگ قرآن، منتشر شده توسط دفتر فرهنگ و معارف قرآن کريم، براي تعيين مشابهت موضوعي آيات، استخراج و پردازش گرديده است. در اين پژوهش، براي تعيين تشابه بين دو آيه، از دو روش استفاده شده است:
1. محاسبه تشابه آيات: آياتي که موضوعات مشترکِ بيشتر و موضوعات غيرمشترک کمتري دارند؛
2. امتيازبندي موضوعات: به اين شکل که به موضوعات عام و کلي کمتر از موضوعات خاص و کمرخداد اهميت داده شده است. نتيجه تحقيق در آدرس اينترنتي rel.alketab.org قرار گرفته است. يک نمونه از نتايج جستوجو از اين نرمافزار، در شكل 3 آمده است.
شکل 3 نمايش و مديريت ارتباط موضوعي آيات قرآن کريم از طريق رسم و نمايش گراف
براي محاسبه درصد تشابه، از فرمول مقابل استفاده شده است: Score (A∩B) / Score (A∪B)
در تحقيق صالحي شهرودي و همكاران (1392)، براي کشف ارتباطات معنايي ميان آيات قرآن کريم با استفاده از متنکاوي، از متن تفسير الميزان استفاده شده و بيشتر سعي شده است با روش معنايي و موضوعي، ارتباط بين آيات مشخص گردد. برای نمونه، اين پژوهش بر روي سوره حجر (در مدل سورهاي) و آيات تفسيري مرتبط با آيه 21 اين سوره (در مدل آيات مرتبط) اجرا گردیده و با چندين روش ـ آنگونه که در شكل 4 آمده ـ ارتباط بين اين آيه و آيات ديگر قرآن کريم تشخيص داده شده است (صالحي شهرودي و همكاران، 1392). این روشها عبارتند از: 1. بيشترين کلمات مشترک بين آيات؛ 2. نوع بيان آيه (بيان خداوند متعال درباره خود؛ و بيان خداوند درباره مخلوقاتش)؛ 3. آيات ذيل تفسير هر آيه از تفسير الميزان؛ 4. نحوه چينش يا اولويت هر موضوع در آيات (ترتيب موضوعات)؛ 5. بيشترين موضوع مشترک بين اين آيه و آيات ديگر بر مبناي موضوعات مطرحشده در تفسير الميزان (تعداد تکرار در نظر گرفته شده است)؛ 6. ترتيب آيات بر اساس مفهوم و غايت و فايده بيانشده ذيل تفسير هر آيه توسط علامه در تفسير الميزان؛ 7. محاسبه ترتيب سوره و ترتيب آيه و ترتيب شأن نزول آيات و نام سوره و شماره جزء و حزب و صفحه و... .
شکل 4 برخي روشهاي محاسبه اشتراک دو آيه
در اين تحقيق، يک پيکره موضوعي از آيات قرآن کريم تشکيل شده است که شامل بخش تفسيري براي ارزيابي نتايج و بخش تشخيصي بههمراه کدگذاري موضوعات براي اجراي تکنيکهاي دادهکاوي است. موضوعات اين پيکره - که از تفسير الميزان استخراج شده - شامل هفت موضوع است و الگوريتمهاي دادهکاوي بهصورت نمونه روي سوره حجر و آيه 21 اين سوره اجرا شده که از بين اين اجراها، ده الگوريتم دادهکاوي، نتيجه اين تحقيق را تشکيل داده است. همانگونه که در شكل 5 دیده ميشود البته اين هفت موضوع به سه موضوع کليتر تقسيم شده و الگوريتمهاي دادهکاوي بر مبناي اين سه موضوع هم آزمايش شده است (همان).
شکل 5 نمونهاي از انتخاب کد هفت موضوعي و سه موضوعي براي هر آيه
در اين تحقيق با استفاده از نرمافزار کلمنتاين، دادهکاوي روي الفاظ قرآن و دادهکاوي معنايي با موضوعات موجود در تفسير الميزان و شأن نزول آيات انجام شده و نتايج اجراي سه الگوريتم قواعد باهمآيي و خوشهبندي و ردهبندي در نرمافزار کلمنتاين به دست آمده است. در اين پژوهش، تعيين تشابه تنها براي يک آيه، يعني آيه 21 سوره حجر انجام شده که 72 آيه مرتبط براي اين آيه تعيين گردیده است.
در پژوهش شرف و آتول (2012م) سعي شده است روشي براي تعيين ارتباط بين متون کوتاه تعيين شود و در نهايت، پيکره زباني QurSim براي ارزيابي ارتباط بين متون کوتاه تهيه شده است و براي مطالعه موردي، از قرآن کريم و تفسير ابنکثير استفاده گردیده و با سه روش، اين ارتباطات تشخيص داده شده است: 1. استخراج آيات ذيل تفسير آيه جاري در تفسير ابنکثير؛ 2. آياتي که بيشترين ريشه کلمات مشترک بين آيات را دارند؛ 3. آياتي که بيشترين مرجع ضمير مشترک را دارند.
اين پژوهش با استفاده از ابزار مصورسازي گراف، تجسم بهتري از آيات مرتبط را امکانپذير کرده است. در گراف، هر گره نماينده يک آيه و فلشها تعداد ريشههاي مشترک بين آيات مرتبط را نشان ميدهند. نمونهاي از مصورسازي در شكل 6 آمده است (همان).
شکل 6 آيات مرتبط با آيه 187 سوره اعراف (ارتباطات مستقيم و غيرمستقيم)
در اين تحقيق از الگوی فضاي برداري براي محاسبه تشابه بين آيات، از طريق ريشه کلمات بهکاررفته در آيه استفاده شده است. فاصله بين آيات، با مقايسه کسينوس زاويه بين بردارها اندازهگيري ميشود. هر آيه از قرآن يک سند جداگانه در نظر گرفته ميشود و در سايت مرتبط با اين تحقيق،[2] مقالات مرتبط با آن و همچنين دادههاي ارتباط بين آيات، در قالب فايل متني و جداول و در نهايت مصورسازي و برخي برنامههاي کاربردي، که در آنها از نتيجه اين تحقيق استفاده شده، آمده است.
در مقاله آدلکه، سامسودین، مصطفی و ناوی (2018م)، رويکرد انتخاب ويژگيها براي پيشبيني برچسب هر آيه، استفاده از چندين سند مختلف داده متني، بهعلاوه متن قرآن کريم پيشنهاد شده است. سپس از روش پيشنهادي [3]GBFS براي برچسبگذاري آيات قرآني دو منبع اصلي، ترجمه انگليسي و تفسير، استفاده ميشود.
شکل 7 رويکرد انتخاب ويژگيها مبتني بر هر گروهبندي
در شكل 7، چارچوب روش پيشنهادي GBFS که شامل چهار مرحله است، نشان ميدهد: کسب اطلاعات، پيشپردازش دادهها، پيادهسازي و پيشبيني نتايج، از چند منبع - که ترکيبي از ترجمه و تفسير قرآن است - جمعآوري ميشود و داده نهايي، تلفيقي از هر دو منبع است. سپس خصوصيات داده ترکيبي (دادههاي متني ترجمه انگليسي و تفسير ابنکثير)، با استفاده از تابع StringToWord Vector و روش weighted TF-IDF در نرمافزار weka پيشپردازش ميشود و سپس از معيارهايinformation gain, chi square, Pearson correlation coefficient, relief, and correlation-based براي محاسبه تشابه استفاده شده است و در نهايت با چهار روش ردهبندي: شبکههاي بيز (Bayes naive)، ماشينهاي بردار پشتيبان (libSVM)، نزديکترين همسايه (k-Nearest Neighbors) و درخت تصميم (J48)، دادهها در نرمافزار weka ارزيابي گردیده و در نهايت ثابت شده است که با ترکيب ترجمه انگليسي و تفسير ابنکثير، نتايج حاصله خيلي بهتر از حالتي است که فقط از ترجمه يا تفسير استفاده شود و معيار دقت 94.5٪ و AUC برابر با 0.944 به دست آمده است.
-
-
- تعيين ارتباط آيات با استفاده از الفاظ و واژگان قرآن (کلمات و ریشه های قرآن و ترجمه قرآن)
-
در پژوهش بشارت، یزدانسپاس و رشید (2015م) سعي شده است از اشتراک لفظي بين آيات قرآن کريم، تشابه بين آيات محاسبه شود و براي اين کار از چهار روش استفاده شده است: 1. ريشههاي مشترک بين آيات؛ 2. کلمات با اعراب مشترک بين آيات؛ 3. کلمات بدون اعراب مشترک بين آيات؛ 4. کلمات مشترک در متن ترجمه انگليسي آيات قرآن کريم؛ و نتايج با مجموعه QurSim (شرف و آتول، 2012م) مقايسه و در نهايت بيان شده است که هرچه تعداد ترجمههاي قرآن بيشتر باشد، نتيجه دقيقتري ميتوان از مقايسه کلمات مشترک در متن ترجمه آيات به دست آورد. نمونهاي از دادههاي استفادهشده در اين تحقيق، در جدول 1 نمايش داده شده است (بشارت، یزدانسپاس و رشید، 2015م).
جدول 1 نمونهاي از دادههاي استفاده شده در پژوهش
ارزيابي نتايج با استفاده از چندين معيار (ضريب همبستگي پيرسون، تشابه جاکارد، فاصله اقليدسي و تشابه کسينوسي) انجام گرفته و خروجي در جدول 2 نشان داده شده است.
جدول 2 ارزيابي مقادير تشابه و فاصله آيات با معيارهاي کسينوسي و اقليدسي و جاکارد و پيرسون
در پژوهش خالقي و جليلوند (1390)، جدولي شامل 6348 رکورد براي آيات و 1905ستون معادل تعداد ريشههاي غيرتکراري کلمات قرآن ايجاد شده و در نتيجه تکرار ريشههاي کلمات در کل متن قرآن کريم و همچنين ريشههاي مشترک بين آيات قرآن محاسبه شده و همچنين به وسيله باهمآيي موضوعات در آيات، قواعد باهمآيي زيادي بين موضوعات ايجاد شده و در همه موارد ضريب پشتيبان محاسبه شده است. در اين تحقيق از الگوريتم Apriori و نرمافزار متلب استفاده گرديده است و مقادير پشتيبان و اطمينان و ليفت و... براي ارزيابي تشابه بين آيات، محاسبه شده است.
در تحقيق الطورایف (2017م)، از روش [4]CRISP-DM (شرر، 2000م) براي فرايند کشف دانش استفاده شده و پيشپردازش روي متن و کلمات قرآن و انجيل انجام گرفته است و کلمات کمارزش حذف شدهاند. سپس با استفاده از چندين روش، از جمله تشابه LSA[5] و تعداد تکرار کلمات در هر آيه و کلمات مشترک بين دو آيه، تشابه و تفاوتهاي بين قرآن و انجيل را بررسي کرده و پيادهسازي اين روشها در زبان R انجام شده است.
در تحقيق سلامت، رحمان، رمضانی و دارمالکسانا (2016م) با استفاده از روش k-means آيات قرآن به دو شیوه خوشهبندي شده است: يکبار با استفاده از کلمات غيرپيراسته و بار ديگر با استفاده از کلمات پيراسته؛ و در نهايت آيات قرآن در سه خوشه قرار گرفته است.
در پژوهش علي (2012) روشي براي ارايه يک پيكره متني براي قرآن به شكل گراف توصيه شده است. در اين پژوهش، از الگوريتم كاوش زيرمسيرهاي پرتكرار روي گراف پيکره متني قرآن براي کشف الگوهاي مكرر در قرآن استفاده گردیده است. روش پيشنهادي براي چهار سوره ابتدايي قرآن پيادهسازي و در نهايت شرح داده شده است كه الگوهاي پرتكرار ميتوانند براي خوشهبندي آيات مشابه و نمايهسازي مفهومي به کار روند.
در پژوهش آکور، الصمدی و الاعظم (2014م) پس از استخراج، نرمالسازي و پيراستهسازي کلمات، از معيار TF-IDF براي تعيين آيات مشابه استفاده شده است. براي بهتر شدن نتيجه، کلمات غيرمهم نيز حذف شدهاند. روش پيشنهادي در اين مقاله، MQVC[6] ناميده شده است. براي ارزيابي اين روش، نتيجه کار براي چهل آيه بهصورت تصادفي با نظر افراد خبره مقايسه شد. سپس با استفاده از روش N-gram و الگوريتم ردهبندي LibSVM از نرمافزار Weka، سورههاي قرآن به دو دسته مکي و مدني تقسيم گرديد.
در تحقيق عطايي (1389)، با محاسبه فراواني تكرار كلمات در سورههاي قرآن، تعداد كلمات مشابه بين هر دو آيه معيار ارزيابي شباهت آيات در نظر گرفته شده و با توجه به تعداد آيات مشابه در هر دو سوره قرآن، ماتريس شباهت سورهها ايجاد گردیده است.
در مورد تعيين ارتباط آيات با استفاده از واژگان و الفاظ آيات و ترجمههاي آن ميتوان گفت در اين نوع تحقيق، مبناي تشابه، ارتباط الفاظ و ترجمههاي قرآن است که کاملاً توسط ماشين انجام ميشود؛ در نتيجه، ارتباطات ضعيفي توليد ميشود؛ زيرا در خيلي از موارد با زبان تمثيل و کنايه صحبت شده و لازمه تعيين تشابه براي اين موارد، درک مفهوم آيات قرآن کريم است؛ همچنين برخي کلمات چندوجهياند و معاني متفاوتي دارند؛ مثلاً آيه 8 سوره هود را در نظر بگيريد که در آن، کلمه «امت» به معناي «ملت» ذکر شده است. اما اين کلمه در قرآن ممکن است معاني ديگري مانند «رهبر» يا «دوره زماني کوتاه» هم داشته باشد.
-
- فرايند روش پيشنهادي
1. شرح دادههاي تحقيق و نحوه جمعآوري آنها؛ 2. توضيح روش پيشپردازش دادهها؛ 3. بيان ارتباط تكنيکهاي باهمآيي و محاسبه پشتيبان و اطمينان و معيار ليفت و معيار جاکارد، با هدف تشکيل جدول مشابهت؛ 4. محاسبه ماتريس درهمريختگي و شرح معيارهاي تفسير و ارزيابي روشهاي ردهبندي و الگوهاي تکراري؛ 5. بيان دليل استفاده از اين مجموعه دادهها.
در اين پژوهشها براي به دست آوردن داده مناسب، فرايند کشف دانش بارها انجام ميشود که اين فرايند شامل مراحل زیر میباشد: 1. انتخاب دادهها؛ 2. پيشپردازش دادهها (یک. استخراج و گردآوري؛ دو. يکپارچهسازي؛ سه. تشکيل انباردادهها)؛ 3. تبديل دادهها به جداول مورد نياز؛ 4. دادهکاوي روي جداول (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص15-17) و در نهايت، نتايج با استفاده از نظر خبرگان و روشهاي ارزيابي خروجي تکنيکهاي دادهکاوي، ارزيابي ميگردد.
در اين تحقيق، کشف دانش شامل شش مرحله است که در شكل 8 نمايش داده شده است. در ادامه به بررسي دقيقتر هر يک از اين مراحل ميپردازيم.
شکل 8 مراحل کشف دانش در اين تحقيق بر اساس استاندارد[7] [8]CRISP-DM (شرر، 2000م)
در اين تحقيق، متفاوت با روشهاي قبلي، ارتباط بين آيات قرآن کريم از باهمآيي آيات در هر پاراگراف از متن تفاسير استخراج گرديد. بنابراين به ازاي هر ارتباط، آدرسها و مستندهايي در متن تفاسير قرآن کريم وجود دارد. با توجه به نظر خبرگان علوم قرآن، فهرستي از کتابهاي تفسير و علوم قرآني انتخاب شد و متن اين کتب استفاده شد. خروجي اين تحقيق ميتواند بهعنوان ابزار کمکي براي مفسران و پژوهشگران علوم قرآني مورد استفاده قرار گيرد.
شناخت مفهوم آيات، با توجه به روش تمثيلي و کنايي قرآن، کاري تخصصي و پيچيده است؛ ازاینرو، در اين تحقيق از نظرات خبرگان علوم تفسير قرآن - که در کتابهاي تفسيري بيان شده است - استفاده ميگردد. در اين تحقيق، از تفسير قرآن بهجاي خود قرآن استفاده شده است. بايد توجه داشت که در بسياري از تفاسير قرآن، تفسير لزوماً ترتيبي نيست و بهصورت آيهبهآيه انجام نشده است و آيات بر اساس موضوع تقسيم شدهاند. به عبارتي ديگر، در تفسير بسياري از آيات، کل سوره و حتي کل قرآن مدنظر مفسر بوده و در تفسير هر آيه، از مطالب آيات دیگر نيز استفاده شده است. اين تحقيق به دنبال يافتن روشي جديد برای کشف احتمال وجود همين ارتباطات با استفاده از تحليلهاي محاسباتي و الگوريتمهاي ماشيني و با اِعمال نظرات خبرگان (متون تفاسير) است.
با توجه به آزمايشها، بيشترين آيات مرتبط در متن کتب تفاسير وجود داشت؛ که در دادههاي نرمافزار جامع تفاسير نور متن تفاسير آماده و بازبيني شده و در آن، محدوده متن آيات و تفسير هر آيه و محدوده تفسير دسته آيات (مجموعه آيات) مشخص گردیده است. در نهايت، به پيشنهاد خبرگان، مجموعه دادههاي نرمافزار جامع تفاسير نور با 452 عنوان تفسير فارسي و عربي در 2092 جلد انتخاب شد.
خصوصيات دادههاي ورودي اين پروژه مشخص شد و بررسي اوليه دادهها با نرمافزارهاي ويرايشگر دادهها انجام گردید و پس از شمارش تعداد تکهآيات موجود در متن و مشورت با خبره، آيات ذکرشده در متن کتب موجود در نرمافزار جامع تفاسير نور استخراج و در قالب جداولي در پايگاه داده ذخيره شد.
براي به دست آوردن نتيجه مناسب، لازم است دادهها براي دادهکاوي آماده شوند. بدون اين کار اغلبْ نتايج مناسبي به دست نميآيد؛ زيرا در بیشتر موارد الگوريتمها در برابر دادههاي پيرايشنشده مقاوم نيستند و ممکن است خروجي آنها کاملاً متفاوت و اشتباه باشد. پيشپردازش نیز شامل مراحل جمعآوري داده، پالايش داده، يکپارچهسازي داده، انتخاب داده باکيفيت و مرتبط با تحقيق، و تبديل داده است (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص15).
براي اين کار، نرمافزاري تهيه شد که متن را بهعنوان ورودي دريافت ميکند؛ سپس با توجه به فرمتها[9] و علایم ويرايشي موجود آن را پردازش کرده و اجزای متن را در رکوردهاي جداگانهاي در جداول مختلف ذخيره ميکند و در حين اين فرايند، محدوده هر پاراگراف[10] و تکه متن آيه و شماره سوره/آيه و آدرس آيه و آدرس پاراگراف در متن کتاب تشخيص داده ميشود و ابتدا رکوردها بر اساس هر رخداد متن تکهآيه، ايجاد ميگردد؛ سپس آيات موجود در هر پاراگراف، در جدول جديدي قرار ميگيرد تا جدول تراکنشها براي اجراي تکنيکهاي دادهکاوي آماده شود. در نهايت، نتايج کار در پايگاه داده براي چند نوع داده، آزمايش و بررسي شد و بهترين داده با نظر خبره انتخاب گردید. سپس جداول نام سورههاي قرآن کريم، متن آيات و متن ترجمه آيات قرآن نيز طراحي و در پايگاه داده قرار گرفت.
-
-
-
- ايجاد بستري جهت ارائه و بررسي توسط کارشناسان تفسير
-
-
در اين مرحله، نرمافزاري برای ارائه دادهها و بررسي بيشتر تهيه شد و در اختيار خبرگان قرآني[11] قرار گرفت تا در اين مرحله، ارتقاي نرمافزار و شناسايي مشکلات دادهها و تعيين بهتر نحوه استخراج و ارائه دادهها، بررسي و بازبيني شود؛ و با نظر خبره، تغييرات زيادي در آن اعمال شد.
در ابزاري که براي کار پژوهشگران آماده گرديد، امکاني ايجاد شد تا بتوان تعداد حداقل همنشيني آيات و تعداد فاصله اين آيه با آيات اطراف که در يک سورهاند، قابل تنظيم باشد تا با بررسي ارتباطها توسط خبره، بهترين حالت انتخاب شود. البته در مرحله پيشپردازش دادههاي اين تحقيق، برخي از اين ارتباطها که تکرار کمتري دارند، با نظر خبره حذف گرديد.
براي بررسي صحت ارتباطها و تعيين حداقل تعداد تکرار توسط پژوهشگران، درخواستها و نيازهاي جديدي در برنامه احساس شد که عبارتند از:
ـ امکان انتخاب و محدودسازي به جوابهاي موجود در يک کتاب؛
ـ امکان انتخاب و محدودسازي بر اساس نوع تفسير، زبان، مذهب، قرن و...؛
ـ امکان نمايش آدرسهاي هر ارتباط و تکه آيه در کتابهاي تفسير با امکان مرتبسازي بر اساس: زبان، کتاب، مؤلف، مذهب، قرن و آدرس در هر کتاب؛
ـ امکان نمايش متن صفحه و پاراگراف ايجادکننده ارتباط بين آيات؛
ـ امکان تفکيک متن آيه اصلي و مرتبط و شماره سوره و آيه؛
ـ امکان انتخاب نام سوره و آيه و سپس مرتبطات آن آيه؛
ـ امکان انتخاب آيه با جستوجوي تکهاي از آيه در متن کل آيات؛
ـ امکان نمايش کل متن آيه و ترجمه آيه اصلي و مرتبط؛
ـ امکان نمايش گرافي همه مرتبطات آيه مبدأ و مرتبطهاي آيه مقصد تا چندين سطح.
اين امکانات به درخواست خبره علوم قرآني براي تکميل ابزار مفسريار، به برنامه اضافه شد. نمونهاي از خروجي اين ابزار در شكل 9 نشان داده شده است.
شکل 9 برنامه تشخيص ارتباط يک آيه از قرآن کريم با آيات ديگر
در اين نمونه آيه ولايت و خاتمبخشي امام علي را بررسي ميکنيم. از سي آيه همنشين پيداشده شش آیه اول که بيشترين تکرار را دارد، ذکر ميکنيم و از بقيه صرفنظر ميکنیم.
آيه جاري: «إِنَّما وَلِيُّكُمُ اللَّهُ وَرَسُولُهُ وَالَّذينَ آمَنُوا الَّذينَ يُقيمُونَ الصَّلاةَ وَيُؤْتُونَ الزَّكاةَ وَهُمْ راكِعُون» (مائده: 55).
آيات همنشين با بيشترين تکرار باهمآيي، در متن 452 عنوان تفسير فارسي و عربي بهترتيب بيشترين تکرار:
1. «يا أَيُّهَا الَّذينَ آمَنُوا أَطيعُوا اللَّهَ وَأَطيعُوا الرَّسُولَ وَأُولِي الْأَمْرِ مِنْكُمْ فَإِنْ تَنازَعْتُمْ في شَيْءٍ فَرُدُّوهُ إِلَى اللَّهِ وَالرَّسُولِ إِنْ كُنْتُمْ تُؤْمِنُونَ بِاللَّهِ وَالْيَوْمِ الْآخِرِ ذلِكَ خَيْرٌ وَأَحْسَنُ تَأْويلاً» (نساء: 59) [109 بار باهمآيي در متون تفاسير].
2. «يا أَيُّهَا الرَّسُولُ بَلِّغْ ما أُنْزِلَ إِلَيْكَ مِنْ رَبِّكَ وَإِنْ لَمْ تَفْعَلْ فَما بَلَّغْتَ رِسالَتَهُ وَاللَّهُ يَعْصِمُكَ مِنَ النَّاسِ إِنَّ اللَّهَ لا يَهْدِي الْقَوْمَ الْكافِرينَ» (مائده: 67) [71 بار].
3. «يَعْرِفُونَ نِعْمَتَ اللَّهِ ثُمَّ يُنْكِرُونَها وَأَكْثَرُهُمُ الْكافِرُونَ» (نحل: 83) [32 بار].
4. «حُرِّمَتْ عَلَيْكُمُ الْمَيْتَةُ وَالدَّمُ وَلَحْمُ الْخِنْزيرِ وَما أُهِلَّ لِغَيْرِ اللَّهِ بِهِ وَالْمُنْخَنِقَةُ وَالْمَوْقُوذَةُ وَالْمُتَرَدِّيَةُ وَالنَّطيحَةُ وَما أَكَلَ السَّبُعُ إِلاَّ ما ذَكَّيْتُمْ وَما ذُبِحَ عَلَى النُّصُبِ وَأَنْ تَسْتَقْسِمُوا بِالْأَزْلامِ ذلِكُمْ فِسْقٌ الْيَوْمَ يَئِسَ الَّذينَ كَفَرُوا مِنْ دينِكُمْ فَلا تَخْشَوْهُمْ وَاخْشَوْنِ الْيَوْمَ أَكْمَلْتُ لَكُمْ دينَكُمْ وَأَتْمَمْتُ عَلَيْكُمْ نِعْمَتي وَرَضيتُ لَكُمُ الْإِسْلامَ ديناً فَمَنِ اضْطُرَّ في مَخْمَصَةٍ غَيْرَ مُتَجانِفٍ لِإِثْمٍ فَإِنَّ اللَّهَ غَفُورٌ رَحيمٌ» (مائده: 3) [31 بار].
5. «النَّبِيُّ أَوْلى بِالْمُؤْمِنينَ مِنْ أَنْفُسِهِمْ وَأَزْواجُهُ أُمَّهاتُهُمْ وَأُولُوا الْأَرْحامِ بَعْضُهُمْ أَوْلى بِبَعْضٍ في كِتابِ اللَّهِ مِنَ الْمُؤْمِنينَ وَالْمُهاجِرينَ إِلاَّ أَنْ تَفْعَلُوا إِلى أَوْلِيائِكُمْ مَعْرُوفاً كانَ ذلِكَ فِي الْكِتابِ مَسْطُوراً» (احزاب: 6) [30 بار].
6. «وَالْمُؤْمِنُونَ وَالْمُؤْمِناتُ بَعْضُهُمْ أَوْلِياءُ بَعْضٍ يَأْمُرُونَ بِالْمَعْرُوفِ وَيَنْهَوْنَ عَنِ الْمُنْكَرِ وَيُقيمُونَ الصَّلاةَ وَيُؤْتُونَ الزَّكاةَ وَيُطيعُونَ اللَّهَ وَرَسُولَهُ أُولئِكَ سَيَرْحَمُهُمُ اللَّهُ إِنَّ اللَّهَ عَزيزٌ حَكيمٌ» (توبه: 71) [29 بار].
همانگونه که ملاحظه ميشود، موارد بهدستآمده بهطور کامل با آيه مورد بحث ارتباط مفهومي و معنايي دارند که بسیار به کار مفسر ميآيند و ميتوان ابزار را مفسريار ناميد.
براي حذف يا به حداقل رساندن پاسخهاي غلط يا نامربوط، از دامنه کتابي و فيلترِ حداقل تکرار استفاده شد. همانگونهکه در مثال یاد شده دیده ميشود، با افزايش تکرار به عدد شش تقريباً پاسخ غلط يا نامربوط ارائه نشده و مزيت اين ابزار، امکان استفاده از پرکاربردترين آيه همنشين است که اين ويژگي باعث ميشود ارزش محتوايي آيات همنشين بالا رود. با اِعمال تکنيکهاي دادهکاوي در مرحله بعد، سعي شد تا نتايج پيشبيني مشخص گردد.
با توجه به تعداد آيات قرآن کريم و زياد بودن حجم ارتباطات کشف شده، بررسي همه ارتباطات ممکن نيست. بنابراين، در تکنيکهاي دادهکاوي (در اين تحقيق تعيين الگوهاي پرتکرار و قواعد باهمآيي) از آياتي که باهمآيي بالاتري داشتند، براي تعيين ارتباط آيات استفاده شد. در ادامه، ابتدا روش مورد استفاده بهطور خلاصه توضيح داده ميشود؛ سپس نحوه اعمال تکنيکها روي دادههاي اين تحقيق بيان ميگردد.
جهت محاسبه ماتريس تشابه، از معيارهاي پرکاربرد دادهکاوي استفاده شد و مقادير پشتيبان و اطمينان و معيار همبستگي و تشابه جاکارد محاسبه گرديد. بعد از طراحي و ايجاد جداول، براي انجام اين تحقيق به جداولي نياز شد كه در طراحي آنها باهم بودن آيات در پاراگرافها مشخص باشد تا بتوانيم الگوريتمهاي مربوط به تكنيکهاي دادهكاوي را روي آن اعمال کنیم و الگوهاي پرتکرار و ارتباطات قويتر را استخراج و بازيابي نماييم. نمونهاي از اين جدول در جدول 3 نمايش داده شده است.
جدول 3 نمونه ارتباطات آيه اول از سوره اول با آيات ديگر و تعداد باهمآيي
براي تشکيل ماتريس وابستگي، جدولي که بهازاي هر آيه مرتبطات و تعداد تکرار آن را نشان ميدهد، تهيه گرديد؛ سپس معيار پشتيبان، اطمينان و همبستگي محاسبه شد. براي انجام اين کار بهازاي هر آيه، اگر پيش از اين براي اين آيه ارتباطي آورده نشده باشد، به جدول اضافه خواهد شد و در صورت وجود، تعداد تکرار آن افزوده میشود. بدين ترتيب، در پايان كار، جدولي خواهيم داشت كه 6236 سطر و 6236 ستون دارد، كه هر يک از اين سطرها و ستونها نشاندهنده يكي از آيات قرآناند. نمونهاي از معيارها که جهت محاسبه درصد ارتباط بين دو آيه و تشکيل ماتريس تشابه و براي وزندهي به يال بين دو آيه در گراف چندسطحي استفاده شده، در جدول 4 آمده است.
جدول 4 نمونهاي از معيارها جهت محاسبه درصد ارتباط بين دو آيه و تشکيل ماتريس تشابه
براي ارزيابي کمي و کيفي اين تحقيق، از دو روش مختلف استفاده شده است. در ابتدا از مقادير پشتيبان و اطمينان و معيار همبستگي ليفت و تشابه جاکارد و تشابه کسينوسي براي ارزيابي الگوهاي تکراري و قواعد باهمآيي و صحت کشف ارتباط بين آيات استفاده شد؛ و در ادامه، از معيار [12]F و منحني ROC[13] (حامل، 2009م)[14] براي ارزيابي و مقايسه نتيجه اين تحقيق با چند تحقيق ديگر استفاده گرديد. فرايند ارزيابي در شكل 10 نمايش داده شده است.
شکل 10 استفاده از دو رويکرد مختلف براي ارزيابي اين تحقيق
در برخي مواقع، حتي با بالا بودن مقدار معيار پشتيبان و معيار اطمينان در آنها، قانون جذابي نيستند. يکي از معيارهاي همبستگي ساده، ليفت ناميده ميشود که در آن، جذابيت يک قاعده باهمآيي ( ) با تقسيم معيار اطمينان آن قانون بر معيار پشتيبان شيء دوم، به دست ميآيد و نام ديگر اين مقدار، معيار جذابيت است و بهصورت زير تعريف ميشود:
(هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص238)
يکي ديگر از معيارهای محاسبه تشابه، معيار کسينوسي است که بهصورت زير محاسبه ميشود:
(هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص 81 و258)
يکي از معيارهاي ديگر محاسبه تشابه، معيار جاکارد است (تفاضل اين معيار از يک، فاصله را نشان ميدهد) که بهصورت زير محاسبه ميشود:
(هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص295)
براي نمايش گرافيکي ارتباط بين آيات و استفاده راحتتر پژوهشگران و تعيين مرتبطات سطوح بعدي و بررسي قواعد باهمآيي، نتايج حاصله بهصورت گراف چندسطحي نمايش داده شد؛ به اين شکل که آيه اصلي در مرکز دايره، و آيات مرتبط در محيط اولين دايره قرار ميگيرند و باهمآييهاي ديگر، در دايره بعدي؛ و همينطور ادامه مييابد. پارهخطِ نشاندهنده ارتباط بين دو آيه، با توجه به درصد ارتباط ضخيمتر يا نازکتر رسم ميگردد. البته با نظر خبره، جوابهايي که در متن تفاسير ذيل تفسير هر آيه وجود دارد، درصد بالاتري دارند. پس از بررسي و بهبود نحوه نمايش، نمونهاي از خروجي گراف در شكل 11 ارانه شده است.
شکل 11 نمايش گراف چندسطحي آيات مرتبط با آيه 55 سوره مائده
کد منبع رسم گراف چندسطحي، به زبان جاواست و نمونهاي از آن در سايت گيتهاب[15] در دسترس است.
نوآوري اين تحقيق، استفاده از وجود ارتباط بين اجزا در يک پاراگراف در کتب تفسيري است. به عبارت ديگر، ميتوان گفت آيات موجود در يک پاراگراف در کتب تفسير، مرتبطاند. اين روش براي کتب آسماني ديگر و همه زبانها و موضوعات ديگر، مانند احاديث، اشعار و... نيز قابل اجراست.
همپاراگراف بودن يا باهمآيي دو آيه در يک پاراگراف، با در نظر گرفتن تعداد تکرارهاي زياد و حذف نويزها در کتب تفسير و علوم قرآني، ميتواند ارتباط مفهومي بين آيات قرآن را مشخص کند. به عبارت ديگر، ميخواهيم با همتراکنش بودن زياد يک يا چند آيه با يک يا چند آيه ديگر در پاراگرافهايي که بيش از يک قطعه آيه متفاوت دارند، ارتباط مفهومي آيات را کشف کنيم.
با توجه به نظر خبرگان تفاسير و علوم قرآني در اين تحقيق، تعداد کلمات تکهآيه موجود در متن، در مرتبط بودن دو آيه در اين روش تأثيري ندارد و همچنين تعدد موضوعات مطرحشده در يک آيه (به علت طولاني بودن آن)، با توجه به استفاده از معيارهاي اطمينان و همبستگي، در وزن ارتباطات تأثيرگذار بوده است.
نتايج اين پژوهش نشان ميدهد كه استفاده از تكنيکهاي دادهكاوي ميتواند دانشي را كه پژوهشگران با صرف زمان خيلي زياد و مطالعات فراوان در زمينه قرآن به آن رسيدهاند، از ميان دادهها كشف و استخراج نمايد؛ همچنين مفاهيم و ارتباطات جديدي را از ميان دادهها استخراج و براي بررسي بيشتر به خبرگان ارائه دهد. در نهايت، اين تحقيق به توليد ابزاري مانند سيستم خبره در زمينه علوم قرآني براي کمک به تهيه سريعتر و مجموعهاي غنيتر براي تهيه تفسير قرآن کريم منجر ميگردد.
در قسمت قبل، شيوه پردازش متن جهت استخراج شماره سوره/آيه با حفظ آدرس و پاراگراف از متن کتب تفسير، بيان گردید و برخي تکنيکهاي مهم دادهکاوي مورد استفاده در اين تحقيق، توضيح داده شد. در اين قسمت، نتايج ارتباط بين آيات قرآن کريم بر اساس باهمآيي آيات در پاراگرافهاي موجود در تفاسير و مقايسه با الگوهاي ديگر و نظرات خبرگان بيان ميشود.
در اين تحقيق به کمک ابزاري، بيش از 12.5 ميليون[16] پاراگراف از متن کتب تفسيري بررسي شد. متن تکهآيه و آدرس پاراگرافي آن بههمراه شماره سوره/آيه استخراج شد و بهازاي هر رخداد آيه، يک رکورد در جدول تراکنشها ايجاد گرديد. در شكل 12 پاراگرافهاي آيهدار و بدون آيه مقايسه شده است.
شکل 12 مقايسه پاراگرافهاي آيهدار و بدون آيه
همانطور که در شكل 12 دیده ميشود، حدود 3.5 ميليون[17] پاراگراف آيهدار شناسايي شده است. اين پاراگرافها شامل 6.5 ميليون[18] تکهآيه است.
براي پيدا کردن ارتباط بين آيات بهکمک باهمآيي آيات در پاراگرافها، نياز است که پاراگرافهايي که بيش از يک آيه غيرتکراري دارند، استخراج شوند. ازاینرو اطلاعات بهدستآمده از مرحله قبل پردازش شد و نتايج که در شكل 13 نمايش داده شده، به شرح زير است:
1. حدود 3.5 ميليون پاراگراف با آيات غيرتکراري وجود دارد؛
2. بيش از نیم ميليون[19] از پاراگرافها حداقل دو آيه متفاوت دارند؛
3. جدول تراکنشها که در مرحله قبل شامل 6.5 ميليون رکورد بود، پس از حذف موارد تکراري، به حدود یک ميليون رکورد کاهش يافت.
شکل 13 فراواني پاراگرافها بر اساس تعداد آيات
-
-
- ارزيابي و تفسير و مقايسه نتايج با دادههاي واقعي يا آموزشي
-
پس از ساخت يک الگوی ردهبندي (براي پيشبيني رفتار آينده دادههاي ورودي)، لازم است که صحت و دقت اين الگو يا ردهبند در برخورد با دادههاي جديد بررسي شود. پس الگو بايد با دادههايي که براي آموزش استفاده نشدهاند، آزمايش شود. آيات ذيل تفاسير نرمافزار جامع تفاسير نور مبناي مقايسه قرار گرفت و نتيجه اين تحقيق و سه تحقيق ديگر، با اين دادهها مقايسه شد. با توجه به نظر خبرگان، از آيات تفسيري و شاهد موجود در تفاسير قرآن، ارتباط دو سویه استخراج گرديد.
-
-
-
- ماتريس درهمريختگي
-
-
برای ايجاد ماتريس درهمريختگي هر کدام از مقادير برچسب پيشبينيشده توسط ردهبند با برچسب واقعي مقايسه ميشود.
مثبتهاي درست (TP): موارد مثبتي که توسط الگوريتم ردهبند، درست برچسب مثبت خوردهاند.
منفيهاي درست (TN): موارد منفيای که توسط الگوريتم ردهبند، درست برچسب منفي خوردهاند.
مثبتهاي نادرست (FP): موارد منفيای که توسط الگوريتم ردهبند، به اشتباه برچسب مثبت خوردهاند.
منفيهاي نادرست (FN): موارد مثبتي که توسط الگوريتم ردهبند، به اشتباه برچسب منفي خوردهاند.
مقادير پيشبيني شده يا خروجي با دادههاي آزمايشي (Predicted)
No
Yes
مقادير واقعي يا خروجي با دادههاي يادگيري (Actual)
مثبتهاي واقعي
P=TP+FN
FN
TP
Yes
منفيهاي واقعي
N=FP+TN
TN
FP
No
Total=P+N
منفي پيشبيني شده
FN+TN
مثبت پيشبيني شده
TP+FP
شکل 14 ماتريس درهمريختگي (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص348)
با استفاده از مقادير موجود در ماتريس درهمريختگي ميتوان عملکرد الگوريتم ردهبند را براي تشخيص کلاسهاي مختلف مشاهده کرد.
-
-
-
- معيار F
-
-
معيار F ترکيبي از دقت[20] و بازخواني[21] است که کارايي و کيفيت الگوريتم ردهبندي را نشان ميدهد و در شرايط ايدئال يک، و در بدترين شرايط صفر است.
منحني معيار F بهازاي مقادير حد آستانههاي بين 1 تا 40 از روش پاراگرافي در شكل 15 آمده و بهترین آستانه با روش اين تحقيق که معيار F آن بالاترين مقدار است، در جدول 6 مشخص شده است.
شکل 15 منحني معيار F و انتخاب بهترين حد آستانه تعداد باهمآيي روش پاراگرافي
همانطورکه در شکل مشخص است، بيشترين مقدار معيار F با حد آستانه بين 5 تا 6 به دست ميآيد و مقادير دقيق در جدول 6 نشان داده شده است.
-
-
-
- منحني ROC مقايسه روش پاراگرافي و سه تحقيق ديگر با آيات ذيل تفسير هر آيه در کتب تفسير
-
-
منحني ROC[22] يکي از ابزارهاي مناسب براي مقايسه دو روش ردهبندي است. اين منحني نرخ TP و FP يک الگو را ارزيابي ميکند. محور عمودي يا Y آن TPR (نسبت مثبتهاي درست يا نرخ تشخيص صحيح دسته مثبت يا حساسيت)، و محور افقي يا X آن FPR (نسبت مثبتهاي غلط يا نرخ تشخيص غلط دسته منفي يا يک منهاي وضوح) است.
(هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص357)
سطح زير منحني ROC که در بازه صفر و يک ميباشد، [23]AUC ناميده ميشود و ميزان کارايي ردهبند را نشان ميدهد و هر اندازه مساحت زير منحني به مقدار 0.5 نزديکتر باشد، آن الگو صحت کمتري دارد و هر اندازه به يک نزديکتر باشد، الگوی ايدئال و کامل از نظر صحت بوده و الگوی بهتري است (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص360).
در ادامه، ماتريس درهمريختگي محاسبه گرديد و با استفاده از مقادير TP و FN وTF و FP از اين ماتريس، معيارهاي ارزيابي شامل معيارهاي دقت، صحت، بازخواني، معيارF محاسبه شد و در نهايت، بهمنظور مقايسه بصري ردهبندها، مقادير TPR و FPR محاسبه و منحني ROC ترسيم گرديد.
منحني ROC مقايسه روش پاراگرافي (و ريشههاي مشترک کلمات دو آيه[24] و روش QurSim-Revelance و روش موضوعات مشترک بين آيات) با آيات ذيل تفسير هر آيه در کتب تفسير، در شكل 16 مشاهده ميشود و مقدار دقيق آن در جدول 5 آمده است. با توجه به نتايج بهدستآمده از مقايسه نتيجه اين تحقيق با نظرات خبرگان،[25] بيشترين مقدار معيار F و بهترين حالت منحني ROC، متعلق به اين تحقيق است.
شکل 16 منحني ROC مقايسه روش پاراگرافي و سه روش ديگر با آيات ذيل تفاسير
-
-
-
- محاسبه بهترين حد آستانه با نمودار ROC و مقايسه مقادير دقيق ردهبندها
-
-
براي محاسبه بهترين حد آستانه، فاصله تمام مقادير روي منحني ROC با نقطه (0,1) را محاسبه ميکنيم و کمترين فاصله نقاط روي منحني تا نقطه (0,1) بهترين مقدار حد آستانه را نشان ميدهد.
پس از بررسي معيار دقت مشخص شد که تعدادي از ارتباطها در روش آيات ذيل تفاسير، يکطرفه است[26] و حدود 77000 مورد، ارتباطي که ارتباط برعکس آن در روش ذيل تفسير آيات نبود، با تأييد خبره اضافه شد و مقادير جدول 5 و جدول 6 به دست آمد و همچنين توسط خبره مشخص شد برخي ارتباطات جديد کشف شده است که در ذيل تفاسير نيامدهاند؛ ولي مناسباند.
مقايسه بهترين مقادير معيارهاي ارزيابي، زماني که فاصله منحني تا نقطه (0,1) در منحني ROC کمترين مقدار را نشان ميدهد، در جدول 5 آمده است.
Distance
Threshold
Acc.
F1-score
Recall
Prec.
پاراگرافي
0.054
1
0.949
0/682
0/984
0/522
موضوعي
0/482
16
0/999
0/667
0/517
0/939
QurSim_Revelance
0/469
2
0/999
0/674
0/530
0/926
QurSim_Root
0/477
1
0/999
0/670
0/522
0/937
جدول 5 محاسبه بهترين حد آستانه با محاسبه کمترين فاصله در منحني ROC - مرحله دوم
مقايسه بهترين مقادير معيارها در چهار روش، زماني که معيار F بهترين مقدار را نشان ميدهد در جدول 6 آمده است.
Datasets
SumTP
SumFN
SumFP
Prec.
Recall
Accuracy
F1-score
پاراگرافي
253775
103211
74501
0/773
0/710
0/995
0/740
QurSim_Revelance
31516
28438
1422
0/956
0/525
0/999
0/678
QurSim_Root
31200
29346
1106
0/965
0/515
0/999
0/672
موضوعي
32173
29944
2079
0/939
0/517
0/999
0/667
جدول 6 بيشترين مقدار معيار F براي حد آستانههاي متفاوت در همه روشها - مرحله دوم
در بخش اول این تحقیق، دادههاي جمعآوريشده از نظر حجم و تعداد تکهآيه و تعداد پاراگرافهاي قابل استفاده نسبتبه کل پاراگرافهاي آيهدار، بررسي شد. اين بررسيها بيشتر جنبه آماري داشت و با چند نمودار، علت انتخاب متن کتب تفاسير بهعنوان جامعه آماري، مشخص گرديده است. در اين نمودارها سعي شد تا گزارشي از وضعيت دادههاي تحقيق مشخص گردد.
در بخش دوم اين تحقيق، به دنبال شناسايي ارتباط بين آيات قرآن کريم بوديم. براي اين منظور، با استفاده از باهمآييهاي مكرر آيات در پاراگرافها، مقدار مكرر بودن باهمآييها بر اساس مقايسه با نظر خبرگان انتخاب گرديد. براي اينکار، از آيات ذيل تفاسير کتب تفسير استفاده شد و منحني ROC و معيار F محاسبه گرديد.
در بخش سوم، با توجه به محدوديتهاي زماني، نتايج چند تحقيق ديگر نيز با آيات ذيل تفاسير کتب تفسير مقايسه شد و منحني ROC و معيار F محاسبه گرديد. با توجه به نتايج بهدستآمده از مقايسه نتيجه اين تحقيق با نظرات خبرگان،[27] بيشترين مقدار معيار F و بهترين حالت منحني ROC، متعلق به اين تحقيق است.
هر يک از آيات قرآن دربر گيرنده مفهوم يا مفاهيمي است كه با توجه به شأن نزول آيات و بيان كنايي و تمثيلي قرآن، شناسايي و استخراج اين مفاهيم بايد توسط خبره و دانشمندان علوم قرآني انجام شود. تفاسير قرآن، منابع ارزشمندياند كه نظرات خبرگان قرآني در آنها بيان شده است. در اين پژوهش از ميان دادههاي موجود با نظر خبره و انجام آزمايش، متن کتب مجموعه جامع تفاسير نور مرکز تحقيقات کامپيوتري علوم اسلامي مبناي کار قرار گرفت و تمام تکهآيات موجود در اين کتب استخراج گرديد و سپس آياتي که با هم در يک پاراگراف بودند، استخراج شد و با اجراي تکنيکهاي آماري و دادهکاوي، الگوهاي مکرر مشخص گرديد و سپس اين موارد تحليل و ارزيابي شد.
از 12.5ميليون پاراگراف موجود، حدود 500 هزار پاراگراف بيش از يک تکهآيه غيرتکراري را شامل ميشد و براي تشخيص ارتباط و باهمآيي آيات استفاده گرديد.
در اين تحقيق، براي بررسي و نمايش ارتباط بين آيات، نرمافزار جديدي ايجاد شد. اين نرمافزار آيهاي را بهعنوان ورودي دريافت ميکند و مرتبطترين آيات به آن آيه، بههمراه متن کتب تفسير و گراف چندسطحي از ارتباطات آن آيه را بهعنوان خروجي نمايش ميدهد. سنجش ميزان ارتباط در اين نرمافزار، بر اساس تعداد باهمآييهاي دو آيه در پاراگرافها محاسبه ميشود.
نوآوري اين تحقيق ارائه روشي ماشيني جهت کشف ارتباطات مفهومي بين آيات قرآن کريم بر مبناي نظر خبرگان علوم قرآني است. به عبارت ديگر، استفاده از وجود ارتباط بين اجزا در يک پاراگراف در کتب تفسير و علوم قرآني، نوآوري اين تحقيق است. اين روش براي کتب آسماني ديگر و همه زبانها و موضوعات ديگر مانند احاديث، اشعار و... نيز قابل اجرا ميباشد.
توسعه نرمافزاري[28] براي مشخص نمودن مرتبطترين آيات از لحاظ مفهومي، يكي ديگر از نوآوريهاي اين تحقيق است كه آيهاي را بهعنوان ورودي دريافت و بهلحاظ مفهومي مرتبطترين آيات به آن را بازيابي مينمايد. اين نرمافزار ميتواند به پژوهشگران و مفسرين قرآن در شناسايي آيات مرتبط كمک نمايد و بهنوعي بهعنوان مفسريار مورد استفاده قرار گيرد.
- قرآن کريم به کتابت عثمان طه، 1171م، وزارت اوقاف سوريه.
- الهيمنش، م.، مينايي بيدگلي، ب.، 1390، «قوانين سيستم تشخيص حدود جمله»، رهآورد نور، ص41-48.
- خالقي، ا.، جليلوند، ن.، 1390، قواعد باهمآيي روي واژهها و کلمات هر آيه قرآن کريم، پاياننامه کارشناسي رشته مهندسي فناوري اطلاعات، تهران، دانشگاه علم و صنعت.
- سراج و همکاران، 1392، بازيابي در 6 6، 1397، از rel.alketab.org
- صالحي شهرودي، م.، مينايي بيدگلي، ب.، اشرفي، ا.، 1392، «متنکاوي موضوعي رايانهاي قرآن کريم، براي کشف ارتباطات معنايي ميان آيات، بر مبناي تفسير الميزان»، قرآنشناخت، ش12، ص117-152.
- صوفي، م.، علياحمدي، ع.، علياحمدي، ح.، مينايي بيدگلي، ب.، 1397، «خوشهبندي سورههاي قرآن با تکنيکهاي دادهکاوي»، علوم قرآن و حديث، ش101، ص103-120.
- طباطبايي، م.، 1374، ترجمه تفسير الميزان، ترجمه موسوي همداني، قم، جامعه مدرسين حوزه علميه قم.
- عابديني، ح.، مينايي بيدگلي، ب.، 1390، «کاربردهاي دادهکاوي در علوم اسلامي»، رهآورد نور، ص7-13.
- عطايي، ش.، 1389، تدبر در قرآن مجيد به كمک روشهاي دادهكاوي، چهارمين كنفرانس دادهكاوي، تهران.
- هان ژياوي، پي ژان، کمبر ميشلين، 1393، دادهکاوي مفاهيم و تکنيکها (ويراست سوم)، ترجمه اسماعيلي، تهران، نياز دانش.
- Adeleke, A. O., Samsudin, N. A., Mustapha, A., & Nawi, N. M. (2018). A Group-Based Feature Selection Approach to Improve Classification of Holy Quran Verses. International Conference on Soft Computing and Data Mining, (pp. 282-297).
- Akour, M., Alsmadi, I., & Alazzam, I. (2014). MQVC: measuring Quranic verses similarity and sura classification using N-gram. WSEAS Transactions on Computers.
- Ali, I. (2012). Application of a mining algorithm to finding frequent patterns in a text corpus: A case study of the Arabic. International Journal of Software Engineering and Its Applications, 6, 127-134.
- Alturayeif, N. S. (2017). Text Mining and Similarity Measures of the Quran and the Bible. School of Computing, Faculty of Engineering, University of Leeds.
- Basharat, A., Yasdansepas, D., & Rasheed, K. (2015). Comparative Study of Verse Similarity for Multi-lingual Representations of the Qur'an. Proceedings on the International Conference on Artificial Intelligence (ICAI). The Steering Committee of The World Congress in Computer Science, Computer Engineering and Applied Computing (WorldComp).
- Hamel, L. (2009). Model assessment with ROC curves. In Encyclopedia of Data Warehousing and Mining, Second Edition (pp. 1316-1323). IGI Global.
- Shahmohammadi, M., Alizadeh, T., Habibzadeh Bijani, M., & Minaei, B. (2012). A framework for detecting Holy Quran inside Arabic and Persian texts. LREC. 2012.
- Sharaf, A.-B., & Atwell, E. (2012). QurSim: A corpus for evaluation of relatedness in short texts. LREC. 2012. Retrieved June 7, 2017, from http://www.lrec-conf.org/proceedings/lrec2012/pdf/190_Paper.pdf
- Shearer, C. (2000). The CRISP-DM Model: The New Blueprint for Data Mining.
- Slamet, C., Rahman, A., Ramdhani, M. A., & Darmalaksana, W. (2016). Clustering the Verses of the Holy Qur'an using K-Means Algorithm. Asian Journal of Information Technology, 15, 5159-5162