، سال دوازدهم، شماره دوم، پیاپی 23، پاییز و زمستان 1398، صفحات 107-131

    کشف ارتباطات مفهومی آیات قرآن کریم در بستر تفاسیر قرآن با استفاده از تکنیک‌های داده‌کاوی

    نوع مقاله: 
    پژوهشی
    نویسندگان:
    محمد بزرگقمی زاده / گروه کامپيوتر، واحد کاشان، دانشگاه آزاد اسلامي، کاشان، ايران / mqomi@noornet.net
    ✍️ بهروز مینایی / دانشيار دانشکده مهندسي کامپيوتر دانشگاه علم و صنعت ايران / b_minaei@iust.ac.ir
    چکیده: 
    کشف ارتباط بین آیات قرآن، به درک دقیق تر آیات و شناخت بعضی مفاهیم مجهول کمک می کند. در کتب تفسیر، شماری از آیات مرتبط بیان شده است و باهم آیی دو آیه در یک پاراگراف در کتب تفسیر و علوم قرآنی، می تواند ارتباط مفهومی بین آیات قرآن را مشخص کند. کتب نرم افزار جامع تفاسیر نور، تولید مرکز تحقیقات کامپیوتری علوم اسلامی، مبنای کار قرار گرفت و از آیاتی که با هم در یک پاراگراف بودند، پُرتکرارترین باهم آیی ها استخراج شد. این پژوهش نشان می دهد که استفاده از تکنیک های داده کاوی می تواند ارتباط های پنهان میان داده ها را کشف و استخراج نماید. ارزیابی کمّی و کیفی این تحقیق، در دو مرحله انجام شده است؛ در ابتدا از ضرایب پشتیبان و اطمینان و معیار لیفت و تشابه جاکارد و تشابه کسینوسی برای ارزیابی الگوهای تکراری و قواعد باهم آیی و صحت کشف ارتباط بین آیات استفاده شد؛ سپس نتایج به‎دست آمده از مقایسه این تحقیق با کار محققان دیگر، برتری پژوهش حاضر را بر رقبای خود نشان می دهد. 
    Article data in English (انگلیسی)
    Title: 
    Discovering the Conceptual Relationships between Quranic Verses in the Light of Quran Commentaries by Using Data Mining Techniques
    Abstract: 
    Finding the relationship between Quranic verses contributes to a proper understanding of verses and to the understanding of some ambiguous concepts. In commentary books, a number of related verses are mentioned, and having pairs of verses in one paragraph in commentary books and books of Quranic sciences can demonstrate the conceptual relationship between Quranic verses. The software books of Jam’i Tafsir Noor published by the Center of Computer Research in Islamic Sciences devote special attention to extracting the most frequent conjunctions from the verses that come together in one paragraph. This study shows that using data mining techniques contribute to finding and showing the hidden correlations between the data. The qualitative and quantitative evaluation of this research has gone through two stages; in the first, the support and reliability coefficients, Lift criterion, Jaccard and cosine similarity were used to evaluate duplicate patterns, rules of coherence and accuracy of discovering the relationship between the verses and in the second, the results obtained from comparing this research with the work of other researchers show that the present research takes priority over the rivaling works
    References: 
    متن کامل مقاله: 

    ​​​​

     

      1. مقدمه

    پژوهش پيش رو با کشف ارتباط‌هاي مفهومي بين آيات قرآن کريم از بين کتب تفسير، پردازش سريع‌تر و هوشمندتري را براي محققين قرآني فراهم آورده است. نتيجه اين تحقيق، تفسير يک آيه با آيات ديگر نيست؛ بلکه مجموعه‌اي است که به مفسر در جست‌وجوي مفاهيم آيات کمک مي‌کند. تفسير قرآن كريم در گرو معرفت به قرآن است و چون شناخت آن درجات گوناگونى دارد، بنابراين تفسير آن نيز مراتب مختلفي خواهد داشت (ترجمه تفسير الميزان، 1374، ص9). در اولويت اول، بهترين تفسير، تفسير ائمه اطهار‰ خواهد بود و اولويت دوم، شاگردان برجسته طبقه اول محسوب مى‏شوند که در تفسير قرآن کريم از قرآن و روايات استفاده کرده‌اند (همان، ص14).

        1. نوآوري و روش تحقيق (چگونگي جمع‌آوري داده‌ها)

    نوآوري اين تحقيق، استفاده از وجود ارتباط بين اجزای هر پاراگراف در کتب تفسيري است. هم‌پاراگراف بودن يا باهم‌آيي دو آيه در يک پاراگراف در کتب تفسير و علوم قرآني، مي‌تواند ارتباط مفهومي بين آيات قرآن را مشخص كند. براي حذف داده‌هاي نويز احتمالي، مي‎توان موارد کم‌تکرار را ناديده گرفت. به عبارت ديگر، هم‎تراکنش بودن زياد يک يا چند آيه با يک يا چند آيه ديگر در پاراگراف‌هايي که بيش از يک قطعه آيه متفاوت دارند، ارتباط مفهومي آيات را نشان مي‌دهد. تاکنون با اين روش و به اين گستردگي، کاري مشاهده نشده است و نتيجه اين تحقيق مي‌تواند به شکل ابزاري مفيد براي دانشمندان و مفسرين علوم قرآني به کار رود.

        1. مراحل کار در اين تحقيق

    ابتدا با نظر خبرگان، مجموعه‌اي از متون تفاسير موجود در برنامه جامع تفاسير نور به‌عنوان داده‌هاي اين تحقيق انتخاب مي‌گردد. در گام بعدي، محدوده و آدرس آيات از متون استخراج مي‌شود. براي مشخص کردن آدرس هر آيه مي‌توان از روش دستي يا روش‌هاي تشخيص هوشمند آيات قرآن کريم استفاده کرد. براي اين کار مي‌توان از تحقيق شاه‌محمدی، علیزاده، حبیب‌زاده بیژنی و مینایی بیدگلی (2012م) که براي تشخيص آيات قرآن کريم با رسم‌الخط‌هاي متفاوت در متن کتب فارسي و عربي انجام شده است، استفاده کرد. در گام بعد، محدوده پاراگراف‌ها با علایم ويرايشي و قوانين مشخصي تعيين مي‌گردد. براي اين کار مي‌توان از تحقيق الهي‌منش و مينايي بيدگلي (1390) که در زمينه تشخيص محدوده جملات در متون عربي و فارسي انجام شده است، استفاده کرد. در گام بعد، تکه متن آيه به ‌همراه شماره سوره و آيه و آدرس آيات در پاراگراف هر کتاب، استخراج و در جداول قرار مي‌گيرند. به اين شکل که به‌ ازاي هر پاراگراف، آيات به‌کار‌رفته در آن پاراگراف مشخص مي‌شود (در هر رکورد، يک تراکنش قرار دارد). در گام بعد، تعداد تکرار آيات با همديگر يا همنشيني آيات در پاراگراف‌ها استخراج مي‌شود؛ و در گام بعد، موارد پرتکرار به دست مي‌آيد (قواعد باهم‌آيي و الگوهاي تکراري)؛ و در نهايت، با ترکيب تکنيک‌هاي داده‌کاوي، برخي ارتباطات مفهومي قوي بين آيات قرآن کريم استخراج و پيش‌بيني مي‌گردد.

        1. داده‌کاوي

    داده‌كاوي، تركيبي از علوم آمار، هوش مصنوعي، يادگيري ماشين، شناسايي الگو و پايگاه داده است (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص31). داده‌کاوي، فرايند کشف الگوهاي جالب و دانش از ميان حجم انبوهي از داده‌هاست. نحوه کار و جاي استفاده از تکنيک‌هاي داده‌کاوي متفاوت است. مهم‌ترين روش‌هاي داده‌کاوي عبارت‌اند از:

    1. کاوش الگوهاي مکرر: الگوهايي (مانند مجموعه اقلام، زيرساختارها يا زيرتوالي‌ها) که در زير‌مجموعه داده‌ها با فراواني بالا ديده مي‌شوند، الگوهاي مکرر ناميده مي‌شوند.

    2. خوشه‌بندي: به فرايندي اطلاق مي‌شود که مجموعه‌اي از اشيا به چندين دسته يا خوشه گروه‌بندي مي‌شوند؛ به ترتيبي که اشيای درون يک خوشه بسيار شبيه به يکديگر و اشيای خوشه‌هاي مختلف بسيار متفاوت‌اند. در اين روش، تعداد خوشه‌ها از قبل مشخص نيست و فقط اشيا گروه‌گروه مي‌شوند. اين روش جزء روش‌هاي بدون ناظر است.

    3. رده‌بندي: در اين روش الگو‌هايي برای توصيف دسته‌هاي مهم داده‌ها استخراج مي‌شود. اين الگو‌ها که رده‌بند ناميده مي‌شوند، مي‌توانند داده‌هاي جديد را به يکي از دسته‌هاي ازپیش‌تعريف‌شده نسبت دهند. اين فرايند در دو گام انجام مي‌گيرد: در گام اول که يادگيري است، الگو ساخته مي‌شود و در گام بعدي، يعني رده‌بندي، به‌منظور پيشگويي برچسب‌هاي دسته، از الگوی ساخته‌شده در گام اول استفاده مي‌شود. پس پيش‌بيني و تعيين نتيجه نهايي با اين روش است و مشخص مي‌کند نتايج با احتمال چند درصد امکان‌پذير است يا احتمالاً امکان‌پذير نيست. اين روش جزء روش‌هاي با ناظر است.

      1. مروري بر کارهاي انجام‌شده

    تعيين ارتباط مفهومي متون کوتاه با بهره‌گيري از تکنيک‌هاي داده‌کاوي، کاربردهاي مفيدي را شامل مي‌شود؛ از جمله: ابهام‌زدايي از مفهوم کلمات، استخراج و بازيابي اطلاعات، نمايه‌سازي خودکار، انتخاب واژگاني، خلاصه‌سازي متن، تصحيح خودکار خطاهاي واژگاني، خوشه شدن واژه و متن، و... که به برخي از اين موارد در مقاله عابديني و مينايي بيدگلي (1390) اشاره شده است. پژوهش‌هاي انجام‌شده براي تعيين ارتباط بين آيات قرآن کريم را با توجه به روش به‌کاررفته در آنها مي‌توان به سه دسته تقسيم کرد که در ادامه بيان شده است.

        1. تعيين ارتباط متون کوتاه با استفاده از باهم‌آيي موضوعات به‌کاررفته در آنها

    در پژوهش صوفي و همكاران (1397) موضوعات مطرح‌شده ذيل تفسير هر آيه از کتاب تفسير راهنما، با نرم‌افزار‌ي که به همين منظور تهيه شده، استخراج و در قالب جداول در پايگاه داده‌ها ذخيره گرديده است؛ مانند شكل 1 که شامل 1662 ستون به تعداد موضوعات و 6236 سطر به تعداد آيات مي‌باشد.

     

     

     

     
     

    شکل 1 تشکيل پايگاه‌داده موضوعات آيات

    با استفاده از تکنيک خوشه‌بندي سعي شده است ارتباطات موضوعي سوره‌ها مشخص شود و با استفاده از الگوريتم‌هاي کشف الگوهاي مکرر، باهم‌آيي‌هاي موضوعات آيات و قواعد باهم‌آيي ميان آنها استخراج ‌شده است. براي کشف قواعد باهم‌آيي ميان موضوعات آيات، از الگوريتم Apriori[1] استفاده شده است.

    نمونه‌اي از قواعد باهم‌آيي کشف‌شده بين موضوعات هر آيه با تعداد تکرار اين الگوي مکرر، در شكل 2 آمده است.

     

     

     

     
     

    شکل 2 باهم‌آيي بين موضوعات به‌کاررفته در آيات

    اعتبارسنجي نتايج اين پژوهش، اكثراً براساس نظرات خبرگان صورت گرفته است. بخشي از نتايج اين مطالعه، در قالب درختواره‌اي كه شباهت و نحوه ارتباط موضوعي و معنايي سوره‌‌ها را نمايش مي‌دهد، ارايه گردیده و در ارزيابي شباهت سوره‌ها و خوشه‌هاي سوره‌ها نيز از ضريب وارد و جاکارد استفاده شده است.

    يکي از دلايل استفاده از تفسير راهنما در اين تحقيق، رده‌بندي موضوعات ذيل آيات بيان گردیده است. در نتيجه، استخراج موضوعات هر آيه با برنامه آسان‌تر مي‌شود. در نهايت، اين تحقيق موضوعات مشترک بين سوره‌ها و آيات قرآن کريم را با برنامه محاسبه مي‌کند که مي‌تواند خبرگان و محققين قرآني را در تعيين موضوعات هر آيه و سوره ياري کند (صوفي، و همكاران، 1397).

    اما نظرات محققين در تعيين موضوع هر آيه ممکن است متفاوت باشد و بهتر است از چندين تفسير موضوعي استفاده شود و موضوعات هر آيه با توجه به تکرار در تفاسير مختلف، وزن‌دهي شود. همچنين برخي آيات (مانند آيه 255 سوره بقره) طولاني‌اند و موضوعات زيادي را دربر مي‌گيرند و با آيه ديگري که فقط يک موضوع دارد، ارتباط ضعيفي برقرار مي‌کنند که بهتر است آيات طولاني با توجه به موضوعات به‌کاررفته در آنها، به جمله‌هاي کوچک‌تري تقسيم شوند تا با تکه‌هايي که هم‌موضوع‌اند، ارتباط ايجاد شود.

    در پژوهش سراج و همکاران (1392)، که در «گروه پژوهشي پويشگران قرآن» انجام شده، بخشي از داده‌هاي کتاب فرهنگ قرآن، منتشر شده توسط دفتر فرهنگ و معارف قرآن کريم، براي تعيين مشابهت موضوعي آيات، استخراج و پردازش گرديده است. در اين پژوهش، براي تعيين تشابه بين دو آيه، از دو روش استفاده شده است:

    1. محاسبه تشابه آيات: آياتي که موضوعات مشترکِ بيشتر و موضوعات غيرمشترک کمتري دارند؛

    2. امتيازبندي موضوعات: به اين شکل که به موضوعات عام و کلي کمتر از موضوعات خاص و کم‌رخداد اهميت داده شده است. نتيجه تحقيق در آدرس اينترنتي rel.alketab.org قرار گرفته است. يک نمونه از نتايج جست‌وجو از اين نرم‌افزار، در شكل 3 آمده است.

     

     

     

     

     

     

     

     
     

    شکل 3 نمايش و مديريت ارتباط موضوعي آيات قرآن کريم از طريق رسم و نمايش گراف

    براي محاسبه درصد تشابه، از فرمول مقابل استفاده شده است: Score (A∩B) / Score (A∪B)

        1. تعيين ارتباط آيات با استفاده از متن تفاسير قرآن به قرآن

    در تحقيق صالحي شهرودي و همكاران (1392)، براي کشف ارتباطات معنايي ميان آيات قرآن کريم با استفاده از متن‌کاوي، از متن تفسير الميزان استفاده شده و بيشتر سعي شده است با روش معنايي و موضوعي، ارتباط بين آيات مشخص گردد. برای نمونه، اين پژوهش بر روي سوره حجر (در مدل سوره‌اي) و آيات تفسيري مرتبط با آيه 21 اين سوره (در مدل آيات مرتبط) اجرا گردیده و با چندين روش ـ آن‌گونه که در شكل 4 آمده ـ ارتباط بين اين آيه و آيات ديگر قرآن کريم تشخيص داده شده است (صالحي شهرودي و همكاران، 1392). این روش‌ها عبارتند از: 1. بيشترين کلمات مشترک بين آيات؛ 2. نوع بيان آيه (بيان خداوند متعال درباره خود؛ و بيان خداوند درباره مخلوقاتش)؛ 3. آيات ذيل تفسير هر آيه از تفسير الميزان؛ 4. نحوه چينش يا اولويت هر موضوع در آيات (ترتيب موضوعات)؛ 5. بيشترين موضوع مشترک بين اين آيه و آيات ديگر بر مبناي موضوعات مطرح‌شده در تفسير الميزان (تعداد تکرار در نظر گرفته شده است)؛ 6. ترتيب آيات بر اساس مفهوم و غايت و فايده بيان‌شده ذيل تفسير هر آيه توسط علامه در تفسير الميزان؛ 7. محاسبه ترتيب سوره و ترتيب آيه و ترتيب شأن نزول آيات و نام سوره و شماره جزء و حزب و صفحه و... .

     

     

     

     

     

     
     

    شکل 4 برخي روش‌هاي محاسبه اشتراک دو آيه

    در اين تحقيق، يک پيکره موضوعي از آيات قرآن کريم تشکيل شده است که شامل بخش تفسيري براي ارزيابي نتايج و بخش تشخيصي به‌همراه کدگذاري موضوعات براي اجراي تکنيک‌هاي داده‌کاوي است. موضوعات اين پيکره - که از تفسير الميزان استخراج شده - شامل هفت موضوع است و الگوريتم‌هاي‌ داده‌کاوي به‌صورت نمونه روي سوره حجر و آيه 21 اين سوره اجرا شده که از بين اين اجراها، ده الگوريتم داده‌کاوي، نتيجه اين تحقيق را تشکيل داده است. همان‌گونه که در شكل 5 دیده مي‌شود البته اين هفت موضوع به سه موضوع کلي‌تر تقسيم شده و الگوريتم‌هاي داده‌کاوي بر مبناي اين سه موضوع هم آزمايش شده است (همان).

     

     

     

     
     

    شکل 5 نمونه‌اي از انتخاب کد هفت موضوعي و سه موضوعي براي هر آيه

    در اين تحقيق با استفاده از نرم‌افزار کلمنتاين، داده‌کاوي روي الفاظ قرآن و داده‌کاوي معنايي با موضوعات موجود در تفسير الميزان و شأن نزول آيات انجام شده و نتايج اجراي سه الگوريتم قواعد باهم‌آيي و خوشه‌بندي و رده‌بندي در نرم‌افزار کلمنتاين به دست آمده است. در اين پژوهش، تعيين تشابه تنها براي يک آيه، يعني آيه 21 سوره حجر انجام شده که 72 آيه مرتبط براي اين آيه تعيين گردیده است.

    در پژوهش شرف و آتول (2012م) سعي شده است روشي براي تعيين ارتباط بين متون کوتاه تعيين شود و در نهايت، پيکره زباني QurSim براي ارزيابي ارتباط بين متون کوتاه تهيه شده است و براي مطالعه موردي، از قرآن کريم و تفسير ابن‌کثير استفاده گردیده و با سه روش، اين ارتباطات تشخيص داده شده است: 1. استخراج آيات ذيل تفسير آيه جاري در تفسير ابن‌کثير؛ 2. آياتي که بيشترين ريشه کلمات مشترک بين آيات را دارند؛ 3. آياتي که بيشترين مرجع ضمير مشترک را دارند.

    اين پژوهش با استفاده از ابزار مصورسازي گراف، تجسم بهتري از آيات مرتبط را امکان‌پذير کرده است. در گراف، هر گره نماينده يک آيه و فلش‌ها تعداد ريشه‌هاي مشترک بين آيات مرتبط را نشان مي‌دهند. نمونه‌اي از مصورسازي در شكل 6 آمده است (همان).

     

     

     

     

     

     
     

    شکل 6 آيات مرتبط با آيه 187 سوره اعراف (ارتباطات مستقيم و غيرمستقيم)

    در اين تحقيق از الگوی فضاي برداري براي محاسبه تشابه بين آيات، از طريق ريشه کلمات به‌کاررفته در آيه استفاده شده است. فاصله بين آيات، با مقايسه کسينوس زاويه بين بردارها اندازه‌گيري مي‌شود. هر آيه از قرآن يک سند جداگانه در نظر گرفته مي‌شود و در سايت مرتبط با اين تحقيق،[2] مقالات مرتبط با آن و همچنين داده‌هاي ارتباط بين آيات، در قالب فايل متني و جداول و در نهايت مصورسازي و برخي برنامه‌هاي کاربردي، که در آنها از نتيجه اين تحقيق استفاده شده، آمده است.

    در مقاله آدلکه، سامسودین، مصطفی و ناوی (2018م)، رويکرد انتخاب ويژگي‌ها براي پيش‌بيني برچسب هر آيه، استفاده از چندين سند مختلف داده‌ متني، به‌علاوه متن قرآن کريم پيشنهاد شده است. سپس از روش پيشنهادي [3]GBFS براي برچسب‌گذاري آيات قرآني دو منبع اصلي، ترجمه انگليسي و تفسير، استفاده مي‌شود.

     

     

     

     

     

     

     

     

     

    شکل 7 رويکرد انتخاب ويژگي‌ها مبتني بر هر گروه‌بندي

    در شكل 7، چارچوب روش پيشنهادي GBFS که شامل چهار مرحله است، نشان مي‌دهد: کسب اطلاعات، پيش‌پردازش داده‌ها، پياده‌سازي و پيش‌بيني نتايج، از چند منبع - که ترکيبي از ترجمه و تفسير قرآن است - جمع‌آوري مي‌شود و داده نهايي، تلفيقي از هر دو منبع است. سپس خصوصيات داده ترکيبي (داده‌هاي متني ترجمه انگليسي و تفسير ابن‌کثير)، با استفاده از تابع StringToWord Vector و روش weighted TF-IDF در نرم‌افزار weka پيش‌پردازش مي‌شود و سپس از معيارهايinformation gain, chi square, Pearson correlation coefficient, relief, and correlation-based براي محاسبه تشابه استفاده شده است و در نهايت با چهار روش رده‌بندي: شبکه‌هاي بيز (Bayes naive)، ماشين‌هاي بردار پشتيبان (libSVM)، نزديک‌ترين همسايه (k-Nearest Neighbors) و درخت تصميم (J48)، داده‌ها در نرم‌افزار weka ارزيابي گردیده و در نهايت ثابت شده است که با ترکيب ترجمه انگليسي و تفسير ابن‌کثير، نتايج حاصله خيلي بهتر از حالتي است که فقط از ترجمه يا تفسير استفاده شود و معيار دقت 94.5٪ و AUC برابر با 0.944 به دست آمده است.

        1. تعيين ارتباط آيات با استفاده از الفاظ و واژگان قرآن (کلمات و ریشه های قرآن و ترجمه قرآن)

    در پژوهش بشارت، یزدان‌سپاس و رشید (2015م) سعي شده است از اشتراک لفظي بين آيات قرآن کريم، تشابه بين آيات محاسبه شود و براي اين کار از چهار روش استفاده ‌شده است: 1. ريشه‌هاي مشترک بين آيات؛ 2. کلمات با اعراب مشترک بين آيات؛ 3. کلمات بدون اعراب مشترک بين آيات؛ 4. کلمات مشترک در متن ترجمه انگليسي آيات قرآن کريم؛ و نتايج با مجموعه QurSim (شرف و آتول، 2012م) مقايسه و در نهايت بيان شده است که هرچه تعداد ترجمه‌هاي قرآن بيشتر باشد، نتيجه دقيق‌تري مي‌توان از مقايسه کلمات مشترک در متن ترجمه آيات به دست آورد. نمونه‌اي از داده‌هاي استفاده‌شده در اين تحقيق، در جدول 1 نمايش داده شده است (بشارت، یزدان‌سپاس و رشید، 2015م).

     

     

     

     

     
     

    جدول 1 نمونه‌اي از داده‌هاي استفاده ‌شده در پژوهش

    ارزيابي نتايج با استفاده از چندين معيار (ضريب همبستگي پيرسون، تشابه جاکارد، فاصله اقليدسي و تشابه کسينوسي) انجام گرفته و خروجي در جدول 2 نشان داده شده است.

     

     

     

     

     

     

     

     
     

    جدول 2 ارزيابي مقادير تشابه و فاصله آيات با معيارهاي کسينوسي و اقليدسي و جاکارد و پيرسون

    در پژوهش خالقي و جليلوند (1390)، جدولي شامل 6348 رکورد براي آيات و 1905ستون معادل تعداد ريشه‌هاي غيرتکراري کلمات قرآن ايجاد شده و در نتيجه تکرار ريشه‌هاي کلمات در کل متن قرآن کريم و همچنين ريشه‌هاي مشترک بين آيات قرآن محاسبه شده و همچنين به وسيله باهم‌آيي موضوعات در آيات، قواعد باهم‌آيي زيادي بين موضوعات ايجاد شده و در همه موارد ضريب پشتيبان محاسبه شده است. در اين تحقيق از الگوريتم Apriori و نرم‌افزار متلب استفاده گرديده است و مقادير پشتيبان و اطمينان و ليفت و... براي ارزيابي تشابه بين آيات، محاسبه شده است.

    در تحقيق الطورایف (2017م)، از روش [4]CRISP-DM (شرر، 2000م) براي فرايند کشف دانش استفاده شده و پيش‌پردازش روي متن و کلمات قرآن و انجيل انجام گرفته است و کلمات کم‌ارزش حذف شده‌اند. سپس با استفاده از چندين روش، از جمله تشابه LSA[5] و تعداد تکرار کلمات در هر آيه و کلمات مشترک بين دو آيه، تشابه و تفاوت‌هاي بين قرآن و انجيل را بررسي کرده و پياده‌سازي اين روش‌ها در زبان R انجام شده است.

    در تحقيق سلامت، رحمان، رمضانی و دارمالکسانا (2016م) با استفاده از روش k-means آيات قرآن به دو شیوه خوشه‌بندي شده است: يک‌بار با استفاده از کلمات غيرپيراسته و بار ديگر با استفاده از کلمات پيراسته؛ و در نهايت آيات قرآن در سه خوشه قرار گرفته است.

    در پژوهش علي (2012) روشي براي ارايه يک پيكره متني براي قرآن به شكل گراف توصيه شده است. در اين پژوهش، از الگوريتم كاوش زيرمسيرهاي پرتكرار روي گراف پيکره متني قرآن براي کشف الگوهاي مكرر در قرآن استفاده گردیده است. روش پيشنهادي براي چهار سوره ابتدايي قرآن پياده‌سازي و در نهايت شرح داده شده است كه الگوهاي پرتكرار مي‌توانند براي خوشه‌بندي آيات مشابه و نمايه‌سازي مفهومي به کار روند.

    در پژوهش آکور، الصمدی و الاعظم (2014م) پس از استخراج، نرمال‌سازي و پيراسته‌سازي کلمات، از معيار TF-IDF براي تعيين آيات مشابه استفاده شده است. براي بهتر شدن نتيجه، کلمات غيرمهم نيز حذف شده‌اند. روش پيشنهادي در اين مقاله، MQVC[6] ناميده شده است. براي ارزيابي اين روش، نتيجه کار براي چهل آيه به‌صورت تصادفي با نظر افراد خبره مقايسه شد. سپس با استفاده از روش N-gram و الگوريتم رده‌بندي LibSVM از نرم‌افزار Weka، سوره‌هاي قرآن به دو دسته مکي و مدني تقسيم گرديد.

    در تحقيق عطايي (1389)، با محاسبه فراواني تكرار كلمات در سوره‌هاي قرآن، تعداد كلمات مشابه بين هر دو آيه معيار ارزيابي شباهت آيات در نظر گرفته شده و با توجه به تعداد آيات مشابه در هر دو سوره قرآن، ماتريس شباهت سوره‌ها ايجاد گردیده است.

        1. نتيجه‌گيري

    در مورد تعيين ارتباط آيات با استفاده از واژگان و الفاظ آيات و ترجمه‌هاي آن مي‌توان گفت در اين نوع تحقيق، مبناي تشابه، ارتباط الفاظ و ترجمه‌هاي قرآن است که کاملاً توسط ماشين انجام مي‌شود؛ در نتيجه، ارتباطات ضعيفي توليد مي‌شود؛ زيرا در خيلي از موارد با زبان تمثيل و کنايه صحبت شده و لازمه تعيين تشابه براي اين موارد، درک مفهوم آيات قرآن کريم است؛ همچنين برخي کلمات چندوجهي‌اند و معاني متفاوتي دارند؛ مثلاً آيه 8 سوره هود را در نظر بگيريد که در آن، کلمه «امت» به معناي «ملت» ذکر شده است. اما اين کلمه در قرآن ممکن است معاني ديگري مانند «رهبر» يا «دوره زماني کوتاه» هم داشته باشد.

      1. فرايند روش‌ پيشنهادي

    1. شرح داده‌هاي تحقيق و نحوه جمع‌آوري آنها؛ 2. توضيح روش پيش‌پردازش داده‌ها؛ 3. بيان ارتباط تكنيک‌هاي باهم‌آيي و محاسبه پشتيبان و اطمينان و معيار ليفت و معيار جاکارد، با هدف تشکيل جدول مشابهت؛ 4. محاسبه ماتريس درهم‌ريختگي و شرح معيارهاي تفسير و ارزيابي روش‌هاي رده‌بندي و الگوهاي تکراري؛ 5. بيان دليل استفاده از اين مجموعه داده‌ها.

        1. چارچوب فرايند تحقيق

    در اين پژوهش‌ها براي به دست آوردن داده مناسب، فرايند کشف دانش بارها انجام مي‌شود که اين فرايند شامل مراحل زیر می‌باشد: 1. انتخاب داده‌ها؛ 2. پيش‌پردازش داده‌ها (یک. استخراج و گردآوري؛ دو. يکپارچه‌سازي؛ سه. تشکيل انبارداده‌ها)؛ 3. تبديل داده‌ها به جداول مورد نياز؛ 4. داده‌کاوي روي جداول (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص15-17) و در نهايت، نتايج با استفاده از نظر خبرگان و روش‌هاي ارزيابي خروجي تکنيک‌هاي داده‌کاوي، ارزيابي مي‌گردد.

    در اين تحقيق، کشف دانش شامل شش مرحله است که در شكل 8 نمايش داده شده است. در ادامه به بررسي دقيق‌تر هر يک از اين مراحل مي‌پردازيم.

     

     

     

    شکل 8 مراحل کشف دانش در اين تحقيق بر اساس استاندارد[7] [8]CRISP-DM (شرر، 2000م)

        1. شناخت پروژه

    در اين تحقيق، متفاوت با روش‌هاي قبلي، ارتباط بين آيات قرآن کريم از باهم‌آيي آيات در هر پاراگراف از متن تفاسير استخراج گرديد. بنابراين به ازاي هر ارتباط، آدرس‌ها و مستندهايي در متن تفاسير قرآن کريم وجود دارد. با توجه به نظر خبرگان علوم قرآن، فهرستي از کتاب‌هاي تفسير و علوم قرآني انتخاب شد و متن اين کتب استفاده شد. خروجي اين تحقيق مي‌تواند به‌عنوان ابزار کمکي براي مفسران و پژوهشگران علوم قرآني مورد استفاده قرار گيرد.

          1. علت انتخاب داده‌هاي نرم‌افزار جامع تفاسير نور به عنوان جامعه آماري

    شناخت مفهوم آيات، با توجه به روش تمثيلي و کنايي قرآن، کاري تخصصي و پيچيده است؛ ازاین‌رو، در اين تحقيق از نظرات خبرگان علوم تفسير قرآن - که در کتاب‌هاي تفسيري بيان شده است - استفاده مي‌گردد. در اين تحقيق، از تفسير قرآن به‌جاي خود قرآن استفاده شده است. بايد توجه داشت که در بسياري از تفاسير قرآن، تفسير لزوماً ترتيبي نيست و به‌صورت آيه‌به‌آيه انجام نشده است و آيات بر اساس موضوع تقسيم شده‌اند. به عبارتي ديگر، در تفسير بسياري از آيات، کل سوره و حتي کل قرآن مدنظر مفسر بوده و در تفسير هر آيه، از مطالب آيات دیگر نيز استفاده شده است. اين تحقيق به دنبال يافتن روشي جديد برای کشف احتمال وجود همين ارتباطات با استفاده از تحليل‌هاي محاسباتي و الگوريتم‌هاي ماشيني و با اِعمال نظرات خبرگان (متون تفاسير) است.

    با توجه به آزمايش‌ها، بيشترين آيات مرتبط در متن کتب تفاسير وجود داشت؛ که در داده‌هاي نرم‌افزار جامع تفاسير نور متن تفاسير آماده و بازبيني شده و در آن، محدوده متن آيات و تفسير هر آيه و محدوده تفسير دسته آيات (مجموعه آيات) مشخص گردیده است. در نهايت، به پيشنهاد خبرگان، مجموعه داده‌هاي نرم‌افزار جامع تفاسير نور با 452 عنوان تفسير فارسي و عربي در 2092 جلد انتخاب شد.

        1. شناخت داده‌هاي تحقيق

    خصوصيات داده‌هاي ورودي اين پروژه مشخص شد و بررسي اوليه داده‌ها با نرم‌افزارهاي ويرايشگر داده‌ها انجام گردید و پس از شمارش تعداد تکه‌آيات موجود در متن و مشورت با خبره، آيات ذکرشده در متن کتب موجود در نرم‌افزار جامع تفاسير نور استخراج و در قالب جداولي در پايگاه داده ذخيره شد.

        1. پيش‌پردازش

    براي به دست آوردن نتيجه مناسب، لازم است داده‌ها براي داده‌کاوي آماده شوند. بدون اين کار اغلبْ نتايج مناسبي به دست نمي‌آيد؛ زيرا در بیشتر موارد الگوريتم‌ها در برابر داده‌هاي پيرايش‌نشده مقاوم نيستند و ممکن است خروجي آنها کاملاً متفاوت و اشتباه باشد. پيش‌پردازش نیز شامل مراحل جمع‌آوري داده، پالايش داده، يکپارچه‌سازي داده، انتخاب داده باکيفيت و مرتبط با تحقيق، و تبديل داده است (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص15).

          1. جمع‌آوري داده‌ها و تعيين ساختار آن

    براي اين کار، نرم‌افزاري تهيه شد که متن را به‌عنوان ورودي دريافت مي‌کند؛ سپس با توجه به فرمت‌ها[9] و علایم ويرايشي موجود آن را پردازش کرده و اجزای متن را در رکوردهاي جداگانه‌اي در جداول مختلف ذخيره مي‌کند و در حين اين فرايند، محدوده هر پاراگراف[10] و تکه متن آيه و شماره سوره/آيه و آدرس آيه و آدرس پاراگراف در متن کتاب تشخيص داده مي‌شود و ابتدا رکوردها بر اساس هر رخداد متن تکه‌آيه، ايجاد مي‌گردد؛ سپس آيات موجود در هر پاراگراف، در جدول جديدي قرار مي‌گيرد تا جدول تراکنش‌ها براي اجراي تکنيک‌هاي داده‌کاوي آماده شود. در نهايت، نتايج کار در پايگاه ‌داده براي چند نوع داده، آزمايش و بررسي شد و بهترين داده با نظر خبره انتخاب گردید. سپس جداول نام سوره‌هاي قرآن کريم، متن آيات و متن ترجمه آيات قرآن نيز طراحي و در پايگاه ‌داده قرار گرفت.

          1. ايجاد بستري جهت ارائه و بررسي توسط کارشناسان تفسير

    در اين مرحله، نرم‌افزاري برای ارائه داده‌ها و بررسي بيشتر تهيه شد و در اختيار خبرگان قرآني[11] قرار گرفت تا در اين مرحله، ارتقاي نرم‌افزار و شناسايي مشکلات داده‌ها و تعيين بهتر نحوه استخراج و ارائه داده‌ها، بررسي و بازبيني شود؛ و با نظر خبره، تغييرات زيادي در آن اعمال شد.

    در ابزاري که براي کار پژوهشگران آماده گرديد، امکاني ايجاد شد تا بتوان تعداد حداقل همنشيني آيات و تعداد فاصله اين آيه با آيات اطراف که در يک سوره‌اند، قابل تنظيم باشد تا با بررسي ارتباط‌ها توسط خبره، بهترين حالت انتخاب شود. البته در مرحله پيش‌پردازش داده‌هاي اين تحقيق، برخي از اين ارتباط‌ها که تکرار کمتري دارند، با نظر خبره حذف گرديد.

    براي بررسي صحت ارتباط‌ها و تعيين حداقل تعداد تکرار توسط پژوهشگران، درخواست‌ها و نيازهاي جديدي در برنامه احساس شد که عبارتند از:

    ـ امکان انتخاب و محدودسازي به جواب‌هاي موجود در يک کتاب؛

    ـ امکان انتخاب و محدودسازي بر اساس نوع تفسير، زبان، مذهب، قرن و...؛

    ـ امکان نمايش آدرس‌هاي هر ارتباط و تکه‌ آيه در کتاب‌هاي تفسير با امکان مرتب‌سازي بر اساس: زبان، کتاب، مؤلف، مذهب، قرن و آدرس در هر کتاب؛

    ـ امکان نمايش متن صفحه و پاراگراف ايجادکننده ارتباط بين آيات؛

    ـ امکان تفکيک متن آيه اصلي و مرتبط و شماره سوره و آيه؛

    ـ امکان انتخاب نام سوره و آيه و سپس مرتبطات آن آيه؛

    ـ امکان انتخاب آيه با جست‌وجوي تکه‌اي از آيه در متن کل آيات؛

    ـ امکان نمايش کل متن آيه و ترجمه آيه اصلي و مرتبط؛

    ـ امکان نمايش گرافي همه مرتبطات آيه مبدأ و مرتبط‌هاي آيه مقصد تا چندين سطح.

    اين امکانات به درخواست خبره علوم قرآني براي تکميل ابزار مفسريار، به برنامه اضافه شد. نمونه‌اي از خروجي اين ابزار در شكل 9 نشان داده شده است.

     

     

     

     

     

     

     

     

     
     

    شکل 9 برنامه تشخيص ارتباط يک آيه از قرآن کريم با آيات ديگر

    در اين نمونه آيه ولايت و خاتم‌بخشي امام علي† را بررسي مي‏کنيم. از سي آيه هم‌نشين پيداشده شش آیه اول که بيشترين تکرار را دارد، ذکر مي‏کنيم و از بقيه صرف‌‌نظر مي‏کنیم.

    آيه جاري: «إِنَّما وَلِيُّكُمُ اللَّهُ وَرَسُولُهُ وَالَّذينَ آمَنُوا الَّذينَ يُقيمُونَ الصَّلاةَ وَيُؤْتُونَ الزَّكاةَ وَهُمْ راكِعُون‏» (مائده: 55).

    آيات هم‌نشين با بيشترين تکرار باهم‌آيي، در متن 452 عنوان تفسير فارسي و عربي به‌ترتيب بيشترين تکرار:

    1. «يا أَيُّهَا الَّذينَ آمَنُوا أَطيعُوا اللَّهَ وَأَطيعُوا الرَّسُولَ وَأُولِي الْأَمْرِ مِنْكُمْ فَإِنْ تَنازَعْتُمْ في‏ شَيْ‏ءٍ فَرُدُّوهُ إِلَى اللَّهِ وَالرَّسُولِ إِنْ كُنْتُمْ تُؤْمِنُونَ بِاللَّهِ وَالْيَوْمِ الْآخِرِ ذلِكَ خَيْرٌ وَأَحْسَنُ تَأْويلاً» (نساء: 59) [109 بار باهم‌آيي در متون تفاسير].

    2. «يا أَيُّهَا الرَّسُولُ بَلِّغْ ما أُنْزِلَ إِلَيْكَ مِنْ رَبِّكَ وَإِنْ لَمْ تَفْعَلْ فَما بَلَّغْتَ رِسالَتَهُ وَاللَّهُ يَعْصِمُكَ مِنَ النَّاسِ إِنَّ اللَّهَ لا يَهْدِي الْقَوْمَ الْكافِرينَ» (مائده: 67) [71 بار].

    3. «يَعْرِفُونَ نِعْمَتَ اللَّهِ ثُمَّ يُنْكِرُونَها وَأَكْثَرُهُمُ الْكافِرُونَ» (نحل: 83) [32 بار].

    4. «حُرِّمَتْ عَلَيْكُمُ الْمَيْتَةُ وَالدَّمُ وَلَحْمُ الْخِنْزيرِ وَما أُهِلَّ لِغَيْرِ اللَّهِ بِهِ وَالْمُنْخَنِقَةُ وَالْمَوْقُوذَةُ وَالْمُتَرَدِّيَةُ وَالنَّطيحَةُ وَما أَكَلَ السَّبُعُ إِلاَّ ما ذَكَّيْتُمْ وَما ذُبِحَ عَلَى النُّصُبِ وَأَنْ تَسْتَقْسِمُوا بِالْأَزْلامِ ذلِكُمْ فِسْقٌ الْيَوْمَ يَئِسَ الَّذينَ كَفَرُوا مِنْ دينِكُمْ فَلا تَخْشَوْهُمْ وَاخْشَوْنِ الْيَوْمَ أَكْمَلْتُ لَكُمْ دينَكُمْ وَأَتْمَمْتُ عَلَيْكُمْ نِعْمَتي‏ وَرَضيتُ لَكُمُ الْإِسْلامَ ديناً فَمَنِ اضْطُرَّ في‏ مَخْمَصَةٍ غَيْرَ مُتَجانِفٍ لِإِثْمٍ فَإِنَّ اللَّهَ غَفُورٌ رَحيمٌ» (مائده: 3) [31 بار].

    5. «النَّبِيُّ أَوْلى‏ بِالْمُؤْمِنينَ مِنْ أَنْفُسِهِمْ وَأَزْواجُهُ أُمَّهاتُهُمْ وَأُولُوا الْأَرْحامِ بَعْضُهُمْ أَوْلى‏ بِبَعْضٍ في‏ كِتابِ اللَّهِ مِنَ الْمُؤْمِنينَ وَالْمُهاجِرينَ إِلاَّ أَنْ تَفْعَلُوا إِلى‏ أَوْلِيائِكُمْ مَعْرُوفاً كانَ ذلِكَ فِي الْكِتابِ مَسْطُوراً» (احزاب: 6) [30 بار].

    6. «وَالْمُؤْمِنُونَ وَالْمُؤْمِناتُ بَعْضُهُمْ أَوْلِياءُ بَعْضٍ يَأْمُرُونَ بِالْمَعْرُوفِ وَيَنْهَوْنَ عَنِ الْمُنْكَرِ وَيُقيمُونَ الصَّلاةَ وَيُؤْتُونَ الزَّكاةَ وَيُطيعُونَ اللَّهَ وَرَسُولَهُ أُولئِكَ سَيَرْحَمُهُمُ اللَّهُ إِنَّ اللَّهَ عَزيزٌ حَكيمٌ» (توبه: 71) [29 بار].

    همان‌گونه که ملاحظه مي‌شود، موارد به‌دست‌آمده به‌طور کامل با آيه مورد بحث ارتباط مفهومي و معنايي دارند که بسیار به کار مفسر مي‌آيند و مي‌توان ابزار را مفسريار ناميد.

    براي حذف يا به حداقل رساندن پاسخ‌هاي غلط يا نامربوط، از دامنه کتابي و فيلترِ حداقل تکرار استفاده شد. همان‌گونه‌که در مثال یاد شده دیده مي‌شود، با افزايش تکرار به عدد شش تقريباً پاسخ غلط يا نامربوط ارائه نشده و مزيت اين ابزار، امکان استفاده از پرکاربردترين آيه هم‌نشين است که اين ويژگي باعث مي‌شود ارزش محتوايي آيات هم‌نشين بالا رود. با اِعمال تکنيک‌هاي داده‌کاوي در مرحله بعد، سعي شد تا نتايج پيش‌بيني مشخص گردد.

        1. الگو‌سازي داده

    با توجه به تعداد آيات قرآن کريم و زياد بودن حجم ارتباطات کشف ‌شده، بررسي همه ارتباطات ممکن نيست. بنابراين، در تکنيک‌هاي داده‌کاوي (در اين تحقيق تعيين الگوهاي پرتکرار و قواعد باهم‌آيي) از آياتي که باهم‌آيي بالاتري داشتند، براي تعيين ارتباط آيات استفاده شد. در ادامه، ابتدا روش مورد استفاده به‌طور خلاصه توضيح داده مي‌شود؛ سپس نحوه اعمال تکنيک‌ها روي داده‌هاي اين تحقيق بيان مي‌گردد.

          1. تكنيک‌هاي داده‌كاوي مورد استفاده در اين تحقيق

    جهت محاسبه ماتريس تشابه، از معيارهاي پرکاربرد داده‌کاوي استفاده شد و مقادير پشتيبان و اطمينان و معيار همبستگي و تشابه جاکارد محاسبه گرديد. بعد از طراحي و ايجاد جداول، براي انجام اين تحقيق به جداولي نياز شد كه در طراحي آنها باهم بودن آيات در پاراگراف‌ها مشخص باشد تا بتوانيم الگوريتم‌هاي مربوط به تكنيک‌هاي داده‌كاوي را روي آن اعمال کنیم و الگوهاي پرتکرار و ارتباطات قوي‌تر را استخراج و بازيابي نماييم. نمونه‌اي از اين جدول در جدول 3 نمايش داده شده است.

     

     

     

     

     

     

    جدول 3 نمونه ارتباطات آيه اول از سوره اول با آيات ديگر و تعداد باهم‌آيي

          1. محاسبه ماتريس تشابه

    براي تشکيل ماتريس وابستگي، جدولي که به‌ازاي هر آيه مرتبطات و تعداد تکرار آن را نشان مي‌دهد، تهيه گرديد؛ سپس معيار پشتيبان، اطمينان و همبستگي محاسبه شد. براي انجام اين کار به‌ازاي هر آيه، اگر پيش از اين براي اين آيه ارتباطي آورده نشده باشد، به جدول اضافه خواهد شد و در صورت وجود، تعداد تکرار آن افزوده می‌شود. بدين ترتيب، در پايان كار، جدولي خواهيم داشت كه 6236 سطر و 6236 ستون دارد، كه هر يک از اين سطرها و ستون‌ها نشان‌دهنده يكي از آيات قرآن‌اند. نمونه‌اي از معيارها که جهت محاسبه درصد ارتباط بين دو آيه و تشکيل ماتريس تشابه و براي وزن‌دهي به يال بين دو آيه در گراف چندسطحي استفاده شده، در جدول 4 آمده است.

     

     

     

     

     

     

     

    جدول 4 نمونه‌اي از معيارها جهت محاسبه درصد ارتباط بين دو آيه و تشکيل ماتريس تشابه

        1. ارزيابي

    براي ارزيابي کمي و کيفي اين تحقيق، از دو روش مختلف استفاده شده است. در ابتدا از مقادير پشتيبان و اطمينان و معيار همبستگي ليفت و تشابه جاکارد و تشابه کسينوسي براي ارزيابي الگوهاي تکراري و قواعد باهم‌آيي و صحت کشف ارتباط بين آيات استفاده شد؛ و در ادامه، از معيار [12]F و منحني ROC[13] (حامل، 2009م)[14] براي ارزيابي و مقايسه نتيجه اين تحقيق با چند تحقيق ديگر استفاده گرديد. فرايند ارزيابي در شكل 10 نمايش داده شده است.

     

     

     

     

    شکل 10 استفاده از دو رويکرد مختلف براي ارزيابي اين تحقيق

          1. ارزشيابي الگوهاي مکرر

    در برخي مواقع، حتي با بالا بودن مقدار معيار پشتيبان و معيار اطمينان در آنها، قانون جذابي نيستند. يکي از معيارهاي همبستگي ساده، ليفت ناميده مي‌شود که در آن، جذابيت يک قاعده باهم‌آيي (              ) با تقسيم معيار اطمينان آن قانون بر معيار پشتيبان شيء دوم، به دست مي‌آيد و نام ديگر اين مقدار، معيار جذابيت است و به‌صورت زير تعريف مي‌شود:

     

     

    (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص238)

    يکي ديگر از معيارهای محاسبه تشابه، معيار کسينوسي است که به‌صورت زير محاسبه مي‌شود:

     
     

    (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص 81 و258)

    يکي از معيارهاي ديگر محاسبه تشابه، معيار جاکارد است (تفاضل اين معيار از يک، فاصله را نشان مي‌دهد) که به‌صورت زير محاسبه مي‌شود:

     
     

    (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص295)

        1. به کارگيري الگو (نمايش گرافيکي باهم‌آيي آيات در چند سطح)

    براي نمايش گرافيکي ارتباط بين آيات و استفاده راحت‌تر پژوهشگران و تعيين مرتبطات سطوح بعدي و بررسي قواعد باهم‌آيي، نتايج حاصله به‌صورت گراف چندسطحي نمايش داده شد؛ به اين شکل که آيه اصلي در مرکز دايره، و آيات مرتبط در محيط اولين دايره قرار مي‌گيرند و باهم‌آيي‌هاي ديگر، در دايره بعدي؛ و همين‌طور ادامه مي‌يابد. پاره‌خطِ نشان‌دهنده ارتباط بين دو آيه، با توجه به درصد ارتباط ضخيم‌تر يا نازک‌تر رسم مي‌گردد. البته با نظر خبره، جواب‌هايي که در متن تفاسير ذيل تفسير هر آيه وجود دارد، درصد بالاتري دارند. پس از بررسي و بهبود نحوه نمايش، نمونه‌اي از خروجي گراف در شكل 11 ارانه شده است.

     

     

     

     

     

     

    شکل 11 نمايش گراف چندسطحي آيات مرتبط با آيه 55 سوره مائده

    کد منبع رسم گراف چندسطحي، به زبان جاواست و نمونه‌اي از آن در سايت گيت‌هاب[15] در دسترس است.

        1. نکته کليدي اين تحقيق

    نوآوري اين تحقيق، استفاده از وجود ارتباط بين اجزا در يک پاراگراف در کتب تفسيري است. به عبارت ديگر، مي‌توان گفت آيات موجود در يک پاراگراف در کتب تفسير، مرتبط‌اند. اين روش براي کتب آسماني ديگر و همه زبان‌ها و موضوعات ديگر، مانند احاديث، اشعار و... نيز قابل اجراست.

    هم‌پاراگراف بودن يا باهم‌آيي دو آيه در يک پاراگراف، با در نظر گرفتن تعداد تکرارهاي زياد و حذف نويزها در کتب تفسير و علوم قرآني، مي‌تواند ارتباط مفهومي بين آيات قرآن را مشخص کند. به عبارت ديگر، مي‌خواهيم با هم‌تراکنش بودن زياد يک يا چند آيه با يک يا چند آيه ديگر در پاراگراف‌هايي که بيش از يک قطعه آيه متفاوت دارند، ارتباط مفهومي آيات را کشف کنيم.

    با توجه به نظر خبرگان تفاسير و علوم قرآني در اين تحقيق، تعداد کلمات تکه‌آيه موجود در متن، در مرتبط بودن دو آيه در اين روش تأثيري ندارد و همچنين تعدد موضوعات مطرح‌شده در يک آيه (به علت طولاني بودن آن)، با توجه به استفاده از معيارهاي اطمينان و همبستگي، در وزن ارتباطات تأثيرگذار بوده است.

        1. نتيجه‌گيري

    نتايج اين پژوهش نشان مي‌دهد كه استفاده از تكنيک‌‌هاي داده‌كاوي مي‌تواند دانشي را كه پژوهشگران با صرف زمان خيلي زياد و مطالعات فراوان در زمينه قرآن به آن رسيده‌اند، از ميان داده‌ها كشف و استخراج نمايد؛ همچنين مفاهيم و ارتباطات جديدي را از ميان داده‌ها استخراج و براي بررسي بيشتر به خبرگان ارائه دهد. در نهايت، اين تحقيق به توليد ابزاري مانند سيستم خبره در زمينه علوم قرآني براي کمک به تهيه سريع‌تر و مجموعه‌اي غني‌تر براي تهيه تفسير قرآن کريم منجر مي‌گردد.

      1. ارزيابي نتايج

    در قسمت قبل، شيوه پردازش متن جهت استخراج شماره سوره/آيه با حفظ آدرس و پاراگراف از متن کتب تفسير، بيان گردید و برخي تکنيک‌هاي مهم داده‌کاوي مورد استفاده در اين تحقيق، توضيح داده شد. در اين قسمت، نتايج ارتباط بين آيات قرآن کريم بر اساس باهم‌آيي آيات در پاراگراف‌هاي موجود در تفاسير و مقايسه با الگو‌هاي ديگر و نظرات خبرگان بيان مي‌شود.

        1. نگاهي به داده‌هاي تحقيق

    در اين تحقيق به کمک ابزاري، بيش از 12.5 ميليون[16] پاراگراف از متن کتب تفسيري بررسي شد. متن تکه‌آيه و آدرس پاراگرافي آن به‌همراه شماره سوره/آيه استخراج شد و به‌ازاي هر رخداد آيه، يک رکورد در جدول تراکنش‌ها ايجاد گرديد. در شكل 12 پاراگراف‌هاي آيه‌دار و بدون آيه مقايسه شده‌ است.

     

     

     

    شکل 12 مقايسه پاراگراف‌هاي آيه‌دار و بدون آيه

    همان‌طور که در شكل 12 دیده مي‌شود، حدود 3.5 ميليون[17] پاراگراف آيه‌دار شناسايي شده است. اين پاراگراف‌ها شامل 6.5 ميليون[18] تکه‌آيه است.

    براي پيدا کردن ارتباط بين آيات به‌کمک باهم‌آيي آيات در پاراگراف‌ها، نياز است که پاراگراف‌هايي که بيش از يک آيه غيرتکراري دارند، استخراج شوند. ازاین‌رو اطلاعات به‌دست‌آمده از مرحله قبل پردازش شد و نتايج که در شكل 13 نمايش داده شده، به شرح زير است:

    1. حدود 3.5 ميليون پاراگراف با آيات غيرتکراري وجود دارد؛

    2. بيش از نیم ميليون[19] از پاراگراف‌ها حداقل دو آيه متفاوت دارند؛

    3. جدول تراکنش‌ها که در مرحله قبل شامل 6.5 ميليون رکورد بود، پس از حذف موارد تکراري، به حدود یک ميليون رکورد کاهش يافت.

     

     

     

     
     

    شکل 13 فراواني پاراگراف‌ها بر اساس تعداد آيات

        1. ارزيابي و تفسير و مقايسه نتايج با داده‌هاي واقعي يا آموزشي

    پس از ساخت يک الگوی رده‌بندي (براي پيش‌بيني رفتار آينده داده‌هاي ورودي)‌، لازم است که صحت و دقت اين الگو يا رده‌بند در برخورد با داده‌هاي جديد بررسي شود. پس الگو بايد با داده‌هايي که براي آموزش استفاده نشده‌اند، آزمايش شود. آيات ذيل تفاسير نرم‌افزار جامع تفاسير نور مبناي مقايسه قرار گرفت و نتيجه اين تحقيق و سه تحقيق ديگر، با اين داده‌ها مقايسه شد. با توجه به نظر خبرگان، از آيات تفسيري و شاهد موجود در تفاسير قرآن، ارتباط دو سویه استخراج گرديد.

          1. ماتريس درهم‌ريختگي

    برای ايجاد ماتريس درهم‌ريختگي هر کدام از مقادير برچسب پيش‌بيني‌شده توسط رده‌بند با برچسب واقعي مقايسه مي‌شود.

    مثبت‌هاي درست (TP): موارد مثبتي که توسط الگوريتم رده‌بند، درست برچسب مثبت خورده‌اند.

    منفي‌هاي درست (TN): موارد منفي‌ای که توسط الگوريتم رده‌بند، درست برچسب منفي خورده‌اند.

    مثبت‌هاي نادرست (FP): موارد منفي‌ای که توسط الگوريتم رده‌بند، به ‌اشتباه برچسب مثبت خورده‌اند.

    منفي‌هاي نادرست (FN): موارد مثبتي که توسط الگوريتم رده‌بند، به ‌اشتباه برچسب منفي خورده‌اند.

     

    مقادير پيش‌بيني شده يا خروجي با داده‌هاي آزمايشي (Predicted)

     

    No

    Yes

     

    مقادير واقعي يا خروجي با داده‌هاي يادگيري (Actual)

    مثبت‌هاي واقعي

    P=TP+FN

    FN

    TP

    Yes

    منفي‌هاي واقعي

    N=FP+TN

    TN

    FP

    No

    Total=P+N

    منفي پيش‌بيني شده
    FN+TN

    مثبت پيش‌بيني شده

    TP+FP

     

    شکل 14 ماتريس درهم‌ريختگي (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص348)

    با استفاده از مقادير موجود در ماتريس درهم‌ريختگي مي‌توان عملکرد الگوريتم رده‌بند را براي تشخيص کلاس‌هاي مختلف مشاهده کرد.

          1. معيار F

    معيار F ترکيبي از دقت[20] و بازخواني[21] است که کارايي و کيفيت الگوريتم رده‌بندي را نشان مي‌دهد و در شرايط ايدئال يک، و در بدترين شرايط صفر است.

    منحني معيار F به‌ازاي مقادير حد آستانه‌هاي بين 1 تا 40 از روش پاراگرافي در شكل 15 آمده و بهترین آستانه با روش اين تحقيق که معيار F آن بالاترين مقدار است، در جدول 6 مشخص شده است.

     

     

     
     

    شکل 15 منحني معيار F و انتخاب بهترين حد آستانه تعداد باهم‌آيي روش پاراگرافي

    همان‌طور‌که در شکل مشخص است، بيشترين مقدار معيار F با حد آستانه بين 5 تا 6 به دست مي‌آيد و مقادير دقيق در جدول 6 نشان داده شده است.

          1. منحني ROC مقايسه روش پاراگرافي و سه تحقيق ديگر با آيات ذيل تفسير هر آيه در کتب تفسير

    منحني ROC[22] يکي از ابزارهاي مناسب براي مقايسه دو روش رده‌بندي است. اين منحني نرخ TP و FP يک الگو را ارزيابي مي‌کند. محور عمودي يا Y آن TPR (نسبت مثبت‌هاي درست يا نرخ تشخيص صحيح دسته مثبت يا حساسيت)، و محور افقي يا X آن FPR (نسبت مثبت‌هاي غلط يا نرخ تشخيص غلط دسته منفي يا يک منهاي وضوح) است.

     

     
     

    (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص357)

    سطح زير منحني ROC که در بازه صفر و يک مي‌باشد، [23]AUC ناميده مي‌شود و ميزان کارايي رده‌بند را نشان مي‌دهد و هر اندازه مساحت زير منحني به مقدار 0.5 نزديک‌تر باشد، آن الگو صحت کمتري دارد و هر اندازه به يک نزديک‌تر باشد، الگوی ايد‌ئال و کامل از نظر صحت بوده و الگوی بهتري است (هان ژياوي، پي ژان، کمبر ميشلين، 1393، ص360).

    در ادامه، ماتريس درهم‌ريختگي محاسبه گرديد و با استفاده از مقادير TP و FN وTF و FP از اين ماتريس، معيارهاي ارزيابي شامل معيارهاي دقت، صحت، بازخواني، معيارF محاسبه شد و در نهايت، به‌منظور مقايسه بصري رده‌بندها، مقادير TPR و FPR محاسبه و منحني ROC ترسيم گرديد.

    منحني ROC مقايسه روش پاراگرافي (و ريشه‌هاي مشترک کلمات دو آيه[24] و روش QurSim-Revelance و روش موضوعات مشترک بين آيات) با آيات ذيل تفسير هر آيه در کتب تفسير، در شكل 16 مشاهده مي‌شود و مقدار دقيق آن در جدول 5 آمده است. با توجه به نتايج به‌دست‌آمده از مقايسه نتيجه اين تحقيق با نظرات خبرگان،[25] بيشترين مقدار معيار F و بهترين حالت منحني ROC، متعلق به اين تحقيق است.

     

     

     

     

     
     

    شکل 16 منحني ROC مقايسه روش پاراگرافي و سه روش ديگر با آيات ذيل تفاسير

          1. محاسبه بهترين حد آستانه با نمودار ROC و مقايسه مقادير دقيق رده‌بندها

    براي محاسبه بهترين حد آستانه، فاصله تمام مقادير روي منحني ROC با نقطه (0,1) را محاسبه مي‌کنيم و کمترين فاصله نقاط روي منحني تا نقطه (0,1) بهترين مقدار حد آستانه را نشان مي‌دهد.

    پس از بررسي معيار دقت مشخص شد که تعدادي از ارتباط‌ها در روش آيات ذيل تفاسير، يک‌طرفه است[26] و حدود 77000 مورد، ارتباطي که ارتباط برعکس آن در روش ذيل تفسير آيات نبود، با تأييد خبره اضافه شد و مقادير جدول 5 و جدول 6 به دست آمد و همچنين توسط خبره مشخص شد برخي ارتباطات جديد کشف شده است که در ذيل تفاسير نيامده‌اند؛ ولي مناسب‌اند.

    مقايسه بهترين مقادير معيارهاي ارزيابي، زماني که فاصله منحني تا نقطه (0,1) در منحني ROC کمترين مقدار را نشان مي‌دهد، در جدول 5 آمده است.

    Datasets

    Distance

    Threshold

    Acc.

    F1-score

    Recall

    Prec.

    پاراگرافي

    0.054

    1

    0.949

    0/682

    0/984

    0/522

    موضوعي

    0/482

    16

    0/999

    0/667

    0/517

    0/939

    QurSim_Revelance

    0/469

    2

    0/999

    0/674

    0/530

    0/926

    QurSim_Root

    0/477

    1

    0/999

    0/670

    0/522

    0/937

    جدول 5 محاسبه بهترين حد آستانه با محاسبه کمترين فاصله در منحني ROC - مرحله دوم

    مقايسه بهترين مقادير معيارها در چهار روش، زماني که معيار F بهترين مقدار را نشان مي‌دهد در جدول 6 آمده است.

    Datasets

    SumTP

    SumFN

    SumFP

    Prec.

    Recall

    Accuracy

    F1-score

    پاراگرافي

    253775

    103211

    74501

    0/773

    0/710

    0/995

    0/740

    QurSim_Revelance

    31516

    28438

    1422

    0/956

    0/525

    0/999

    0/678

    QurSim_Root

    31200

    29346

    1106

    0/965

    0/515

    0/999

    0/672

    موضوعي

    32173

    29944

    2079

    0/939

    0/517

    0/999

    0/667

    جدول 6 بيشترين مقدار معيار F براي حد آستانه‌هاي متفاوت در همه روش‌ها - مرحله دوم

        1. جمع‌بندي

    در بخش اول این تحقیق، داده‌هاي جمع‌آوري‌شده از نظر حجم و تعداد تکه‌آيه و تعداد پاراگراف‌هاي قابل استفاده نسبت‌به کل پاراگراف‌هاي آيه‌دار، بررسي شد. اين بررسي‌ها بيشتر جنبه آماري داشت و با چند نمودار، علت انتخاب متن کتب تفاسير به‌عنوان جامعه آماري، مشخص گرديده است. در اين نمودارها سعي شد تا گزارشي از وضعيت داده‌هاي تحقيق مشخص گردد.

    در بخش دوم اين تحقيق، به دنبال شناسايي ارتباط بين آيات قرآن کريم بوديم. براي اين منظور، با استفاده از باهم‌آيي‌هاي مكرر آيات در پاراگراف‌ها، مقدار مكرر بودن باهم‌آيي‌ها بر اساس مقايسه با نظر خبرگان انتخاب گرديد. براي اين‌کار، از آيات ذيل تفاسير کتب تفسير استفاده شد و منحني ROC و معيار F محاسبه گرديد.

    در بخش سوم، با توجه به محدوديت‌هاي زماني، نتايج چند تحقيق ديگر نيز با آيات ذيل تفاسير کتب تفسير مقايسه شد و منحني ROC و معيار F محاسبه گرديد. با توجه به نتايج به‌دست‌آمده از مقايسه نتيجه اين تحقيق با نظرات خبرگان،[27] بيشترين مقدار معيار F و بهترين حالت منحني ROC، متعلق به اين تحقيق است.

      1. بحث و نتيجه‌گيري

    هر يک از آيات قرآن دربر گيرنده مفهوم يا مفاهيمي است كه با توجه به شأن نزول آيات و بيان كنايي و تمثيلي قرآن، شناسايي و استخراج اين مفاهيم بايد توسط خبره و دانشمندان علوم قرآني انجام شود. تفاسير قرآن، منابع ارزشمندي‌اند كه نظرات خبرگان قرآني در آنها بيان شده است. در اين پژوهش از ميان داده‌هاي موجود با نظر خبره و انجام آزمايش، متن کتب مجموعه جامع تفاسير نور مرکز تحقيقات کامپيوتري علوم اسلامي مبناي کار قرار گرفت و تمام تکه‌آيات موجود در اين کتب استخراج گرديد و سپس آياتي که با هم در يک پاراگراف بودند، استخراج شد و با اجراي تکنيک‌هاي آماري و داده‌کاوي، الگوهاي مکرر مشخص گرديد و سپس اين موارد تحليل و ارزيابي ‌شد.

    از 12.5ميليون پاراگراف موجود، حدود 500 هزار پاراگراف بيش از يک تکه‌آيه غيرتکراري را شامل مي‌شد و براي تشخيص ارتباط و باهم‌آيي آيات استفاده گرديد.

    در اين تحقيق، براي بررسي و نمايش ارتباط بين آيات، نرم‌افزار جديدي ايجاد شد. اين نرم‌افزار آيه‌اي را به‌عنوان ورودي دريافت مي‌کند و مرتبط‌ترين آيات به آن آيه، به‌همراه متن کتب تفسير و گراف چندسطحي از ارتباطات آن آيه را به‌عنوان خروجي نمايش مي‌دهد. سنجش ميزان ارتباط در اين نرم‌افزار، بر اساس تعداد باهم‌آيي‌هاي دو آيه در پاراگراف‌ها محاسبه مي‌شود.

        1. نوآوري و دستاوردهاي تحقيق

    نوآوري‌ اين تحقيق ارائه روشي ماشيني جهت کشف ارتباطات مفهومي بين آيات قرآن کريم بر مبناي نظر خبرگان علوم قرآني است. به عبارت ديگر، استفاده از وجود ارتباط بين اجزا در يک پاراگراف در کتب تفسير و علوم قرآني، نوآوري اين تحقيق است. اين روش براي کتب آسماني ديگر و همه زبان‌ها و موضوعات ديگر مانند احاديث، اشعار و... نيز قابل اجرا مي‌باشد.

    توسعه نرم‌افزاري[28] براي مشخص نمودن مرتبط‌ترين آيات از لحاظ مفهومي، يكي ديگر از نوآوري‌هاي اين تحقيق است كه آيه‌اي را به‌عنوان ورودي دريافت و به‌لحاظ مفهومي مرتبط‌ترين آيات به آن را بازيابي مي‌نمايد. اين نرم‌افزار مي‌تواند به پژوهشگران و مفسرين قرآن در شناسايي آيات مرتبط كمک نمايد و به‌نوعي به‌عنوان مفسريار مورد استفاده قرار گيرد.

     

    References: 
    • قرآن کريم به کتابت عثمان طه، 1171م، وزارت اوقاف سوريه.
    • الهي‌منش، م.، مينايي بيدگلي، ب.، 1390، «قوانين سيستم تشخيص حدود جمله»، ره‌آورد نور، ص41-48.
    • خالقي، ا.، جليلوند، ن.، 1390، قواعد باهم‌آيي روي واژه‌ها و کلمات هر آيه قرآن کريم، پايان‌نامه کارشناسي رشته مهندسي فناوري اطلاعات، تهران، دانشگاه علم و صنعت.
    • سراج و همکاران، 1392، بازيابي در 6 6، 1397، از rel.alketab.org
    • صالحي شهرودي، م.، مينايي بيدگلي، ب.، اشرفي، ا.، 1392، «متن‌کاوي موضوعي رايانه‌اي قرآن کريم، براي کشف ارتباطات معنايي ميان آيات، بر مبناي تفسير الميزان»، قرآن‌شناخت، ش12، ص117-152.
    • صوفي، م.، علي‌احمدي، ع.، علي‌احمدي، ح.، مينايي بيدگلي، ب.، 1397، «خوشه‌بندي سوره‌هاي قرآن با تکنيک‌هاي داده‌کاوي»، علوم قرآن و حديث، ش101، ص103-120.
    • طباطبايي، م.، 1374، ترجمه تفسير الميزان، ترجمه موسوي همداني، قم، جامعه مدرسين حوزه علميه قم.
    • عابديني، ح.، مينايي بيدگلي، ب.، 1390، «کاربردهاي داده‌کاوي در علوم اسلامي»، ره‌آورد نور، ص7-13.
    • عطايي، ش.، 1389، تدبر در قرآن مجيد به كمک روش‌هاي داده‌كاوي، چهارمين كنفرانس داده‌كاوي، تهران.
    • هان ژياوي، پي ژان، کمبر ميشلين، 1393، داده‌کاوي مفاهيم و تکنيک‌ها (ويراست سوم)، ترجمه اسماعيلي، تهران، نياز دانش.
    • Adeleke, A. O., Samsudin, N. A., Mustapha, A., & Nawi, N. M. (2018). A Group-Based Feature Selection Approach to Improve Classification of Holy Quran Verses. International Conference on Soft Computing and Data Mining, (pp. 282-297).
    • Akour, M., Alsmadi, I., & Alazzam, I. (2014). MQVC: measuring Quranic verses similarity and sura classification using N-gram. WSEAS Transactions on Computers.
    • Ali, I. (2012). Application of a mining algorithm to finding frequent patterns in a text corpus: A case study of the Arabic. International Journal of Software Engineering and Its Applications, 6, 127-134.
    • Alturayeif, N. S. (2017). Text Mining and Similarity Measures of the Quran and the Bible. School of Computing, Faculty of Engineering, University of Leeds.
    • Basharat, A., Yasdansepas, D., & Rasheed, K. (2015). Comparative Study of Verse Similarity for Multi-lingual Representations of the Qur'an. Proceedings on the International Conference on Artificial Intelligence (ICAI). The Steering Committee of The World Congress in Computer Science, Computer Engineering and Applied Computing (WorldComp).
    • Hamel, L. (2009). Model assessment with ROC curves. In Encyclopedia of Data Warehousing and Mining, Second Edition (pp. 1316-1323). IGI Global.
    • Shahmohammadi, M., Alizadeh, T., Habibzadeh Bijani, M., & Minaei, B. (2012). A framework for detecting Holy Quran inside Arabic and Persian texts. LREC. 2012.
    • Sharaf, A.-B., & Atwell, E. (2012). QurSim: A corpus for evaluation of relatedness in short texts. LREC. 2012. Retrieved June 7, 2017, from http://www.lrec-conf.org/proceedings/lrec2012/pdf/190_Paper.pdf
    • Shearer, C. (2000). The CRISP-DM Model: The New Blueprint for Data Mining.
    • Slamet, C., Rahman, A., Ramdhani, M. A., & Darmalaksana, W. (2016). Clustering the Verses of the Holy Qur'an using K-Means Algorithm. Asian Journal of Information Technology, 15, 5159-5162
    شیوه ارجاع به این مقاله: RIS Mendeley BibTeX APA MLA HARVARD VANCOUVER

    APA | MLA | HARVARD | VANCOUVER

    بزرگقمی زاده، محمد، مینایی، بهروز.(1398) کشف ارتباطات مفهومی آیات قرآن کریم در بستر تفاسیر قرآن با استفاده از تکنیک‌های داده‌کاوی. ، 12(2)، 107-131

    APA | MLA | HARVARD | VANCOUVER

    محمد بزرگقمی زاده؛ بهروز مینایی."کشف ارتباطات مفهومی آیات قرآن کریم در بستر تفاسیر قرآن با استفاده از تکنیک‌های داده‌کاوی". ، 12، 2، 1398، 107-131

    APA | MLA | HARVARD | VANCOUVER

    بزرگقمی زاده، محمد، مینایی، بهروز.(1398) 'کشف ارتباطات مفهومی آیات قرآن کریم در بستر تفاسیر قرآن با استفاده از تکنیک‌های داده‌کاوی'، ، 12(2), pp. 107-131

    APA | MLA | HARVARD | VANCOUVER

    بزرگقمی زاده، محمد، مینایی، بهروز. کشف ارتباطات مفهومی آیات قرآن کریم در بستر تفاسیر قرآن با استفاده از تکنیک‌های داده‌کاوی. ، 12, 1398؛ 12(2): 107-131