از دلایل استفاده از درخت تصمیم میتوان به موارد زیر اشاره نمود:
- پس از تشکیل درخت تصمیم پیچیدگی محاسباتی به صورت لگاریتمی شده و کاهش مییابد[۸۳].
- میتوان قواعدی به صورت اگر-آنگاه از درخت تصمیم استخراج و از آن به صورت جداگانه استفاده نمود [۱۱]. درخت تصمیم برخلاف شبکههای عصبی به تولید قانون می پردازد و نتایج بدست آمده از درخت در قالب یک سری قوانین توضیح داده می شود.
- در درخت تصمیم برخلاف شبکههای عصبی لزومی ندارد دادهها به صورت عددی باشند.
از ویژگیهای درخت تصمیم میتوان به عدم حذف دادهها در زمان دستهبندی، استفاده آسان، درک ساده مدل حاصل با وجود پیچیدگی کار الگوریتم ساخت درخت تصمیم و … اشاره نمود [۳۱].
۲-۸-۵-۳- شبکههای عصبی
شبکه عصبی مصنوعی یک سیستم پردازش اطلاعات است که ویژگیهای عملکردی مشابه شبکه عصبی بیولوژیکی دارد. شبکه های عصبی مصنوعی به عنوان مدلهای ریاضی تعمیم یافته از نرون[۸۴]های بیولوژیکی یا شناخت انسان بر اساس مفروضات زیر توسعه یافته است:
- پردازش اطلاعات در واحدهای بسیار سادهای که نرون نامیده میشوند رخ میدهد.
- سیگنالهای نرونها از طریق اتصالات انتقال مییابد.
- هر ارتباط یک وزن دارد که در یک شبکه عصبی متداول، در سیگنال ورودی ضرب میشود.
- هر نرون یک تابع فعال سازی دارد (که عمدتاً غیرخطی است) که ورودی شبکه جمع و سیگنالهای ورودی وزن را به خروجی تبدیل میکند.
میتوان هر شبکه عصبی را با ویژگیهای زیر تشریح نمود:
- الگوی ارتباطات بین وزنها (که معماری شبکه نامیده میشود)
- روش تعیین وزنها در ارتباطات (که یادگیری یا آموزش نامیده میشود)
- تابع فعالسازی
عمدتاً شبکههای مختلف در جنبه های فوق متفاوت هستند و بدین طریق از هم متمایز میشوند.
هر شبکه عصبی از تعداد زیادی واحد ساده پردازش کننده که نرونها، واحدها، سلولها و یا گرهها نامیده میشوند، تشکیل شده است. هر نرون با نرونهای دیگر به وسیله اتصالات مستقیم مرتبط است که هر اتصال با یک وزن نمایندگی میشود. در واقع وزنها اطلاعاتی را که برای حل مسئله مورد استفاده قرار میگیرد بازنمایی می کند.
هر نرون یک وضعیت درونی دارد که فعالسازی[۸۵] یا سطح فعالیت[۸۶] نامیده میشود و تابعی از ورودیهایی است که دریافت میکند. هر نرون فعالیت خود را به عنوان یک سیگنال به سایر نرونها ارسال میکند. البته لازم به توجه است که هر نرون تنها یک سیگنال در هر لحظه از زمان قادر است ارسال کند [۱۱].
۲-۸-۵-۴- پیش بینی[۸۷]
این تکنیک از روشهای مهم و قدیمی دادهکاوی است که می تواند جهت پاسخگویی به مسائلی از قبیل میزان جذب سرمایه گذاری ماه آینده بانک، پیش بینی ارزش سهام در روز آینده و … مورد استفاده قرار گیرد.
در پیش بینی مجموعه ای از اطلاعات به عنوان ورودی به الگوریتم داده می شود. خروجی یک معادله ریاضی متناسب با این ورودی خواهد بود. برای پیش بینی یک متغیر در آینده دادهها را به فرمول ایجاد شده میدهیم و حاصل پیش بینی مورد نظر خواهد بود.
تفاوت این روش با روشهای دستهبندی در این است که در روش دستهبندی متغیر هدف، مقادیری گسسته دارد اما در مورد روش پیش بینی مقادیر هدف پیوستهاند [۱].
از مدلهای رایج در زمینه پیش بینی میتوان به رگرسیون[۸۸] اشاره نمود. رگرسیون خطی و منطقی از پرکاربردترین روشهای رگرسیوناند. رگرسیون خطی رویکردی برای مدلسازی رابطه بین متغیرهای اسکار Y و متغیرهای پیش بینی کننده X است.
امروزه برای مدلسازی روابط غیرخطی و پیچیده بین متغیرهای ورودی خروجی از روشهایی مانند شبکه عصبی استفاده می شود.
۲-۸-۵-۵- خوشهبندی[۸۹]
خوشهبندی یا گروهبندی، تقسیم اقلام موجود در یک مجموعه داده است که به طور طبیعی با هم شباهت دارند. دادههایی که با این معیار به صورت خوشههایی تفکیک میگردند، با دادههای موجود در خوشهای که در آن قرار میگیرند، بیشترین شباهت را دارند؛ و با دادههای موجود در سایر خوشهها متفاوتاند.
در خوشهبندی موضوعات زیر مورد توجه است:
- چه تعداد از خوشهها می تواند دانش نهفته در دادهها را کشف نماید؟ مسئله تعداد خوشهها معمولاً به صورت جداگانه مورد بررسی قرار میگیرد.
- معیارهای شباهت و تفاوت دادهها چیست؟ این معیارها خود به واسطه روشهای مختلفی محاسبه میگردد، اما در بیشتر روشهای خوشهبندی موجود از معیار فاصله فضایی دو داده از یکدیگر، استفاده می شود. فاصله فضایی می تواند با روشهای مختلفی چون فاصله اقلیدسی[۹۰]، فاصله مینکوفسکی[۹۱] و یا فاصله مانهاتان[۹۲] محاسبه شود.
- بعد از تعیین تعداد خوشهها و معیار شباهت یا فاصله دادهها، دادهها با بهره گرفتن از چه روشی در تعداد خوشههای معین جای گیرند [۱۱].
خوشهبندی یک الگوریتم بدون ناظر[۹۳] در دادهکاوی است، زیرا هیچ صفتی منفردی برای هدایت فرایند Training استفاده نمی شود و همه صفات ورودی ارزش یکسان دارند [۲].
تفاوت این روش با طبقه بندی در این است که در طبقهبندی هر داده به یک طبقه (کلاس) از پیشین مشخص شده تخصیص مییابد ولی در خوشهبندی هیچ اطلاعی از کلاسهای موجود درون دادهها وجود ندارد و به عبارتی خود خوشهها نیز از دادهها استخراج میشوند.
به طور خاص در صنعت بانکداری از الگوریتمهای خوشهبندی در بخشبندی مشتریان به گروه های مشخص بر طبق الگوهای رفتاری آنها کاربرد دارد. شناسایی گروه های مشتریان بسیار برای بانک حائز اهمیت بوده و می تواند در تصمیم گیریهای کنونی و اتخاذ راهبردهای میانمدت و بلندمدت بانک راهگشا باشد.
۲-۸-۵-۵- انواع خوشهبندی
امروزه الگوریتمهای متنوعی در زمینه خوشهبندی معرفی شده اند. این الگوریتمها به طور کلی به سه دسته تقسیم میشوند [۱]:
۱- خوشهبندی سلسلهمراتبی[۹۴]
در این نوع خوشهبندی خوشهها به صورت متوالی به دو شیوه انباشتی[۹۵] و یا تقسیمکنندگی[۹۶] توسعه مییابند. در روش انباشتی، هر یک از نقاط به عنوان خوشه در نظر گرفته شده و سپس خوشههای مشابه باهم ادغام میگردند. در شیوه تقسیمکنندگی در ابتدا کل دادهها به عنوان یک خوشه در نظر گرفته شده و تقسیمات متوالی تا رسیدن به تعداد مناسب خوشهها ادامه مییابد.
۲- خوشهبندی مبتنی بر مدل[۹۷]