منابع مقاله درباره 
دسته بندی، درخت تصمیم، نمونه آموزشی، ماشین بردار پشتیبان No category

روش قانون IF-THEN بصورت مستقیم از دادهها بدون تولید درخت تصمیم با استفاده از الگوریتم توالی پوشش۲۵بدست میآید. الگوریتم های مشهور مانندAQ،RIPPER و CN2 است. در شکل ۲-۵ شبه کد مربوط به الگوریتم توالی پوشش آمده است.
معیار توقف الگوریتم: برای توقف الگوریتم از معبارهای زیر استفاده میکنند در اینجا ابتدا به معرفی چند پارامتر میپردازیم:

اگر R بصورت
R: IF Condition then class=c
R^´ بصورت زیر تعریف میشود
R: IF?Condition?^´ then class=c
Pos: تعداد رکوردهایی که بطور صحیح توسط R پوشش داده شده است.
Neg: تعداد رکوردهایی که بطور غلط توسط R پوشش داده شده است.
?pos?^´: تعداد رکوردهایی که بطور صحیح توسطR^´ پوشش داده شده است.
?neg?^´: تعداد رکوردهایی که بطور غلط توسطR^´ پوشش داده شده است.
رابطه ۲-۹
FOIL_GAIN=?pos?^´*(?log?_2??(?pos?^´-?neg?^´)/?pos?^´ ?-?log?_2??(pos-neg)/pos? )

و رابطه ۲-۱۰
Likehood_Ratio=2*?_(i=1)^m??log??f_i/e_i ? f?_i

اگر قانون بطور اتفاقی پیش بینی شود f_i تعداد تکرار کلاس i میان رکوردهاست و e_i مقدار مورد انتظار کلاس i است.
Cn2 از روشlikedhooh_ratio و RIPPER از FOIL برای خاتمه الگوریتم استفاده میکند[۴].
روش غیر مستقیم: استخراج قوانین از روش های دسته بندی مانند درخت تصمیم
در مقایسه با درخت تصمیم بزرگ قوانین برای انسان راحتتر قابل فهم است برای ساختن قوانین از درخت تصمیم ما هر مسیر از ریشه تا برگ را پیمایش میکنیم. معیار جدا کننده نودها برای رسیدن تا برگ AND است و برگ نتیجه نگه میدارد که قبلش برگThen میآید. در اینجا شرط انحصار متقابل برقرار است و هیچ دو قانونی یک رکورد را ارضا نمیکند[۴].

شکل ۲-۵: شبکه کد الگوریتم توالی پوشش [۴]
۲-۲-۵ مدل کاهل
در یک نگاه کلی میتوان دستهبندی را به دو گروه مشتاق و کاهل تقسیم کرد در نوع مشتاق، مدلی از دادهها در مرحله آموزش ساخته میشوند. درخت تصمیم نمونهای از این مدل است. در مدل کاهل نمونههای آموزشی دریافت و ذخیره شده و تنها هنگام دستهبندی از آن استفاده میشود. در واقع مدلی از دادهها ساخته نمیشود و یادگیری تا زمان دسته بندی به تعویق میافتد. به این نوع دسته بندی، یادگیری مبتنی بر نمونه میگوییم.
تفاوت بین این دو مدل در این است که نوع مشتاق زمان زیادی صرف ساخت مدل کرده و در زمان دسته بندی سریع عمل میکند و نوع کاهل زمان بیشتری صرف دسته بندی میکند[۴].
در ادامه به بررسی الگوریتمهای مدل کاهل میپردازیم.
۲-۲-۵-۱ روش نزدیکترین همسایگی
این الگوریتم از سه گام زیر تشکیل شده است:
محاسبه فاصله نمونه ورودی با تمام نمونههای آموزشی
مرتب کردن نمونههای آموزشی بر اساس فاصله و انتخاب k همسایه نزدیکتر
استفاده از دستهای که اکثریت را در همسایههای نزدیک، به عنوان تخمینی برای دسته نمونه ورودی دارد.
در گام اول روش نزدیکترین همسایگی، باید فاصله نمونه ورودی با تمام نمونه آموزشی محاسبه شود. برای انجام این کار باید فاصله بین دو نمونه تعریف شد که با فرض اینکه نمونه x دارایi ویژگی است بصورت زیر تعریف میشود.
رابطه۲-۱۱
dist(x_1,x_2 )=?(?_(i=1)^n?(x_2i-x_2i ) )

K همسایه نزدیکتر انتخاب شده و دستهای که دارای اکثریت است داده جدید آموزشی به آن تعلق میگیرد.‎[۴]
۲-۲-۵-۲ الگوریتمهایی برای اطمینان از عدم وجود داده مغشوش
در الگوریتم که قبلا گفتیم اگر مقدار k بسیار بزرگ باشد داده مغشوش تاثیر زیادی بر نتیجه ندارد. اما پیدا کردن k مناسب خود چالش بزرگی است در زیر به معرفی الگوریتمهایی میپردازیم که مبتنی بر این فرض هستند که نمونههایی را که کارایی خوبی برای دستهبندی دارند در مجموعه آموزشی نگه میدارند[۴].
الگوریتم IB3 :
این الگوریتم در واقع یک پیش پردازش روی دادههای آموزشی است که در واقع اگر T مجموعه آموزشی باشد در واقع زیر مجموعه ای از آن s را نگه میداریم
در شکل ۲- ۶ شبکه کد الگوریتم IB3 آمده است.

شکل ۲-۶: شبکه کد الگوریتم [۴] IB3
افزودن و حذف عناصر S با توجه به نرخ موفقیت نمونه و نرخ موفقیت پیش فرض آن صورت میگیرد.
نرخ موفقیت نمونه بصورت زیر تعریف میشود
رابطه ۲-۱۲
p=[f+z^2/2N+z?(f/N-f^2/N-z^2/(4N^2 ))]?[1+z^2/N]

در این رابطه مقدار z از جدول مربوط به توزیع نرمال بدست میآید. متغیر f دقت دسته بندی در N بار امتحان است‎[۴].
۲-۲-۵-۳ روش K-Dtree
مشکل الگوریتمهای بالا سرعت کم است که با تعداد نمونه آموزشی رابطه مستقیم دارد به عبارتیO(D) است اگر اندازه مجموعه آموزشیD باشد. برای جل این مشکل از روش K-Dtree استفاده میکنیم. این روش از روی نمونههای آموزشی درختی میسازد که گرههای آن نمونهها هستند.K ، تعداد ویژگیها است. در واقع نمونهها را به عنوان نقاطی در فضای k بعدی در نظر میگیرد. این درخت دودوی ی فضای ورودی را به بخشهای ی افراز میکند. روال کلی بدین صورت است که در هر مرحله یک ویژگی انتخاب شده و بر اساس آن تقسیم بندی مجدد انجام میشود. تمام تقسیمات موازی بوده و در نهایت هر ناحیه دارای حداکثر یک نقطه است[۴].
شبه کد الگوریتم K-Dtreeدر شکل ۲-۷ آمده است. در این الگوریتم بازگشتی، در هر مرحله یک ویژگی به تناوب و با توجه به عمق انتخاب میشود. میانه حول آن محاسبه شده و نهایتا روال بصورت بازگشتی برای نقاط سمت چپ و راست میانه و با افزایش عمق فراخوانی میشود در واقع این روش یک روش شاخصگذاری۲۶ برای جستجوی سریع است.‎[۴]

این مطلب رو هم توصیه می کنم بخونین:   منابع و ماخذ پایان نامه تامین مالی، نقدینگی، بانکداری اسلامی، بررسی فقهی

شکل ۲-۷: شبکه کد مربوط به الگوریتم KDD [4]

۲-۲-۶ماشین بردارپشتیبان
ماشین بردارپشتیبان در دسته بندی دادههای خطی و هم غیرخطی کاربرد دارد. در دستهبندی غیرخطی، این الگوریتم از یک نگاشت غیر خطی برای تبدیل دادههای اصلی به ابعاد بالاتر استفاده میکند. در بعد جدید از یک بهینه خطی برای جداسازی ابر صحفه استفاده میکند. دادهها از دو کلاس، همیشه توسط یک ابرصفحه جدا شده میشوند.ماشین بردار پشتیبان ابرصحفه را با استفاده از بردار پشتیبان(داده آموزشی) و حاشیه (توسط بردار پشتیان تعریف میشود) ایجاد میکند.‎[۴]
۲-۲-۶-۱ دادهها بطور خطی جدا پذیر هستند
مجموعه داده D بصورت ((x_1,y_1 ),(x_2,y_2 ),..,(x_|D| ,y_|D| ))
که x_i مجموعه داده آموزشی همراه با برچسب، و y یکی از دو مقدار +۱ و -۱ است. ما نیازبه خطی داریم که مقادیر y از هم جدا و بهترین باشد. چون داده خطی است میتوان گفت که کوتاهترین فاصله از ابرصفحه به یک طرف حاشیه آن برابر است با کوتاهترین فاصله از ابرصفحه به طرف دیگر از حاشیه آن، هدف پیدا کردن ابرصفحه جداکننده با بیشترین فاصله از نقاط حاشیهای است که نقاط با y_i=1 را از نقاط باy_i=-1 جدا کند.‎[۴]
هر ابر صحفه میتواند بصورت رابطه ۲-۱۳ تعریف شود
رابطه ۲-۱۳
W.x+b=0

که w بردار وزنها وn تعداد صفات و b یک عدد است اگرb به عنوان یک وزن اضافی در نظر بگیریم معادله بصورت رابطه ۲-۱۴ است.
رابطه ۲-۱۴
w_0+w_1 x_1+w_2 x_2=0

اگر این نقطه بالا جدا کننده ابر صحفه باشد معادله بصورت رابطه ۲-۱۵ است.
رابطه ۲-۱۵
w_0+w_1 x_1+w_2 x_20

اگر این نقطه پایین جدا کننده ابر صحفه باشد معادله بصورت رابطه ۲-۱۶ است
رابطه ۲-۱۶
w_0+w_1 x_1+w_2 x_2<0 وزن را می توان طوری تنظیم کرد به طوری که دارای مقدار حاشیه ماکزیمم شود رابطه 2-15 و 2-16 را میتوان بصورت رابطه 2-17 و 2-18 نِز نشان داد. رابطه 2-17 H_1:w_0+w_1 x_1+w_2 x_2>1 for y_i=+1

رابطه ۲-۱۸
H_2:w_0+w_1 x_1+w_2 x_2-1?fory?_i=-1

با ترکیب این دو رابطه ۲-۱۷ و ۲-۱۸ نامساوی ۲-۱۹ را داریم
رابطه ۲-۱۹
y_i (w_0+w_1 x_1+w_2 x_2 )?1 ?i

رکوردهای آموزشی که در ابرصفحه تعریف میشوند و در نامساوی بالا صدق میکنند بردار پشتیبانی نامیده می شود. اگر داده های آموزشی جدایی پذیر خطی باشند، ما می توانیم دو ابر صفحه در حاشیه نقاط به طوری که هیچ نقطه مشترکی نداشته باشند، در نظر بگیریم و سپس سعی کنیم فاصله بین آنها ماکسیمم شود. با استفاده از هندسه، فاصله این دو صفحه ۲/?w? ا است. بنابر این ما باید ?w? را مینیمم کنیم که حل این مسئله با ضرایب لاگرانژ یا مسئله دو گان قابل حل است‎[۴].
۲-۲-۶-۲ دادهها خطی نیستند
در این حالت ما مدل را از حالت خطی استخراج میکنیم برای این کار به دو مرحله احتیاج داریم
مرحله اول: تبدیل دادهها ورودی به فضایی با با ابعاد بالاتر با استفاده از نگاشت غیر خطی
مرحله دوم: جستجو برای پیدا کردن یک ابر صحفه جدا کننده خطی در فضای جدید
پیدا کردن ابر صحفه خطی در فضای جدید متناظر ابر صفحه غیر خطی در فضای قبلی است.
تابع ?(x) را تابع نگاشت غیر خطی برای تبدیل دادههاست تابع هسته
رابطه ۲-۲۰
k(x_i,x_j )=?(x_i).?(x_j)

بصورت رابطه ۲-۲۰ تعریف میشود. به عبارت دیگر هر ?(x_i).?(x_j) در الگوریتم آموزشی را با k(x_i,x_j ) حایگرین میکنیم[۴].
چندین تابع معروف برای نگاشت وجود دارد که معروفترین آنها تابع چند جملهای از درجه h بصورت رابطه ۲-۲۱ و تابع گوس بصورت رابطه ۲-۲۲ و تابع هلالی بصورت رابطه ۲-۲۳ تعریف میشود[۴].
چند جمله ای از درجه h
رابطه ۲-۲۱
k(x_i,x_j )=(x_i x_j+1)^h

تابع گوس
رابطه ۲-۲۲
k(x_i,x_j )=e^(-?x_i ?-x?_j ?^2 )?(2?^2 )

تابع هلالی
رابطه ۲-۲۳
k(x_i,x_j )=tanh?(?x_i x_j-? )

۲-۳ مقدمهای بر تقلب۲۷
تقلب به عنوان یک فعالیت مجرمانه میتواند تعریف شود و شامل نشان دادن اطلاعات غلط یا اشتباه که هیچ گونه مزیت ندارد. تقلب به شکلهای مختلف رخ میدهد و تغییر در تکنولوژی، اقتصاد و سیستمهای اجتماعی یک فرصت برای فعالیتهای مجرمانه است.جمع کل زیان تجاری که از فعالیت مجرمانه بدست می آید قابل تخمین نیست‎[۶].
۲-۳-۱ ساختن مدل برای تقلب
هدف اصلی این بخش شناسایی تقلب و ساختن یک مدل است.
هدف ما ساختن مدل تقلب و داشتن اطلاعات اضافی که دانش ما در مورد تشخیص تقلب عمیق تر و وسیعتر میسازد.
۲-۳-۲ اصول کلی تقلب:
شناسایی تقلب نیازبه فرمول کردن قوانین بر پایه اصول هشدار ، پروفایل و خطرناک دارد.
مدل سازی تقلب نیاز به ساختن اشیا، بر پایه روابطی در گذشته که میان شرایط مختلف و رخداد تقلب طراحی شده است، دارد .
۲-۳-۳ چگونگی شناسایی تقلب:
رهیافت اصلی برای کشف تقلب، مشخص نمودن مدل تحلیلی برای پیشبینی امکان تقلب با متقلبان شناخته شده و اقداماتی که در گذشته انجام داده است، امکان پذیر میباشد. قویترین مدل تقلب( مدل پاسخ مشتری) بر اساس داده تاریخی ساخته شده است.
اگر پاسخ تقلب را بتوانیم مشخص کنیم میتوانیم از آن برای مشخص نمودن رفتار متقلب را در دادههای تاریخی استفاده کنیم‎[۶].
۲-۳-۴ چگونگی ساخت مدل تقلب:
سه رهیافت کلی برای ساخت مدل تقلب وجود دارد که در شکل ۲-۸ آمده است.مدلهای اولیه کشف تقلب بر پایه سیستم خبره بودند که برای مشخص کردن متقلب به کار میرفتند. علاوه بر جدا کردن الگوهای ریاضی در مجموعه دادهها، این سیتم ها از قوانین استفاده میکنند. که این

منابع مقاله درباره 
دسته بندی، درخت تصمیم، نمونه آموزشی، ماشین بردار پشتیبان No category
دسته‌ها: No category

دیدگاهتان را بنویسید