ش بررسی نرمال کار سختی است دلیل اصلی کمبود دانش ما نسبت به تقلب است و دلیل دیگر اینکه تجربه کافی برای اینکه با این روش بتوانیم تقلب را تشخیص بدهیم نداریم به همین دلیل از روشهای آماری و دادهکاوی استفاده میکنیم[۷].
۲-۶-۲-۲ رویکرد پژوهش:
در این مقاله از رویکرد ستنی دادهکاوی شامل جمعآوری دادهها، یکپارچه سازی دادهها، پیش پردازش دادهها، دادهکاوی و ارزیابی استفاده شده است. در این مقاله نیز همین چارچوب را نویسندگان برای کشف تقلب درسیستم های مالی پیشنهاد کرده اند. این مقاله یک مرور جامع بر کارهایی است که در زمینه تقلب در سیستم های مالی شده است[۷].

شکل ۲-۱۰: چارچوب کلی دادهکاوی برای کشف تقلب[۷]
ویژگی مجموعه داده استفاده شده:
مفروضات آزمایش:
توزیع دادهها : دادههای مربوط به سیستم مدیریت تقلب مالی به دو دسته توزیع میشوند دادههای کمپانی با تقلب و بدن تقلب، دادههای بازبینی شده و شرکتهای دولتی
توزیع دادهها: بیشتر تحقیقات بر شناسایی تقلب در دادههای تقلب و غیر تقلب کاربرد دارد.
نوع یادگیری: دو نوع یادگیری بانظارت و بینظارت مورد بررسی قرار گرفت. بیشتر الگوریتمهای تشخیص تقلب مالی بر پایه یادگیری بانظارت است.
الگوریتمهای دادهکاوی: کارهای ابتدایی دادهکاوی شامل دستهبندی، خوشهبندی، قواعد انجمنی و پیشبینی است. بیشتر الگوریتمهای تشخیص تقلب مالی بر اساس دستهبندی است.
تکنیکهای دادهکاوی: الگوریتمهای تشخیص تقلب مالی با توجه تکنیکهای دادهکاوی به پنج دسته تقسیم میشوند رگرسیون، شبکهعصبی، درخت تصمیم ، شبکه بردار پشتیبان و شبکه بیزین
نتیجه آزمایش: در رهیافت تشخیص تقلب مالی ازروشهای بانظارت نوع دستهبندی و بیشتر از الگوریتمهای رگرسیون و شبکهعصبی استفاده میشود.
۲-۶-۲ پژوهش دوم: کشف تقلب در کارت اعتباری با استفاده از شبکه عصبی و بیزین
۲-۶-۲-۱ هدف پژوهش:
هدف پژوهش شناسایی تقلب در کارت اعتباری و همچنین مقایسه بین شبکه عصبی و بیزین است که با توجه به مجموعه داده و همچنین کاربرد خاص شبکه بیزین عملکرد بهتری دارد[۸].
۲-۶-۲-۲ رویکرد پژوهش:
در این رویکرد از یکسری داده مورد استفاده از شرکت international waterschoot at europay گرفته شده است. این مجموعه دادهها دارای ویژگیهای و اطلاعات مفید درباره هر تراکنش هست که با Fi نشان میدهیم.
در استفاده از شبکه عصبی پیشپردازش خیلی مهم است برای نمایش بهتر ارزیابی که مستقل ازیادگیری است ما از receive Operating Curve استفاده میکنیم.
بعد از آموزش بوسیله شبکهعصبی ما با مجموعه ویژگی که تاکنون ندیدهایم برخورد میکنیم وتراکنشها در یک مجموعه دسته بندی مینماییم. اما باید مشخص کنیم چه مقدار تراکنش در هر دسته واقعا درست هستند همچنین باید مشخص شود چند درصد از تراکنش ها واقعا متقلب هستند.
از دو نرخ بنام نرخ قطعی درست و نرخ قطعی غلط استفاده میکنیم
نرخ قطعی درست: چه مقدار تراکنش متقلب بطور صحیح متقلب تشخیص داده شده است.
نرخ قطعی غلط: چه مقدار تراکنش درست بطور غلط متلقب تشخیص داده شده است.
در منحنیROC ضلع X نرخ قطعی غلط و ضلع Y نرخ قطعی درست را نشان میدهد.
تشخیص تقلب با شبکهعصبی:
مهم بودن پیشپردازش برای کارایی شبکهعصبی بسیار مهم است در شکل ۲-۱۱ دو منحنیROC وجود دارد که از اجرا روی مجموعه داده ها با ۱۰ ویژگی بدست آمده است.
ROC پررنگ: که نتیجه بهتری است پیشپردازش شامل نرمالسازی و مقادیر مورد انتظار دارای انحراف کمی از مقادیر واقعی است دارای نرخ قطعی درست ۷۰% و نرخ غلط ۱۵% است.
ROC روشن: پیش پردازش پیش پردازش شامل نرمالسازی و مقادیر مورد انتظار دارای انحراف کمی از مقادیر واقعی است و دارای نرخ قطعی درست ۶۰% و نرخ غلط ۱۵% است [۸].

شکل ۲-۱۱:مقایسه خروجیها با استفاده از نمودار [۸] ROC
تشخیص تقلب با شبکه بیزین: در شکل همچنان که دیدید ROC وابسته به ساختار است و با بهتر کردن ساختار میتوان نتیجه بهتری گرفت.
ارزیابی :
در ارزیابی که در جدول ۲-۴ آمده است شبکه بیزین دارای عمکرد بهتری نسبت به شبکه عصبی است.
جدول ۲-۴: مقایسه نتیجه بین شبکهعصبی و شبکه بیزین[۸]
نرخ قطعی غلط ±۱۵
نرخ قطعی غلط ±۱۰
تست
۷۰ % نرخ قطعی درست
۶۰% نرخ قطعی درست
شبکه عصبی(a)
۵۸%نرخ قطعی درست
۴۷% نرخ قطعی درست
شبکه عصبی(b)
۷۰%نرخ قطعی درست
۶۰% نرخ قطعی درست
شبکه عصبی(c)
۷۴%نرخ قطعی درست
۶۸% نرخ قطعی درست
شبکه بیزین(e)
۷۴%نرخ قطعی درست
۶۸% نرخ قطعی درست
شبکه بیزین(f)

نتیجه گیری: شبکه بیزین در این مثال خاص و با این مجموعه داده دارای نتیجهگیری بهتری نسبت به شبکه عصبی است.
پژوهش سوم: شناسایی تقلب بیمه با استفاده از تکنیکهای دادهکاوی
۲-۶-۳-۱ هدف پژوهش:
در این پژوهش با استفاده از الگوریتمهای برپایه قوانین، شبکه بیزین و درخت تصمیم برای تشخیص تقلب در بیمه اتومبیل استفاده میکنیم[۹].
۲-۶-۳-۲ رویکرد پژوهش:
در شبکه بیزین سعی بر این است که مدل رفتاری را، تحت این فرض که راننده متقلب یا راننده دارای عملکرد صحیح است ایجاد مینماییم با وارد کردن شاهد در این شبکه ما می توانیم احتمال E را تحت فرضیات ذکرشده بدست بیاوریم. محاسبه بصورت روابط ۲-۳۲ و ۲-۳۳ و ۲-۳۴ و ۲-۳۵ میباشد.
رابطه۲-۳۲

این مطلب رو هم توصیه می کنم بخونین:   منابع مقاله درباره معیارهای ارزیابی، شبکه عصبی، درخت تصمیم، الگوریتم ژنتیک

P(output = fraud | E)= [P(E | output = fraud) P(output = fraud)] / P(E)
و رابطه۲-۳۳

P(output = legal | E)= [P(E | output =legal) P(output = legal)] / P(E)
P(E|OUTPUT=LEGAL) و P(E|OUTPUT=FRAUD)
در شبکه بیزین برای محاسبه احتمال P(fraud)=di/d که d نشان دهنده کل رکورد و di نشان دهنده تعداد رکورد تقلب است.
رابطه۲-۳۴

p(E?OUTPUT=FRAUD) =?_(K=1)^N??P(X_K?OUTPUT=FRAUD) ?)
رابطه‏۰۲-۳۵

P(E|OUTPUT=LEGAL)=?_(K=1)^N?P(X_K |OUPUT=LEGAL)
P(X_K |OUTPUT=FRAUD=d_ik?d_i )
dik تعداد رکوردهایی از خروجی که برابر fraud است و دارای xk مقدار برای هرصفت است.
در جدول ۲-۵ برایE=(Policyholder=1,driverrating=0,report field=0.33)
با توجه به پایگاه داده مربوط به داده ها داریم :
p(fraud)=3?20=0.15
p(legal)=17?20=0.85
گامهای الگوریتم:
p((policyhoder=1)?(ouput=fraud))=3?3=1
p(E|output=fraud)=?_(k=1)^n?(p(x_k |output=fraud)) =0
اما محاسبه legal:
p((policyhoder=1)?(ouput=legal))=12?17=0.706
p(E|output=legal)=?_(k=1)^n?(p(x_k |output=legal)) =0.0068
بنابراین
p(E|output=fraud)*p(E|output=fraud)=0
p(E|output=legal)*p(E|output=legal)=0.0058
بر پایه محاسبات ما رکورد جدید را درست میدانیم.
با توجه به تخمین لاپلاس ومحاسبات صورت گرفته و افزودن یک فیلد جدید، رکورد جدید در جدول زیر به عنوان رکورد متقلب است.
جدول ۲-۵: داده برای دستهبندی بیزین[۹]
خروجی
گزارشات
سرعت رانندگی
سیاست پلیس
موارد
legal
۰
۰
۱
۱
fraud
۱
۱
۱
۲
legal
۰
۰
۰
۳
legal
۱
۰.۳۳
۱
۴
legal
۰
۰.۶۶
۱
۵
?
۰.۳۳
۰
۱
E

جدول ۲-۶: داده برای دستهبندی بیزین‎[۹]
خروجی
قیمت و سن خودرو
گزارشات
سرعت رانندگی
سیاست پلیس
موارد
legal
۰.۳۳
۰
۰
۱
۱
fraud
۰.۵
۱
۱
۱
۲
legal
۰.۷۵
۰
۰
۰
۳
legal
۰.۵
۱
۰.۳۳
۱
۴
legal
۰.۵
۰
۰.۶۶
۱
۵
?
۰.۵
۰.۳۳
۰
۱
E

با توجه به الگوریتم درخت تصمیم و C4.5 نتایج زیر بدست می آید. آنتروپی و مقادیر مورد انتظار ازرابطه ۲-۳۶ و ۲-۳۷ بدست می آید.

رابطه‏۰۲-۳۶

P(FRAUD ,LEGAL)=-(FRAUDINSTANCE?INSTANCE) ?log?_2?(FRAUDINSTANCE?INSTANCE)-(LEGALINSTANCE?INSTANCE) ?log?_2?(LEGALINSTANCE?INSTANCE)
رابطه‏۰۲-۳۷

E(A)=??[{(FRAUDINSTANCE?INSTANCE)+(LEGALINSTANCE?INSTANCE)}*{E(FRAUDATTRIBUTE ,LEGALATTRIBUTE)}]
احتمالات برابر
entropy=-0.1 log?0.1-0.9 log??0.9 ?=0.469
E(vehicleAgePrice) = (9/20) entropy(1, 8) = (9/20) (-1/9 log2 1/9 – 8/9 log2 8/9) = .225
information gain=0.469 – [(9/20) (-1/9 log2 1/9 – 8/9 log2 8/9)] = 0.244
prob(output = fraud) = 2/20 = 0.1
giniindex=1-?_j??prob?_(j^2 ) =?0.1?^2+?0.9?^2=0.18
محاسبات نشان میدهد صفت vehicle age price باید دربرگ قرار گیرد.
الگوریتم مبتنی بر rule ها:
این الگوریتم بر اساس if-then است که ازدرخت تصمیم استخراج میشود.

شکل ۲-۱۲: الگوریتم استخراج شده از درخت تصمیم‎[۹]
برای مدل ارزیابی از ماتریس Confusion استفاده میشود که نتایج آن به درجدول ۲-۷ آمده است.
جدول ۲-۷: ارزیابی درخت تصمیم[۹]
Accuracy:0.78
fraud
legal

Recall:0.86
۱۱۲۵
۳۱۰۰
Legal
Precision:0.70
۲۳۸۰
۳۹۵
fraud

۲-۶-۴ پژوهش چهارم: استفاده از الگوریتم ژنتیک برای تشخیص تست نفوذ
۲-۶-۴-۱ هدف پژوهش:
استفاده و الهامگیری ازطبیعت برای تشخیص تست نفوذ
۲-۶-۴-۲ رویکرد پژوهش:
الگوریتم ژنتیک در واقع در شکل ۲-۱۳ نشان داده شده است مهمترین کار در این الگوریتم انتخاب تابع برازندگی۴۳ مناسب است. در هر الگوریتم ژنتیک ۳ مورد بسیار مهم است[۱۰].
انتخاب تابع برازندگی
مقدار پارامترها
نشان دادن جمعیت انفرادی

شکل ۲-۱۳: عملکرد الگوریتم ژنتیک‎[۱۰]
در کل اگر قانونی بصورت if-then باشد تابع برازش آن نیز باید مشخص شود در شکل ۲-۱۴ این قانون آمده است.

شکل ۲-۱۴: قاعده استخراج شده از الگورِیتم ژنتیک‎[۱۰]
توابع به صورت آنچه در شکل ۲-۱۵ آمده است تعریف میشود:

شکل ۲-۱۵: توابع مربوط به الگوریتم ژنتیک و مقدار دهی آنها[۱۰]
N: تعداد ارتباطات درشبکه است.
|A |: شمار ارتباطاتی که با شرط A تطابق دارند.
|A and B|: شمار ارتباطاتی که با شرط اگر A سپس B تطابق دارد.
W1 و W2 برای کنترل تعادل میان confidence و support بکار میرود. بعد از به کار بردن این الگوریتم قوانین جدیدی به مجموعه قوانین اضافه میشود.

شکل ۲-۱۶: معماری الگوریتم ژنتیک برای تست نفوذ [۱۰]

بعد از جمع آوری داده ازشبکه، داده مورد پردازش قرار میگیرد و به فرمت مناسب برای الگوریتم ژنتیک تبدیل میشود سپس ازتابع برازندگی استفاده میشود تا مجموعه قوانین در پایگاه داده ذخیره شود. [۱۰].
۲-۶-۵ پژوهش پنجم: شناسایی ترافیک غیرنرمال در شبکه با الگوریتم خوشه بندی
۲-۶-۵-۱ هدف پژوهش:
در این مقاله با استفاده از الگوریتم خوشه بندیk-means بستههای موجود در شبکه را به دو دسته نرمال و غیرنرمال تقسیم میکند[۱۱].
۲-۶-۵-۲ رویکرد پژوهش:
در این تحقیق داده ها دارای ۳ خصیصه اصلی هستند که شامل موارد زیر میباشد..
جمع کل بستههایی که ازیک پورت فرستاده میشود.
جمع کل بایتهایی که ازیک پورت فرستاده میشود.
تعداد جفت منبع-مقصد متفاوت
انگیزه اصلی این کار تعداد بایتها و

دسته‌ها: No category

دیدگاهتان را بنویسید