بستههایی است که در شبکه رد و بدل میشود با توجه به ماهیت k_means و مفروضات مسئله فاصله بصورت زیر تعریف میشود.
رابطه۲-۳۸

d(x,y)=?(?_(i=1)^m??((x_i-y_i ))?s_i ?^2 )
که si فاکتور است که بستگی به ویژگیi ام دارد. که بطور تجربی بدست میآید. ضرایب برای بسته و بایت و جفت فرستنده-گیرنده بدین بصورت است:
Spacket=Sbyte=5 , Ssrc-dist=1
با مقدار دهیk=2 و دو نوع بسته داده داریم
در ادامه خوشهبندی با دو جفت (پروتکل،پورت) انجام شده است.
مورد اول: خوشهبندی در این مورد بدین صورت است که داده به مرکز هر خوشه نزدیکتر باشد در آن خوشه قرار میگیرد در شکل ۲-۱۷ شیp به خوشه نرمال نزدیکتر است پس به خوشه نرمال تعلق میگیرد.

شکل ۲-۱۷: خوشه بندی برایk=2 [11]
اما در ادامه برای شناسایی داده غیرنرمال که در ادامه آماده است برای شناسایی آن، فاصله با مرکز داده نرمال مورد اندازه گیری قرار میگیرد اگر فاصله بین این داده و نرمال بزرگتر از dmax تعریف شده بود به عنوان داده غیرنرمال تشخیص داده میشود در شکل ۲- ۱۸p2 و p3 به عنوان داده غیرنرمال هستند.
ترکیب خوشهبندی و داده غیرنرمال: با ترکیب همزمان خوشهبندی و داده غیرنرمال میتوان داده غیرنرمال را تشخیص داد. اگر دو روش همزمان اجرا کنیم آن داده ای که نسبت به داده اصلی غیرنرمال است در دسته داده غیر نرمال قرار میگیرد.
در شکل ۲-۱۹ با توجه به dmaxدو داده p1 و p2 غیرنرمال هستند که با توجه به روش بالا p1 به مرکز خوشه غیر عادی و p2به مرکز خوشه عادی نزدیکتر است.

شکل ۲-۱۸: شناسایی داده غیرنرمال[۱۱]

شکل ۲-۱۹: ترکیب دستهبندی و شناسایی غیرنرمال‎[۱۱]
قسمت ارزیابی: در مجموعه داده بدست آمده از دانشگاه Twente با الگوریتم خوشه بندی
k-means در پروتکل HTTP،SSH و FTP مرکز خوشه داده نرمال و غیرنرمال تقریبا یکی است اما در آنالیزترافیک UDP نتیجه زیر بدست میآید:
جدول ۲-۱۱: ارزیابی با استفاده از خوشهبندی
SRC-DIST
BYTES
PKTS
CLUSTER
۱۸۹۶
۳۲۸۸۰۰۷
۲۸۲۷۴
normal
۱۴۸۳۱
۳۵۱۰۷۹۲
۳۹۷۲۵
anomalous

که نشان میدهد src-dist در غیر نرمال ۸ برابر scr-dist در داده نرمال است.
محاسبه پیچیدگی: زمان پیچیدگیO(Knt) است کهk تعداد خوشه وn تعداد عناصری که باید خوشهبندی شوند وt زمان لازم برای خوشهبندی است[۱۱].

فصل سوم

روش تحقیق

۳-۱ روش تحقیق
هدف اصلی این پایاننامه معرفی بهترین الگوریتم با توجه به مجموعه دادهها است که بتواند بسته های عادی را از غیر عادی تشخیص دهد. نوآوری اصلی در پایاننامه، استفاده از الگوریتمهای مدل کاهل و مدل قانونمحور است که تاکنون برای سیستمهای تشخیصنفوذ استفاده نشده است و استفاده از تمام الگوریتمهای موجود در روشهای دستهبندی است که در نرم افزار WEKA و Rapidminer موجود است واستخراج ۵ نمونه داده از داده اولیه که برای مدلهای مختلف و الگوریتمها مربوط به آنها بهترین جواب را میدهد. استخراج ۵ نمونه داده وقت بسیار زیادی به خود اختصاص داده وهمه الگوریتمهای مختلف موجود در مدلهای دستهبندی با مجموعه دادههای مختلف شبیهسازی و اجرا شدهاند که در نهایت ۵ نمونه داده اولیه پیشنهاد نمودهایم. کار مربوط به پیدا کردن بهترین مجموعه دادهها مستلزم آزمایشات مکرر هر الگوریتم با مجموعه دادههای مختلف، مدلسازی و ارزیابی مختلف بوده که در نهایت موفق به ارائه ۵ نمونه داده مختلف از نظر تفاوت در نوع صفات شدهایم که بهترین جواب برای الگوریتمها را ارائه مینمایند.
گام های انجام تحقیقات برای پیادهسازی مدل مانند هر روش مبتنی بر دادهکاوی به شرح زیر است
گام اول: تعیین داده
دراین گام مجموعه داده تعیین می‌شود.
گام دوم: بررسی اولیه دادهها
با استفاده از دانش خبره و از طریق محاسبه اطلاعاتی از قبیل وزن داده ها، میانگین ، مرکز داده تحلیل های ی بر روی داده انجام می‌گردد.
گام سوم: ایجاد و آموزش مدل
بعد از ایجاد مدل میتوان به آن آموزش داد.
گام چهارم: ایجاد دانش
مدل ایجاد شده دارای دانشی است که آن را از مجموعه داده‌های آموزش یاد‌گرفته است. این دانش ساختار داده را دربر دارد و الگوهای موجود در آن را میشناسد.
گام پنجم: آزمایش از مدل
دانش بدست آمده برای مجموعه دادههایی که هیچ اطلاعاتی از آنها در اختیار نیست آزمایش می شود.
معماری پیشنهاد داده شده برای تشخیص نفوذ در شکل ۳-۱ نشان داده شده است.

شکل ۳-۱: معماری پیشنهاد داده شده برای تشخیص نفوذ با روش مبتنی بر دادهکاوی
در این روش ما با استفاده از نرم افزار Rapidminer و همچنین افزودن الگوریتم هایweka به این نرم افزار شبیه سازی را انجام میدهیم. با بررسی های مختلف و چندین بار آزمایش پنج مجموعه داده آموزشی و تست برای مدلسازی پیشنهاد میگردد که در پیوست موجود است در فصل مربوط به ارزیابی، هر الگوریتم بصورت مختصر بیان شده و نیز داده آموزشی و همچنین پیش پردازش لازم به آن توضیح داده شده است.
۳-۲ دادههای آموزشی و تست:
دادهها معروف به KDD CUP 1999 DATA هستند که دادههای برچسب خوردهای میباشند که مربوط به سیستم تشخیص نفوذ و برای عموم در دسترس است . این دادهها برای دستهبندی مورد استفاده قرار میگیرد برچسب بصورت نرمال یا غیرنرمال است.
۳-۲-۱ ویژگیهای دادهها:
دادهها در آزمایشگاه Lincoln MIT آماده شدهاند.
هدف مرور و ارزیابی سیستم تشخیص نفوذ با روشهای دستهبندی است.
داده آموزشی خام حدود ۴ گیگابایت که داده باینریTCPDUMP است که هفت هفته در طول ترافیک شبکه بدست آمده است.
این دادهها مربوط به پنج میلیون ارتباط هستند.
دادههای تست در طول ۲ هفته و از ۲ میلیون رکورد بدست آمده اند
ارتباط دنبالهای از بسته هایTCP است که جریان دادهها از آدرس مبدا به آدرس مشخص با زمان شروع و پایان است و تحت پروتکل خاصی دادهها انتقال می یابند.
هر ارتباط یا برچسب نرمال و یا برچسب غیرنرمال دارد
هر ارتباط حداقل شامل ۱۰۰ بایت است.
۳-۲-۲ ویژگیهای اساسی مجموعه دادهها:
خصوصیات دادهها و نوع دادهها بطور پیش فرض در جدول ۳-۱ و ۳-۲ و ۳-۳ آمده است.

این مطلب رو هم توصیه می کنم بخونین:   پایان نامه رایگان با موضوع رگرسیون، ضریب همبستگی، نرم افزار، آزمون فرضیه

جدول۳-۱: ویژگیهای اساسی استخراج شده از ارتباط TCP
نوع
توصیف
ویژگی
پیوسته
طول(شمار ثانیه ارتباط)
duration
گسسته
نوع پروتکل TCP,UDP,..
Protocol_type
گسسته
سرویس شبکه روی کامپیوتر مقصد TELNET
service
پیوسته
شمار بایتها انتقالی از مبدا به مقصد
Src_byte
پیوسته
شمار بایتها انتقالی از مقصد به مبدا
Dst_byte
گسسته
حالت نرمال یا خطا ارتباط
flag
گسسته
۱ است اگر میزبان و پورت یکی باشد در غیر اینصورت صفر
land
پیوسته
شمار قطعه اشتباه
Wrong_fragment
پیوسته
شمار بستههای ضروری
urgent

جدول ۳-۲: ویژگیهای استخراجی از ارتباط TCP
نوع
توصیف
ویژگی
پیوسته
تعداد شاخص hot
hot
پیوسته
تعداد تلاشهای که برای ورود منجر به شکست شده است
Num_failed_logins
گسسته
اگر موفق به ورود شده است یک در غیر اینصورت صفر
Logged_in
پیوسته
تعداد شرایط به خطر افتادن
Num_compromised
گسسته
اگر root shell قابل دسترسی است یک در غیر اینصورت صفر
Root_shell
گسسته
اگر دستور su root اجرا شود یک در غیر اینصورت صفر
Su_attempted
پیوسته
تعداد دسترسی به root
Num_root
پیوسته
تعداد عملیات ایجاد فایل
Num_file_creation
پیوسته
تعداد shell prompt
Num_shells
پیوسته
تعداد عملگرهای ی که به فایل کنترل دسترسی دارند
Num_access_file
پیوسته
تعداد دستورات دسترسی از راه دور در یک ftp
Num_outbound_cmd
گسسته
اگر ورود مربوط به میزبان است ۱ در غیر اینصورت صفر
Is_hot_login
گسسته
اگر ورود مربوط به میهمان است ۱ در غیر اینصورت صفر
Is_guest_login

جدول ۳-۳: ویژگیهای استخراج شده از پنجره
نوع
توصیف
ویژگی
پیوسته
تعداد ارتباطاتی که دارای میزبان یکسان هستند
Count
ارتباطاتی که میزبان هایشان یکی است
پیوسته
درصدی از ارتباطات که دارای خطا SYN است
Serror_rate
پیوسته
درصدی از ارتباطات که دارای خطا REJ است.
Rerror_rate
پیوسته
درصدی ازارتباطات که سرویس ها شبیه به هم است
Same_srv_rate
پیوسته
درصدی ازارتباطات که سرویس ها متفاوت به هم است
Diff_srv_rate
پیوسته
شماری از ارتباطات که سرویس ها شبیه به هم است و در ۲ ثانیه قبل وجود داشته اند.
Srv_count
ارتباطاتی که سرویسهایشان یکی است.
پیوسته
درصدی از ارتباطات که دارای خطا SYN است
Srv_serror_rate
پیوسته
درصدی از ارتباطات که دارای خطا REJ است.
Srv_rerror_rate
پیوسته
درصدی ازارتباطات که میزبان متفاوت به هم دارند
Srv_diff_host_rate

بیشترین زمان صرف پیش پردازش داده میشود در قسمت مربوط به ارزیابی برای هر الگوریتم مراحل پیش پردازش شرح داده شده است. الگوریتم مربوط به هر مدل در نرم افزار Rapid miner موجود است. در شکلهای ۳-۲ و۳-۳ و ۳-۴ و ۳-۵ و ۳-۶ و ۳-۷ مدلسازی با نرم افزار نشان داده شده است در صورت لزوم میتوان توابع و ویژگی ها نیز به نرم افزار افزود.

شکل ۳-۲:مدلسازی شبکهعصبی با نرم افزار Rapidminer

شکل۳-۳: مدلسازی مدل بیزین با نرم افزار Rapidminer

شکل۳-۴: مدلسازی درخت تصمیم با نرم افزار Rapidminer

شکل ۳-۵: مدلسازی مدل قانون محور با نرم افزار Rapidminer

شکل ۳-۶: مدلسازی مدل ماشین بردار پشتیبان با نرم افزار Rapidminer

شکل ۳-۷: مدلسازی الگوریتم مدل کاهل با نرم افزار Rapidminer
بخش مربوط به ارزیابی نیز در شکل ۳-۸ آمده است که دارای پارامترهای بسیار متنوع است که میتوان با انتخاب هر کدام در بخش مدلسازی نتیجه پارامتر را مشاهده نمود.

شکل ۳-۸: نمونهای از خروجی نرمافزار Rapidminer با پارامترهای مختلف ارزیابی

فصل چهارم
محاسبات و یافتهها

در این بخش تمامی الگوریتمهای مربوط به مدلهای مختلف دادهکاوی شبیهسازی شده و نتایج بدست آمده ازارزیابی این مدلها بر اساس پارامترهای مختلف و همچنین ماتریس confusion نشان داده شده است.
۴-۱ الگوریتمهای مدل بیزین و ارزیابی آنها
در این بخش تمام الگوریتمهای Kernel naive Baysian، Naive Baysian، Waode، Aode،
Aode، Aodesr، Bayesenet، HNB، Dmnbtext و BaysianLogic Regression در مدل بیزین را با استفاده از نرمافزار شبیهسازی و مورد ارزیابی نموده و نتایج مربوط به ارزیابی در جدول ۴-۱ تا ۴-۱۸ آمده است.
الگوریتم Kernel naive Baysian
این الگوریتم از نظریه احتمالی بیزن ساده با چگالی هسته استفاده میکند. تابع وزن مورد استفاده در هسته از تکنیکهای تخمین بدون پارامتر استفاده

دسته‌ها: No category

دیدگاهتان را بنویسید