بخش دهم شناسایی ویروس دگرگون شده

نتایج نشان می دهد که شناساگرهای HMM و CSD مقادیر آماری کاملاً متفاوتی را ارائه می دهند. مهمتر از همه اینکه از نقطه نظرِ شناسایی ویروس دگرگون شده، نشان دادیم که ترکیب این دو شناساگر برای ساخت یک شناساگر هیبریدی که قوی تر از دو شناساگر دیگر باشد امکان پذیر است.

به گزارش بسیج مهندسین فارس،این مقاله یکی از جدیدترین مقالات در مورد بدافزارها و امنیت اطلاعات است که از مقالات ISI 2014 می باشد . ترجمه دقیق عنوان مقاله "فاصله ی مجذور کای و شناسایی ویروس دگرگون شده " است.
این بخش پس از مقدمه و تعاریف و تکنیکهای مبهم سازی ـآورده شده .

بخش دهم یا آخر:

5 نتایج آزمایشی

در این بخش، نتایج حاصل از آزمایشاتمان را که با کمک شناساگر مبتنی بر HMM، ارزیاب فاصله ی مجذور کای (CSD) و شناساگر هیبریدی ویروس بدست آوردیم ارائه خواهیم کرد. همانطور که در بخش قبلی گفتیم از منحنی های ROC و مقادیر میانگین دقت حداکثری (MMA) برای ارزیابی عملکرد هر یک از این سه شناساگر استفاده می کنیم.

در اینجا، به بخش های کوچکی از کد بی خطر که در فایل پراکنده شده، عنوان "کد مرده" را می دهیم. برای موردی که در آن یک بلوک به هم پیوسته ی بلند بکار رفته، به کد وارده عنوان "کد زیر روال" را می دهیم. برای هر یک از این سه آزمایش که در جدول 5 آمده، پارامترهای مولّد دگرگونی بگونه ای تنظیم شده اند که کدهای مرده و کدهای زیرروال زیادی را با نرخ رشد 10 درصدی تا حداکثر 40 درصدی تولید می کنند. این امر، نمایانگرِ 25 ترکیب حاصل از مقادیر پارامتر در هر آزمایش است که هر ترکیب از 200 فایل مجزای ویروس دگرگون شده (و 40 فایل بی خطر) استفاده می کند و هر یک از اینها از روش اعتبارسنجی متقایل پنج لایه ای استفاده می کنند.

همه ی آزمایش هایی که در اینجا ذکر می شود به مجموعه داده ها و روش هایی که در بخش 4 گفتیم وابسته است. نتایج آزمایشاتی دیگر را می توان در مرجع [26] پیدا کرد.

1.5 آموزش با ویروس های NGVCK

در این آزمایش، از فایل های ویروس دگرگون شده ی NGVCK به عنوان ویروس های پایه استفاده کردیم. بدین صورت که برای هر سِت یا مجموعه ی آموزشی، ویروس های NGVCK را بدون تغییر بیشتر مورد استفاده قرار دادیم. برای ویروس هایی که در ستِ آزمون (تست) قرار داشتند، سطوح مختلفی از دگرگونی را اعمال کردیم (وارد کردن کد مرده و یا کد زیرروال).

جدول 6 دربردارنده ی نتایج MMA برای شناساگر HMM، ارزیاب CSD و مدل هیبریدی خودمان است. برای هر ردیف جدول، امتیازی که با حروف برجسته می بینید بهترین مقدار شناسایی سطوح مشخص دگرگونی است. منحنی ROC مربوطه در شکل 8 آمده است.

در این تست می بینیم که نتایج مدل HMM واقعاً خوب است و نتایج مدل هیبریدی کمی بهتر از آن. نتایج CSD، در سطوح پایین تر دگرگونی، قابل مقایسه با HMM است اما در سطوح بالاتر دگرگونی، HMM خیلی بهتر است. همچنین خاطرنشان می کنیم که CSD در سطوح بالاتر زیر روال ها، تا حدی عملکرد خوبی نسبت به HMM از خود نشان می دهد، هرچند که هنوز هم از سطح HMM پایین تر است.

2.5 مجموعه ی آموزشی دگرگون شده با کد مرده ی 10 درصدی

مجموعه داده ی آموزشی برای این آزمایش از فایل های ویروس NGVCK که با وارد کردن کد مردهی 10 درصدی دگرگونی بیشتری حاصل کردند تشکیل شده است. این آزمایش حالتیرا شبیه سازی می کند که در آن ویروس های اولیه با کد مرده ی انتخاب شده از فایل های سالم، بسیار بیشتر دگرگون شده اند. هدف از وارد کردن چنین کدی می تواند اجتناب از روش های آماری شناسایی ویروس باشد. امتیازات MMA حاصل از شناساگر HMM، ارزیاب CSD و مدل هیبریدی در جدول 7 بطور خلاصه آمده. در این مورد، منحنی های ROC برای این آزمایش در شکل 9 نمایش داده شده اند.

در این آزمایش نسبت به آزمایش قبلی، نتایج HMM تا حدی قوی تر از CSD می باشد. همانطور که در آزمایش قبلی دیدیم، در این آزمایش مدل هیبریدی مدل هیبریدی نسبت به HMM کمی پیشرفت حاصل کرده.

3.5 مجموعه ی آموزشی دگرگون شده با کد زیرروال 10 درصدی

مثل آزمایش قبلی، ویروس های دگرگون شده ی اولیه با 10 درصد کد اضافی که از فایل های بی خطر گرفته شده بودند دگرگون شدند. اما در این آزمایش، تمامی زیرروال ها از فایل های بی خطر استخراج شدند. این موقعیتی را نشان می دهد که در آن ویروس های دگرگون شده نسبت به NGVCK بیشتر تغییر کرده اند. در این مورد ویروس ها با بلوک های بهم پیوسته ی کد حاصل از فابل های بی خطر بسیار بیشتر دگرگون شدند. نتایج این آزمایش در جدول 8 آمده است. منحنی های ROC برای این آزمایش در شکل 10 آمده است.

مقادیر شناسایی HMM در این آزمایش، ضعیف است که با تحقیق قبلی مطابقت دارد. اما CSD عملکرد خوبی دارد و نتایج هیبریدی اندکی باعث بهبود وضعیت CSD شده.

6 بحث

همانطور که انتظار می رفت برای شناساگر CSD کمی متفاوت است که کد بی خطر در فایل (کد مرده) پراکنده شود یا به عنوان بلوک های بهم پیوسته ی بلند (کد زیرروال) قرار داده شود. اما بخاطر این نیست که وقتی کد بی خطر به شکل بلوک های بهم پیوسته داخل می شود، HMM با درصد نسبتاً پایینی شکست می خورد.

7 نتیجه گیری

در این مقاله، یک استراتژی شناسایی ویروس دگرگون شده ی هیبریدی را به بحث گذاشتیم که هم از مولفه ی یادگیری ماشینی (HMM) و هم از مولفه ی تجزیه و تحلیل آماری (CSD) استفاده می کند. نشان دادیم که شناساگر هیبریدی ما عموماً عملکرد بهتری نسبت به روش های انفرادی دارد. این روش هیبریدی به ضعف های قابل توجهی که در شناسایی دگرگونی مبتنی بر مدل HMM وجود دارد غلبه می کند. این ضعف ها را در تحقیق قبلی ذکر کردیم [16,29].

در اینجا مطابق با تحقیق قبلی دریافتیم که شناساگر HMM زمانیکه کد بی خطر در بلوک های کوچک قرار می گیرد عملکرد خوبی دارد اما وقتی دگرگونی شامل بلوک های بهم پیوسته می شود عملکرد خیلی بدی از خود نشان می دهد. همانطور که انتظار می رود، ارزیاب CSD عملکرد مشابهی در دو حالت دارد. اگر شناساگر CSD عملکرد خیلی سطح بالایی از خود نشان دهد تعجب برانگیز است حال آنکه روش هیبریدی در اکثر مواقع بخوبی عمل می کند. اما با توجه به سادگی شناساگر CSD و ایکه مقادیر شناسایی آن معمولاً نزدیک به مقادیر مربوط به مدل هیبریدی است، شناساگر CSD در عمل بر شناساگر هیبریدی ارجحیت دارد.

تحقیقات آینده می تواند دربردارنده ی بررسی مدل هایی که جنبه ی آماری بیشتری دارند و ارزیابی عملکرد آنها باشد. همچنین بررسی روش های دیگری که دو امتیاز یا بیشتر را با هم در یک مدل هیبریدی ترکیب می کند می تواند بسیار ارزشمند باشد. بعلاوه، به نظر می رسد تست های اضافی با مولّدهای دگرگونی و استراتژی های دگرگونی نیز تحقیق جالبی شود.

/224224

مطالب مرتبط

سیستم احراز هویت بیومتریک بر روی دستگاه های شخصی همراه

۸ چیزی که فناوری در آینده از بین می‌برد

بخش نهم شناسایی ویروس دگرگون شده

بخش هشتم شناسایی ویروس دگرگون شده

بخش هفتم شناسایی ویروس دگرگون شده

بخش ششم شناسایی ویروس دگرگون شده

بخش پنجم شناسایی ویروس دگرگون شده

بخش چهارم شناسایی ویروس دگرگون شده

بخش سوم شناسایی ویروس دگرگون شده

بخش دوم شناسایی ویروس دگرگون شده

بخش اول شناسایی ویروس دگرگون شده

برچسب ها: بسیج مهندسین ، شناسایی ویروس دگرگون شده ، ترجمه مقاله

X Share

Stumble Upon Delicious Cloob

Digg