산학협력 프로젝트 수행계획서

과 제 명

머신러닝/딥러닝을 이용한 멀웨어 탐지 및 멀웨어 패밀리 분류

키워드 검색


협력기관명

안랩

과제책임자

조성제 교수

참여인원


추진배경

기존 시그니처 기반 멀웨어(악성 앱) 탐지기법의 경우, 변종 멀웨어나 새로운 유형의 멀웨어를 탐지하는데 한계가 있음.

새로운 유형의 멀웨어 및 변종을 탐지하기 위해서, 기계학습(딥러닝) 기법들을 연구할 필요 있음.

 - 이에 따라 멀웨어 탐지 및 멀웨어 패밀리 분류에 대한 체계적 연구를 수행하고자 함.

 - 멀웨어 패밀리 분류의 경우, 각 패밀리에 속한 샘플들의 수가 가변적이므로 이에 대한 고려 필요.

악성코드의 급격한 증가

 - 한달 3000만개 가량의 신종 악성코드 발생 (안랩, 2017)

 - 악성코드 수 및 APT 공격의 대폭 증가, 제로데이 공격 고도화

악성 코드의 분석 방해 기술 증가

 - 악성 코드가 각종 패커와 프로텍터 등을 통해 자신을 보호

분석이 힘든 악성코드에 대한 대응법 필요

 - 각종 패커와 프로텍터가 어떻게 프로그램을 보호하는지, 내부적인 원리와 언패킹 기법 코드 가상화 연구에 대한 필요성

목표 및 내용

기존의 멀웨어 탐지 및 멀웨어 패일리 분류 기법에 대한 조사

머신러닝/딥러닝 기반의 멀웨어(악성 앱) 탐지 -- Binary classification 문제

 - 악성 앱(malicious app)들과 양성 앱(benig app)들을 식별하기 위해 어떠한 특징정보가 효과적인지, 또한 어떤 분류 모델이 적합한지를 비교 분석.

머신러닝/딥러닝 기반의 멀웨어 패밀리 분류 -- Multi-class classification 문제

 - 멀웨어 패밀리 분류는 악성 앱들만을 대상으로 서로 유사한 악성 앱들을 그룹화하는 문제임.

 - 각 멀웨어 패밀리에 포함된 샘플의 수가 차이가 날 수 있으므로, 이를 고려한 분류 기법과 성능 평가 지표에 대한 연구를 수행.

 - 딥러닝의 경우, 네트워크 구성, 최적화 인자, 반복 횟수 등에 대한 고려도 필요.

안드로이드 멀웨어의 경우, DEX 파일을 이미지화하여 그 이지미를 기반으로 분류함.

 - APK내에 DEX 파일을 이미지로 변환하고 이미지로 변환된 데이터를 CNN(합성곱 신경망) 알고리즘에 적용하여 패밀리를 분류

 - 또한, DEX 파일 내의 Data Section만을 추출하여 경량화된 이미지를 생성하고 이에 딥러닝을 적용하는 기법의 효율성을 분석

 - 이의 장점은, 패킹이나 난독화와 같은 분석 회피기법의 적용 여부를 고려할 필요가 없다는 점임.

 - DREBIN, AMD, AndroZoo 등의 다양한 데이터셋에 대해 실험을 진행하여 영향 분석

기대효과

기존 시그니처 기반의 탐지 방법은 새로운 멀웨어의 시그니처가 업데이트되기까지 공백 기간이 발생하는 문제가 있었음. 본 연구에서 제시된 머신러닝/딥러닝 방법을 통해 이러한 문제점을 효율적으로 개선하거나 해소할 수 있음.

안드로이드 멀웨어 분석의 경우, DEX 전체가 아닌 DEX의 일부인 Data Section 만을 사용할 경우, 처리할 데이터를 경량화할 수 있는 효과도 있음.

여러 분류 모델들 간의 성능을 분석하여, 어느 경우에 어느 분류 모델이 적합한지 파악 가능