Inteligentna identyfikacja wariantów złośliwego oprogramowania

Inteligentna identyfikacja wariantów złośliwego oprogramowania

Każdego dnia odnotowuje się ok. 500 tys. nowych przykładów malware’u. Mimo iż wiele z nich nie różni się znacząco od tych już znanych, analiza klasycznych sygnatur, czyli charakterystycznych fragmentów ich kodu binarnego, nie jest wystarczająca. Twórcy malware’u wykorzystują narzędzia do modyfikowania kodu źródłowego (tzw. obfuskacji), co może prowadzić do opóźnionej detekcji funkcjonalności wykorzystujących nieznane podatności. Istnieje zatem realna potrzeba automatyzacji pracy analityków i specjalistów od inżynierii wstecznej, którzy generują nowego rodzaju sygnatury – złożone i bardziej uniwersalne, bazujące na znalezionych przez nich cechach programów świadczących o szkodliwym działaniu.

W celu zwiększenia skuteczności detekcji wariantów znanego malware’u opracowane zostały modele uczenia maszynowego pozwalające wykorzystać tysiące cech wyekstrahowanych za pomocą narzędzi do statycznej i dynamicznej analizy oprogramowania. Modele te generują nowe sygnatury dla pojedynczych próbek lub nawet dla całych grup podobnych programów. Takie sygnatury mogą zostać później użyte zarówno do klasyfikacji próbek pod kątem złośliwości, jak i do zdefiniowania ich kluczowych cech. Finalnie nieznane dotąd próbki mogą zostać szybko rozpoznane.

Rozwiązanie to zostało opracowane w ramach projektu MALWINA i osiąga trafność identyfikacji złośliwych wariantów próbek na poziomie 99,99% na zbiorze testowym. Modele tworzące sygnatury zostały wytrenowane na 10 mln próbek malware’u. Obecnie prace są kontynuowane na większym zbiorze danych w ramach projektu KMD.

Mateusz Twardawa, Dział Bezpieczeństwa ICT
Maksymilian Marcinowski, Dział Bezpieczeństwa ICT