Комплексное практическое задание

Применение технологий искусственного интеллекта и машинного обучения для поиска угроз информационной безопасности

Threat Hunt

Cyber Threat Intelligence

Автор

i2z1@ddslab.ru

Дата

03.02.2025

2-4 часа в неделю, 8 семестр

Требования к выполнению

Работа над проектом должны быть организована в репозитории Github.
Проект должен включать в себя:
1. Модуль загрузки данных (ETL)
2. Модуль обработки данных и ML
3. Модуль визуализации данных
4. Документацию
Модули проекта должны быть реализованы на языке программирования R. Допускается использование любых пакетов R.
Допускается использование дополнительных необходимых модулей (микросервисы, СУБД, LLM и т.д.) при условии включения сценариев их развертывании и настройки в Проект, а также их описания в документации Проекта.

Команда

Команда может состоять из 3-5 человек
Формирование команд завершается до этапа №1
В каждой команде участники выбирают капитана команды
По окончанию формирования команды и выбора задачи, капитан команды создает группу в Телеграм, добавляет участников группы, высылает ссылку преподавателю для обсуждения хода работы над заданием и консультаций по техническим вопросам.
Каждый член команды должен внести не менее 25% вклада в работу над проектом для команд из 3 человек,
- 20% для команд из 4 человек
- 15% для команд из 5 человек
Вклад каждого члена команды оценивается по коду/документации (LoC) в репозитории Проекта
Работа над проектом в репозитории для каждого члена команды должны начаться до этапа №2
Каждый член команды должен представить Проект хотя бы 1 раз в ходе демо на этапе или модуль Проекта на нескольких презентациях этапов (при помодульном разделении ответственности внутри команды).

Тайминг

Этап 1: Демонстрация концепции проекта и программной архитектуры – 2 занятие
Этап 2: Демонстрация Модуля ETL – 4 занятие
Этап 3: Пререлиз чекап – 6 занятие
Этап 4: Демонстрация проекта – 7-8 занятия

Темы задания

Построение системы обнаружения вторжений

Обнаружение аномалий в сетевом трафике:

Фаза ETL данных

сбор данных о сетевом трафике (zeek, NetFlow)
очистка и нормализация данных, удаление несущественных данных
обогащение контекстной информацией, такой как геолокация или известная репутация IP-адресов.

Фаза аналитики & ML :

Используйте статистический анализ для идентификации базовых показателей активности в зависимости от времени суток или ролей пользователей.
Применяйте модели машинного обучения (например, кластеризация, аномалий-детектирование) для обнаружения отклонений от нормы.

Фаза визуализации :

Создайте дашборды (shiny, shinydashoard, flexdashboard, Quarto dashboard), демонстрирующие нормальные и аномальные паттерны сетевого трафика со временем.
Подчеркните конкретные аномалии на картах потоков данных и в сводных докладах о предупреждениях.

Классификация вредоносного программного обеспечения

Атрибуция неизвестных образцов ВПО по их схожести с известными образцами

Фаза ETL данных

Соберите образцы вредоносного программного обеспечения из публичных репозиториев (например, VirusTotal, MalwareBazaar).
Извлеките признаки, такие как файловые подписи, вызовы API и бинарное содержимое (с помощью существующих инструментов).
Метками обозначьте известные семейства малвари.

Фаза аналитики & ML :

Выполните исследовательский анализ данных для понимания распределений признаков. Обучайте модель классификации (например, Random Forest, SVM) для классификации неизвестных образцов.

Фаза визуализации :

Создайте матрицы ошибок классификации и ROC-кривые для оценки производительности модели. Визуализируйте наиболее репрезентативные показатели в пространстве признаков.

Анализ Git репозиториев

Создание поведенческого профиля разработчика, анализ аномалий

Фаза ETL данных

Извлеките информацию о комитах.
Очистка и нормализация данных.
Постройте хронологически последовательную историю изменений файлов репозитория.

Фаза аналитики & ML :

Проанализируйте характер вносимых изменений (код, комментарии, конфигурация, документация…).
Создайте профиль разработчика (предпочитаемый язык, статистические характеристики LoC на коммит, размер комментариев к коммиту, рабочие часы… )

Фаза визуализации :

Покажите возможные аномалии в поведенческом паттерне разработчиков
Покажите профиль разработчиков (тепловые карты, радар-карты…), оцените проект(репозиторий) в целом.

Исследование глобальной маршрутизации Интернета

Построение карты маршрутов между автономными системами (AS) Интернета

Фаза ETL данных

Используйте открытые данные из таких ресурсов, как Route Views, CAIDA, DBIP
Извлеките информацию об AS
соберите/сравните данные о маршрутах с использованием traceroute
Очистка и нормализация данных.

Фаза аналитики & ML :

Реализуйте алгоритмы для извлечения информации о наиболее распространенных путях передачи трафика

Фаза визуализации :

Создайте интерактивные карты, которые показывают связи между различными AS. Используйте визуальные инструменты для отображения изменений в топологии сети со временем.
Разработайте графы, которые демонстрируют основные и альтернативные маршруты для данных.

Экспресс-анализ бинарных файлов с использованием Radare2

Классификация бинарных файлов вредоносного программного обеспечения для экспресс анализа в ходе расследования инцидентов информационной безопасности

Фаза ETL данных

Создайте набор тестовых бинарных файлов с различными типами содержимого (полезные программы, потенциально зловредные исходники - например, VirusTotal, MalwareBazaar)
Составьте базу данных известных зловредных доменов и IP-адресов, используя различные источники обмена информацией о киберугрозах
Используйте Radare2 для разбора и анализа выбранных бинарных файлов
Очистка и нормализация данных.

Фаза аналитики & ML :

Автоматизируйте поиск строк доменных имен или IP адресов в бинарном коде
Используйте статические анализаторы для выявления популярных видов уязвимостей

Фаза визуализации :

Разработайте дашборды, которые отображают найденные IoC, уязвимости и оценку их опасности.

Суммаризация сообщений с помощью LLM групп Telegram

Анализ тональности сообщений, активности участников группы за определенный период. Представление информации в виде RSS потока

Фаза ETL данных

Используйте Telegram Bot API для получения истории сообщений из определенных групп за заданный период.
Настройте автономное собирание данных регулярно, чтобы постоянно обновлять базу для анализа.
Извлеките важную информацию (например, имя пользователя, время отправки) из каждого сообщения для дальнейшего анализа.
Очистка (HTML, эмодзи…) и нормализация данных.

Фаза аналитики & ML :

Примените модели генеративного обучения (например, Llama, Qwen) для создания кратких сводок из длинных чата.
Используйте модели анализа тональности для определения настроений (положительного, отрицательного или нейтрального) каждого сообщения.
Разработайте сервис для генерации RSS-потоков сводок групп Telegram, основанными на анализе и суммаризации данных.

Фаза визуализации :

Создайте интерактивный интерфейс, позволяющий пользователям просматривать анализируемую информацию: суммаризации сообщений, активности и тональности.
Включите графики для визуализации изменений тональности и активности со временем.