Интересные темы для исследований

исследования
petproject
ВКР
Автор

i2z1@ddslab.ru

Дата

03.05.2025

Обновлена тема с AI-ассистентами и RAG-пайплайном

Интересные проекты и идеи (как варианты тем на ВКР) – добавлена SDR-тема

Чему посвятить драгоценное время

Не секрет, что времени чаще всего не хватает, особенно на разные интересные вещи. Особенно на те, которые еще и полезные.

Вопрос стоит так: как выбрать проект и выстроить свой work-life balance таким образом, чтобы знания, навыки и опыт выстраивались в определенную систему, поддерживая друг друга. И главное – как это все можно монетизировать использовать затем в жизни и работе в единой системе.

Ниже приведены направления-темы, которые могут стать как направлением личного технического развития, так и темой выпускной квалификационной работы выступления на Offzone 😃.

 

Построение интеллектуального AI-ассистента в сфере информационной безопасности

Идея

Построение AI-ассистента на базе RAG системы и открытых LLM моделей – например, Gigachat, YandexGPT – способного консультировать в сфере информационной безопасности (наступательной (redteam) или оборронительной (blueteam)).

Описание

Разработка AI-ассистента на базе cуществующей большой языковой модели предполагает несколько этапов:

  1. Формирования корпуса русcкоязычных текстов (источников знаний) в сфере ИБ по материалам профильных онлайн-изданий, публичных источников в Интернете и т.д.
  2. Подготовка инфраструктуры, развертывание предобученной LLM модели
  3. Подготовка данных, фрагментация данных на чанки, организация их хранения и вычисление эмбеддингов для них.
  4. Определение критериев составления промпта для LLM, добавления релевантных подготовленных данных ы промпт.
  5. Создание обвязки для модели в виде чат-бота (например, Telegram чат-бота) и/или MCP сервера.
Ключевые навыки

MLOps, R, Web-scraping, ML Engineering, разработка Telegram-ботов

Погружение в проблематику:

  1. Как мы внедрили LLM в рабочие процессы аналитиков на R — и сделали это бесплатно
  2. RAG пайплайн на R
  3. https://huggingface.co/ai-sage/GigaChat-20B-A3B-base – главная страница LLM модели от Сбера 1. Демо
  4. Демо на HuggingFace
  5. Ссылки на бесплатные развернутые Google Colab ноутбуки для малой ruGPT-3 и ruGPT-3 XL
  6. Описание и обсуждение на Хабре - https://habr.com/ru/company/sberbank/blog/528966/

Анализ качества процессов разработки open-source проектов

Идея

Рекомендательная система – анализируя данные о процессе разработки даем рекомендации об целесообразности использования проекта

Описание

Поиск возможных бэкдоров, а также оценка вероятности их внедрения разработчиками в open-source проект по таким признакам как:

  1. Качество процесса разработки, включая
    • активность сообщества разработчиков
    • применение практик безопасной разработки (SSDL)
    • оценка программных зависимостей
    • оценка репутации разработчиков
  2. Анализ исходного кода (SAST)
  3. Участие сторонних компаний в разработке и финансировании
Ключевые навыки

Data Engineering, Web Scraping, Machine Learning, Secure Software Development Lifecycle

Погружение в проблематику:

  1. Detecting Backdoors in Collaboration Graphs of Software Repositories
  2. https://codescoring.ru/ – разработчики схожей платформы
  3. https://t.me/codemining

 

Разработка рекомендательной системы приоритизации патч-менеджмента (patch management)

Идея

Рекомендательная система – Анализируя опасность уязвимости и информацию о структуре ландшафта ИТ компании отранжировать системы для приоритизации усилий

Описание

Построение рекомендательной системы выстраивания приоритета патч-менеджмента с учетом:

  1. Анализа опасности уязвимости
  2. Анализа периметра защищаемой инфраструктуры
    • результаты инвентаризаций инфраструктуры
    • результаты сетевого сканирования
    • результаты Shodan/Censys/ZoomEye
  3. Анализа прошедших инцидентов ИБ
    • анализ информации из Threat Intelligence Platform
  4. Анализа взаимодействия компонентов внутри защищаемой инфраструктуры
    • какие сервисы используются
    • какие централизованные средства управления инфраструктурой используются
Ключевые навыки

Data Engineering, Web Scraping, Machine Learning, OSINT

Погружение в проблематику:

  1. https://habr.com/ru/post/671808/ – процесс vulnerability management
  2. https://vulners.com/ – поисковик уязвимостей
  3. https://habr.com/ru/company/icl_services/blog/251575/ – типовые практические проблемы патч менеджмента

 

Разработка системы поддержки принятия решения и управления на мобильных устройствах

Идея

Внешняя панель горячих клавиш и отображения ключевых параметров (как touch bar на Mac)

Описание

Реализация устройства типа StreamDeck на базе смартфона/планшета/Steam Deck для вызова любых сценариев и выполнения наборов команд для часто используемых комплексных сценариев.

Такими сценариями могут являться:

  • запуск сложных сервисов (Ansible, bash scripts)
  • управление сетью – например, изоляция сети в случае инцидента безопасности
  • управление приложениями – стриминг, запуск интеграционных тестов и т.д.
Ключевые навыки

C++/Qt, Mobile Dev, HTML/CSS

Погружение в проблематику:

  1. https://kdeconnect.kde.org/ – как расширяемый (и главное – успешно реализованный!) стандарт взаимодействия ПК и мобильного устройства
  2. https://cyberdeck.cafe/build

Прогнозирование хакерских атак на основе анализа статистики IoC

Идея

Анализ исторических данных об индикаторах компрометации (Indicators of Compromise – IoC) из различных платформ сбора информации об угрозах (Threat Intelligence Platform – TIP) – IP пулы провайдеров, регистраторы доменных имен и т д. – и прогнозирование вероятных источников атак.

Описание

Конкретизация области поиска источников сетевых атак по историческим данным исходя из статистических закономерностей типовых IoC.

В исследовании придется обратить внимание на:

  1. Развертывание платформ TIP – например MISP, OpenCTI.
  2. Взаимодействие с поставщиками информации об угрозах – онлайн-фиды и сервисы.
  3. Сбор исторических данных о найденных в прошлом индикаторах компрометации.
  4. Применение статистических моделей и моделей машинного обучения для выделения наиболее значимых кластеров угроз.
  5. Прогнозирование индикаторов систем, которые могут быть использованы для осуществления компьютерных атак.
Ключевые навыки

R, Python, ML Engineering, OSINT, Разведочный анализ данных (EDA), ML, Администрирование Linux

Погружение в проблематику:

  1. Threat Intelligence Platforms – https://www.anti-malware.ru/practice/methods/threat-intelligence-platform
  2. Коммерческий проект со схожим назначением – https://www.greynoise.io/
  3. https://otx.alienvault.com/ – источники IoC

Комплексный анализ структуры определенного вида деятельности в сфере информационной безопасности

Проекты уже в процессе – присоединяйтесь!

https://github.com/i2z1/TIPoster – программно генерируемый постер по Threat Intelligence

Идея

Сама по себе шпаргалка – это результат анализа информации по теме. Традиционно, рисование любого наглядного пособия или шпаргалки выполняется в каком-либо графическом редакторе или даже в Wordе / Powerpointе.

Однако, если информация быстро устаревает и ее планируется часто обновлять, то имеет смысл рассмотреть варианты программной генерации такой издательской продукции.

Преимущество подхода в том, что один раз настроив внешний вид мы дальше просто меняем содержимое, а готовый плакат/брошюра перегенерируется автоматически. Одним из таких средств может быть Quarto/Rmarkdown.

Примеры таких работ можно найти в RStudio Cheatsheets, а также в проекте Posterdown.

При этом научная новизна может заключаться как в методике сбора и анализа материала по теме, так и в методике программной генерации результата.

Тематикой такой работы может быть:

  • киберразведка – Threat Intelligence
  • поиск следов злоумышленника внутри инфраструктуры – Threat Hunting
  • извлечение информации из СЗИ и автоматизированных систем – Data Engineering
Описание

Например, по тематике Threat Intelligence плакат может включать:

  1. Роль и задачи TI
    • при анализе собственной инфраструктуры и поиску IoC
    • для организации работы Security Operations Center (SOC)
  2. Средства сбора информации об угрозах
    1. Форматы, назначение, структура и средства создания
      • Yara
      • Sigma
    2. Источники
      • песочницы
      • анализ тематических форумов (Darknet)
      • материалы расследований
  3. Средства распространения
    1. Форматы фидов
    2. Источники
      • популярные открытые фиды
      • коммерческие фиды
  4. Средства агрегации, их основные возможности и недостатки
    • открытые TIP
      • MISP
      • OpenCTI
    • проприетарные TIP
  5. Конвертеры информации из TIP в форматы сигнатур СЗИ
  6. Дополнительные популярные источники информации о TI
  7. Основные поставщики решений TI на российском рынке
Ключевые навыки

OSINT, структуризация информации, mindmaps, веб-разработка, верстка

Погружение в проблематику:

  1. Awesome Threat Intelligence – https://github.com/hslatman/awesome-threat-intelligence
  2. Threat Intelligence Platforms – https://www.anti-malware.ru/practice/methods/threat-intelligence-platform
  3. Практические вопросы выбора инструментов Threat Intelligence – https://www.anti-malware.ru/analytics/Technology_Analysis/Threat-Intelligence-tools-selection

Разработка мобильных средств информационного обеспечения с использованием технологий SDR

Идея

Software Defined Radio – SDR – устройство, в котором обработка радиосигналов происходит не в физических контурах схем (фильтров, усилителей и т.д.), а программно. Это стало возможно в результате оцифровки физического сигнала в аналого-цифровых преобразователях (АЦП) с последующей программной обработкой.

Это позволяет без особых знаний схемотехники и навыков пайки разрабатывать различные радиоустройства: от сканирующих приемников и базовых станций GSM и LTE, до радаров и радиотелескопов.

Примерами SDR устройств, на базе которых возможна разработка радиосистем собственного функционала являются:

  1. RTL-SDR
  2. HackRF
  3. BladeRF

Тематикой такой работы может быть:

  • обнаружение беспилотников
  • разработка радаров на базе обычного бытового оборудования
  • разработка протоколов распределенных эпизодических сетей (Mobile Ad-Hoc Networks – MANET) – “роевых” самоорганизующихся сетей, которым не нужна предварительно развернутая фиксированная инфраструктура, как например, GSM базовых станций для работы мобильной связи.
  • изучение безопасности протоколов беспроводной связи
Описание

В ходе работы нужно будет:

  1. Использовать и разрабатывать существующие средства программной обработки сигналов – например, GNURadio.
  2. Анализировать радиочастотный спектр и искать сигналы пришельцев, например, с использованием Gqrx и SDR#.
  3. Проводить технический анализ сигналов и заниматься реверс-инженирингом неизвестных протоколов.
  4. Улавливать своими антеннами самые неуловимые сигналы :)
  5. Разрабатывать свои радио-приложения.
Ключевые навыки

signal reverse-engineering, Python, C++, OSINT, SIGINT

Погружение в проблематику:

  1. RTL-SDR Blog – https://www.rtl-sdr.com/
  2. Telegram канал Inside SDR
  3. Статья на Habr – https://habr.com/ru/articles/398603/
  4. FOSDEM2024 – Радар из WiFi