Threat Hunting

Аналитика на службе киберфронта

ИИ-ассистент для решения задач инфобеза

Построение интеллектуального AI-ассистента в сфере информационной безопасности

Идея

Построение AI-ассистента на базе RAG системы и открытых LLM моделей – например, Gigachat, YandexGPT – способного консультировать в сфере информационной безопасности (наступательной (redteam) или оборронительной (blueteam)).

Описание

Разработка AI-ассистента на базе cуществующей большой языковой модели предполагает несколько этапов:

Формирования корпуса русcкоязычных текстов (источников знаний) в сфере ИБ по материалам профильных онлайн-изданий, публичных источников в Интернете и т.д.
Подготовка инфраструктуры, развертывание предобученной LLM модели
Подготовка данных, фрагментация данных на чанки, организация их хранения и вычисление эмбеддингов для них.
Определение критериев составления промпта для LLM, добавления релевантных подготовленных данных ы промпт.
Создание обвязки для модели в виде чат-бота (например, Telegram чат-бота) и/или MCP сервера.

Ключевые навыки

MLOps, R, Web-scraping, ML Engineering, разработка Telegram-ботов

Погружение в проблематику:

Как мы внедрили LLM в рабочие процессы аналитиков на R — и сделали это бесплатно
RAG пайплайн на R
https://huggingface.co/ai-sage/GigaChat-20B-A3B-base – главная страница LLM модели от Сбера 1. Демо
Демо на HuggingFace
Ссылки на бесплатные развернутые Google Colab ноутбуки для малой ruGPT-3 и ruGPT-3 XL
Описание и обсуждение на Хабре - https://habr.com/ru/company/sberbank/blog/528966/

Прогнозирование хакерских атак на основе анализа статистики IoC

Разработка системы оценки источников сетевого трафика и прогнозирования хакерских атак на основе данных киберразведки

Идея

Анализ исторических данных об индикаторах компрометации (Indicators of Compromise – IoC) из различных платформ сбора информации об угрозах (Threat Intelligence Platform – TIP) – IP пулы провайдеров, регистраторы доменных имен и т д. – и прогнозирование вероятных источников атак.

Описание

Конкретизация области поиска источников сетевых атак по историческим данным исходя из статистических закономерностей типовых IoC.

В исследовании придется обратить внимание на:

Развертывание платформ TIP – например MISP, OpenCTI.
Взаимодействие с поставщиками информации об угрозах – онлайн-фиды и сервисы.
Сбор исторических данных о найденных в прошлом индикаторах компрометации.
Применение статистических моделей и моделей машинного обучения для выделения наиболее значимых кластеров угроз.
Прогнозирование индикаторов систем, которые могут быть использованы для осуществления компьютерных атак.

Ключевые навыки

R, Python, ML Engineering, OSINT, Разведочный анализ данных (EDA), ML, Администрирование Linux

Погружение в проблематику:

Threat Intelligence Platforms – https://www.anti-malware.ru/practice/methods/threat-intelligence-platform
Коммерческий проект со схожим назначением – https://www.greynoise.io/
https://otx.alienvault.com/ – источники IoC