Применение технологий искусственного интеллекта и машинного обучения для поиска угроз информационной безопасности
Автоматизация аналитической деятельности для поиска фактов несанкционированного доступа
ML
AI
R
Threat Hunt
Cyber Threat Intelligence
2-4 часа в неделю, 8 семестр
Что нам нужно
- Знания об используемых методах для решения типовых задач кластеризации, классификакации и регрессии и их применении для решения практических задач.
- Инфраструктура подготовки и предобработки данных, навыки приготовления данных для их последующего использования при построении моделей машинного обучения, а также самостоятельно – в виде отдельного аналитического продукта.
- Умения правильно использовать алгоритмы машинного обучения и контролировать их результаты.
- Навыки использования созданных моделей машинного обучения для решения практических задач поиска угроз информационной безопасности.
Темы
Тема 1. Общее понятие машинного обучения. Типовые подходы. Актуальные проблемы информационной безопасности, решаемые с помощью машинного обучения.
Тема 2. Инфраструктура больших данных: Arrow, Clickhouse. Облачные технологии анализа данных Yandex Managed Service for ClickHouse.
Тема 3. Инфраструктура больших данных: DuckDB. Облачные технологии анализа данных Yandex Object Storage, Yandex Query.
Тема 4. Облачные технологии анализа данных: Yandex Compute Cloud, развертывание Rstudio Workbench для подготовки и анализа данных.
Тема 5. Экосистема машинного обучения Tidymodels. Алгоритмы классического обучения с учителем.
Тема 6. Экосистема машинного обучения Tidymodels. Оценка качества моделей. Метрики классификации и регрессии, подбор гиперпараметров.
Тема 7. Экосистема машинного обучения Tidymodels. Применение нейросетевых алгоритмов.
Тема 8. Автоматизация деятельности по поиску угроз ИБ. Решение практических задач ИБ при помощи машинного обучения. Развертывание моделей машинногоо обучения.
Дополнительные материалы к занятиям
Материалы к практическим занятиям
Yandex Query
- Что это такое
- Ближайший аналог от Amazon – AWS Athena
- Прежде чем проводить анализ данных, их надо где-то накапливать и хранить. Мы будем использовать универсальное масштабируемое облачное объектное хранилище– Yandex Object Storage. Архитектурно, оно схоже с хранилищами Amazon S3, а также Minio.
Ключевое понятие в Object Storage – бакет (bucket) – аналог каталога в файловой системе.
- Сам анализ проводится при помощи диадекта языка SQL – YQL (Yandex Query Language)
Yandex Datalens
Ближайшие аналоги – Microsoft Power BI, Tableau
Локальное развертывание Datalens
Datalens – открытый программный продукт, и, при желании, Вы можете развернуть его локально, у себя на компьютере. Само программное обеспечение можно найти здесь – https://datalens.tech/.
- Неплохие практические примеры можно посмотреть здесь.
Результаты проверки практических заданий
Список используемого ПО и сервисов
- Yandex Cloud
- Docker
- OpenCTI (через docker)
- Интерпретатор R 4.2
- RStudio Desktop
- пакеты R:
- tidyverse
- vroom
- iptools
Data Science
Обработка больших данных
Данные можно считать большими (BigData) когда они не помещаются в оперативную память Вашего компьютера.
В зависимости от характеристик Вашего компьютера, Вы можете достаточно скоро встретиться с ситуацией, когда память (ОЗУ, она же RAM) исчерпана.
Для решения этой проблемы можно рассмотреть следующие направления:
- Использование СУБД, например, Clickhouse от Yandex.
- Использование подхода lazy-loading для данных:
- Аренда виртуальной машины – например Yandex.Cloud. Учитывая продолжительность данного курса, аренда высокопроизводительной машины на время выполнения задания потребует от Вас затрат сравнимых со стоимостью чашки кофе (и не из Starbucks!). При этом, Вы получите хороший опыт и удовольствие от мощной высокопроизводительной техники. Главное – не забывайте выключать виртуальную машину, когда не занимаетесь решением задач.