[1] 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9 5.4 4.8 4.8 4.3 5.8
Base R, Tidymodels
2025
Центральная предельная теорема – Central Limit Theorem
Если много раз выбирать данные из генеральной совокупности, то распределение средних (среднее значение всех средних) нашего множества выборок будет стремиться к среднему генеральной совокупности.
Доверительный интервал
Мы не можем быть на 100 процентов уверены, что знаем параметр iris$Sepal.Length
генеральной совокупности
Для нормального распределения
\[x_{med}\pm{z}\frac{\sigma}{\sqrt{n}}\], где \(x_{med}\) – среднее, \(z\) – стандартизированная оценка, \(\sigma\) – СКО, \(n\) – мощность выборки.
flowchart TD A[Данные] --> B[Тренировочные -- train] A -.-> C[Валидационные -- dev] A --> D[Тестовые -- test]
Для чего?
Контроль результата обучения модели
Возможнве проблемы
Переобучение
явление, при котором алгоритм слишком приспособлен для данных, на которых он обучался. Переобучение имеет место при выборе слишком сложных моделей (model complexity).
Недообучение
явление, обратное переобучению, при котором алгоритм не полностью использует предоставленные ему для обучения данные. Недообучение имеет место при выборе недостаточно сложных моделей.
Если качество на тестовой выборке сильно хуже качества на обучающих данных — у нас переобучение
Общий вид
\[ a(x)=w_0+w_1 \cdot x_1+w_2 \cdot x_2 + \ldots + w_n \cdot x_n \] где \(x_1, \ldots , x_n\) – признаки объекта \(X\)
Сокращенная запись
\[ a(x)=w_0 + \sum_{j=1}^{n} w_j x_j \]
Обучение = минимизация среднеквадратической ошибки (СКО)
\[ Q(a,X) = \frac {1} {l} \sum_{i=1}^{l} (a(x_i) - y_i)^2 = \frac {1} {l} \sum_{i=1}^{l} ((w_i,x_i) - y_i)^2 \to \min {w} \]
https://www.tidymodels.org/packages/#core-tidymodels
https://rsample.tidymodels.org/
Задачи:
https://parsnip.tidymodels.org/
Интерфейс взаимодействия с моделью, а не новая имплементация существующих пакетов.
Задачи:
stacks
и workflowset
https://parsnip.tidymodels.org/reference/index.html – Models
https://recipes.tidymodels.org/
Задачи:
dplyr
)https://workflows.tidymodels.org/
Задачи:
flowchart TD A[Рецепт] --> C[Workflow] B[Модель с параметрами] --> C
KNN – k-nearest neighbors algorithm – Метод k-ближайших соседей
Корреляция
(лат. correlatio – “соотношение”) – корреляционная зависимость – статистическая взаимосвязь двух или более СВ, при этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.
Ошибка выполнения
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411
Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259
Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654
Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000
Rows: 150
Columns: 5
$ Sepal.Length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.…
$ Sepal.Width <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.…
$ Petal.Length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.…
$ Petal.Width <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.…
$ Species <fct> setosa, setosa, setosa, setosa, setosa, setosa, setosa, s…
Petal.Length ~ Sepal.Length * Sepal.Width * Species
Справа – предикторы
lm_mod <- linear_reg()
lm_fit <-
lm_mod %>%
fit(Petal.Length ~ Sepal.Length * Sepal.Width * Species, data = iris)
lm_fit
parsnip model object
Call:
stats::lm(formula = Petal.Length ~ Sepal.Length * Sepal.Width *
Species, data = data)
Coefficients:
(Intercept)
-3.9404
Sepal.Length
1.0955
Sepal.Width
1.3500
Speciesversicolor
-6.2616
Speciesvirginica
4.2902
Sepal.Length:Sepal.Width
-0.2729
Sepal.Length:Speciesversicolor
1.2115
Sepal.Length:Speciesvirginica
-0.3127
Sepal.Width:Speciesversicolor
2.6566
Sepal.Width:Speciesvirginica
-1.2532
Sepal.Length:Sepal.Width:Speciesversicolor
-0.3522
Sepal.Length:Sepal.Width:Speciesvirginica
0.2606
# A tibble: 12 × 5
term estimate std.error statistic p.value
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) -3.94 4.09 -0.962 0.338
2 Sepal.Length 1.10 0.827 1.32 0.188
3 Sepal.Width 1.35 1.19 1.14 0.257
4 Speciesversicolor -6.26 5.41 -1.16 0.249
5 Speciesvirginica 4.29 4.99 0.860 0.391
6 Sepal.Length:Sepal.Width -0.273 0.234 -1.16 0.246
7 Sepal.Length:Speciesversicolor 1.21 1.03 1.18 0.240
8 Sepal.Length:Speciesvirginica -0.313 0.928 -0.337 0.737
9 Sepal.Width:Speciesversicolor 2.66 1.75 1.52 0.131
10 Sepal.Width:Speciesvirginica -1.25 1.54 -0.813 0.418
11 Sepal.Length:Sepal.Width:Speciesversico… -0.352 0.320 -1.10 0.273
12 Sepal.Length:Sepal.Width:Speciesvirgini… 0.261 0.275 0.948 0.345
Доверительный интервал
Спасибо за внимание!