Методы оценивания параметров линейной регрессии

Оценка параметров линейного регрессионного уравнения

Для оценки параметров регрессионного уравнения наиболее часто используют метод наименьших квадратов (МНК), в основе которого лежит предположение о независимости наблюдений исследуемой совокупности. Сущность данного метода заключается в нахождении параметров модели (α, β), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии:

В итоге получаем систему нормальных уравнений:

Эту систему можно записать в виде:

Решая данную систему линейных уравнений с двумя неизвестными получаем оценки наименьших квадратов:

В уравнениях регрессии параметр α показывает усредненное влияние на результативный признак неучтенных факторов, а параметр β – коэффициент регрессии показывает, насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу.

Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выражаемая формулой:

где – коэффициент регрессии в уравнении связи;

– среднее квадратическое отклонение соответствующего статистически существенного факторного признака.

Имеются следующие данные о размере страховой суммы и страховых возмещений на автотранспортные средства одной из страховых компаний.

Зависимость между размером страховых возмещений и страховой суммой на автотранспорт

Объем страхового возмещения (тыс.долл.), Yi

Стоимость застрахованного автомобиля (тыс.долл.), X i

Источник

R — значит регрессия

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в соответствии с которым в качестве уравнения регресии берется функция Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиитакая, что сумма квадратов разностей Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессииминимальна.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии, как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиивокруг регрессии Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессииявляется дисперсия.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Линейная регрессия

Уравнения линейной регрессии можно записать в виде

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

В матричном виде это выгладит

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Случайная величина Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессииможет быть интерпретирована как сумма из двух слагаемых:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

В этой формуле Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии— коэффициент взаимной детерминации между Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиии остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях. Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная — нет надобности исключать ни одну из независимых переменных.

В первой строке мы задаем параметры линейной регрессии. Строка points

. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points

Перейдем теперь к расшифровке полученных результатов.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

Проверим значения параметров линейной регрессии.

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Источник

Оценка результатов линейной регрессии

Введение

Модель линейной регрессии

Итак, у нас есть данные, состоящие из k наблюдений величин Y и Xi и мы хотим оценить коэффициенты. Стандартным методом для нахождения оценок коэффициентов является метод наименьших квадратов. И аналитическое решение, которое можно получить, применив этот метод, выглядит так:
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
где b с крышкой — оценка вектора коэффициентов, y — вектор значений зависимой величины, а X — матрица размера k x n+1 (n — количество предикторов, k — количество наблюдений), у которой первый столбец состоит из единиц, второй — значения первого предиктора, третий — второго и так далее, а строки соответствуют имеющимся наблюдениям.

Функция summary.lm() и оценка получившихся результатов

Теперь рассмотрим пример построения модели линейной регрессии в языке R:

Таблица gala содержит некоторые данные о 30 Галапагосских островах. Мы будем рассматривать модель, где Species — количество разных видов растений на острове линейно зависит от нескольких других переменных.

Рассмотрим вывод функции summary.lm().
Сначала идет строка, которая напоминает, как строилась модель.
Затем идет информация о распределении остатков: минимум, первая квартиль, медиана, третья квартиль, максимум. В этом месте было бы полезно не только посмотреть на некоторые квантили остатков, но и проверить их на нормальность, например тестом Шапиро-Уилка.
Далее — самое интересное — информация о коэффициентах. Здесь потребуется немного теории.
Сначала выпишем следующий результат:
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
при этом сигма в квадрате с крышкой является несмещенной оценкой для реальной сигмы в квадрате. Здесь b — реальный вектор коэффициентов, а эпсилон с крышкой — вектор остатков, если в качестве коэффициентов взять оценки, полученные методом наименьших квадратов. То есть при предположении, что ошибки распределены нормально, вектор коэффициентов тоже будет распределен нормально вокруг реального значения, а его дисперсию можно несмещенно оценить. Это значит, что можно проверять гипотезу на равенство коэффициентов нулю, а следовательно проверять значимость предикторов, то есть действительно ли величина Xi сильно влияет на качество построенной модели.
Для проверки этой гипотезы нам понадобится следующая статистика, имеющая распределение Стьюдента в том случае, если реальное значение коэффициента bi равно 0:
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
где
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии— стандартная ошибка оценки коэффициента, а t(k-n-1) — распределение Стьюдента с k-n-1 степенями свободы.

Теперь все готово для продолжения разбора вывода функции summary.lm().
Итак, далее идут оценки коэффициентов, полученные методом наименьших квадратов, их стандартные ошибки, значения t-статистики и p-значения для нее. Обычно p-значение сравнивается с каким-нибудь достаточно малым заранее выбранным порогом, например 0.05 или 0.01. И если значение p-статистики оказывается меньше порога, то гипотеза отвергается, если же больше, ничего конкретного, к сожалению, сказать нельзя. Напомню, что в данном случае, так как распределение Стьюдента симметричное относительно 0, то p-значение будет равно 1-F(|t|)+F(-|t|), где F — функция распределения Стьюдента с k-n-1 степенями свободы. Также, R любезно обозначает звездочками значимые коэффициенты, для которых p-значение достаточно мало. То есть, те коэффициенты, которые с очень малой вероятностью равны 0. В строке Signif. codes как раз содержится расшифровка звездочек: если их три, то p-значение от 0 до 0.001, если две, то оно от 0.001 до 0.01 и так далее. Если никаких значков нет, то р-значение больше 0.1.

В нашем примере можно с большой уверенностью сказать, что предикторы Elevation и Adjacent действительно с большой вероятностью влияют на величину Species, а вот про остальные предикторы ничего определенного сказать нельзя. Обычно, в таких случаях предикторы убирают по одному и смотрят, насколько изменяются другие показатели модели, например BIC или Adjusted R-squared, который будет разобран далее.

Значение Residual standart error соответствует просто оценке сигмы с крышкой, а степени свободы вычисляются как k-n-1.

А теперь самая важные статистики, на которые в первую очередь стоит смотреть: R-squared и Adjusted R-squared:
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
где Yi — реальные значения Y в каждом наблюдении, Yi с крышкой — значения, предсказанные моделью, Y с чертой — среднее по всем реальным значениям Yi.
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Начнем со статистики R-квадрат или, как ее иногда называют, коэффициента детерминации. Она показывает, насколько условная дисперсия модели отличается от дисперсии реальных значений Y. Если этот коэффициент близок к 1, то условная дисперсия модели достаточно мала и весьма вероятно, что модель неплохо описывает данные. Если же коэффициент R-квадрат сильно меньше, например, меньше 0.5, то, с большой долей уверенности модель не отражает реальное положение вещей.

Однако, у статистики R-квадрат есть один серьезный недостаток: при увеличении числа предикторов эта статистика может только возрастать. Поэтому, может показаться, что модель с большим количеством предикторов лучше, чем модель с меньшим, даже если все новые предикторы никак не влияют на зависимую переменную. Тут можно вспомнить про принцип бритвы Оккама. Следуя ему, по возможности, стоит избавляться от лишних предикторов в модели, поскольку она становится более простой и понятной. Для этих целей была придумана статистика скорректированный R-квадрат. Она представляет собой обычный R-квадрат, но со штрафом за большое количество предикторов. Основная идея: если новые независимые переменные дают большой вклад в качество модели, значение этой статистики растет, если нет — то наоборот уменьшается.

Для примера рассмотрим ту же модель, что и раньше, но теперь вместо пяти предикторов оставим два:

Как можно увидеть, значение статистики R-квадрат снизилось, однако значение скорректированного R-квадрат даже немного возросло.

Теперь проверим гипотезу о равенстве нулю всех коэффициентов при предикторах. То есть, гипотезу о том, зависит ли вообще величина Y от величин Xi линейно. Для этого можно использовать следующую статистику, которая, если гипотеза о равенстве нулю всех коэффициентов верна, имеет распределение Фишера c n и k-n-1 степенями свободы:
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Значение F-статистики и p-значение для нее находятся в последней строке вывода функции summary.lm().

Заключение

В этой статье были описаны стандартные методы оценки значимости коэффициентов и некоторые критерии оценки качества построенной линейной модели. К сожалению, я не касался вопроса рассмотрения распределения остатков и проверки его на нормальность, поскольку это увеличило бы статью еще вдвое, хотя это и достаточно важный элемент проверки адекватности модели.
Очень надеюсь что мне удалось немного расширить стандартное представление о линейной регрессии, как об алгоритме который просто оценивает некоторый вид зависимости, и показать, как можно оценить его результаты.

Источник

Базовые принципы машинного обучения на примере линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессииЗдравствуйте, коллеги! Это блог открытой русскоговорящей дата саентологической ложи. Нас уже легион, точнее 2500+ человек в слаке. За полтора года мы нагенерили 800к+ сообщений (ради этого слак выделил нам корпоративный аккаунт). Наши люди есть везде и, может, даже в вашей организации. Если вы интересуетесь машинным обучением, но по каким-то причинам не знаете про Open Data Science, то возможно вы в курсе мероприятий, которые организовывает сообщество. Самым масштабным из них является DataFest, который проходил недавно в офисе Mail.Ru Group, за два дня его посетило 1700 человек. Мы растем, наши ложи открываются в городах России, а также в Нью-Йорке, Дубае и даже во Львове, да, мы не воюем, а иногда даже и употребляем горячительные напитки вместе. И да, мы некоммерческая организация, наша цель — просвещение. Мы делаем все ради искусства. (пс: на фотографии вы можете наблюдать заседание ложи в одном из тайных храмов в Москве).

Мне выпала честь сделать первый пост, и я, пожалуй, отклонюсь от своей привычной нейросетевой тематики и сделаю пост о базовых понятиях машинного обучения на примере одной из самых простых и самых полезных моделей — линейной регрессии. Я буду использовать язык питон для демонстрации экспериментов и отрисовки графиков, все это вы с легкостью сможете повторить на своем компьютере. Поехали.

Формализмы

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Машинное обучение — это подраздел искусственного интеллекта, в котором изучаются алгоритмы, способные обучаться без прямого программирования того, что нужно изучать. Линейная регрессия является типичным представителем алгоритмов машинного обучения. Для начала ответим на вопрос «а что вообще значит обучаться?». Ответ на этот вопрос мы возьмем из книги 1997 года (стоит отметить, что оглавление этой книги не сильно отличается от современных книг по машинному обучению).

Говорят, что программа обучается на опыте Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессииотносительно класса задач Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиив смысле меры качества Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии, если при решении задачи Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиикачество, измеряемое мерой Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии, возрастает при демонстрации нового опыта Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии.

Можно выделить следующие задачи Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии, решаемые машинным обучением: обучение с учителем, обучение без учителя, обучение с подкреплением, активное обучение, трансфер знаний и т.д. Регрессия (как и классификация) относится к классу задач обучения с учителем, когда по заданному набору признаков наблюдаемого объекта необходимо спрогнозировать некоторую целевую переменную. Как правило, в задачах обучения с учителем, опыт Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиипредставляется в виде множества пар признаков и целевых переменных: Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии. В случае линейной регрессии признаковое описание объекта — это действительный вектор Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии, а целевая переменная — это скаляр Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии. Самой простой мерой качества Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиидля задачи регрессии является Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии, где Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии— это наша оценка реального значения целевой переменной.

У нас есть задача, данные и способ оценки программы/модели. Давайте определим, что такое модель, и что значит обучить модель. Предиктивная модель – это параметрическое семейство функций (семейство гипотез):

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Получается, что алгоритм обучения — это отображение из набора данных в пространство гипотез. Обычно процесс обучения с учителем состоит из двух шагов:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Но, к сожалению, такой интеграл не посчитать, т.к. распределение Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиинеизвестно, иначе и задачи не было бы. Но мы можем посчитать эмпирическую оценку риска, как среднее значение функции стоимости:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Тогда, согласно принципу минимизации эмпирического риска, мы должны выбрать такую гипотезу Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии, которая минимизирует Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

У данного принципа есть существенный недостаток, решения найденные таким путем будут склонны к переобучению. Мы говорим, что модель обладает обобщающей способностью, тогда, когда ошибка на новом (тестовом) наборе данных (взятом из того же распределения Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии) мала, или же предсказуема. Переобученная модель не обладает обобщающей способностью, т.е. на обучающем наборе данных ошибка мала, а на тестовом наборе данных ошибка существенно больше.

Линейная регрессия

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Эмпирический риск (функция стоимости) принимает форму среднеквадратичной ошибки:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

строки матрицы Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии— это признаковые описания наблюдаемых объектов. Один из алгоритмов обучения Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиитакой модели — это метод наименьших квадратов. Вычислим производную функции стоимости:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

приравняем к нулю и найдем решение в явном виде:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Поздравляю, дамы и господа, мы только что с вами вывели алгоритм машинного обучения. Реализуем же этот алгоритм. Начнем с датасета, состоящего всего из одного признака. Будем брать случайную точку на синусе и добавлять к ней шум — таким образом получим целевую переменную; признаком в этом случае будет координата Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

А теперь реализуем алгоритм обучения, используя магию NumPy:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Как мы видим, линия не очень-то совпадает с настоящей кривой. Среднеквадратичная ошибка равна 0.26704 условных единиц. Очевидно, что если бы вместо линии мы использовали кривую третьего порядка, то результат был бы куда лучше. И, на самом деле, с помощью линейной регрессии мы можем обучать нелинейные модели.

Полиномиальная регрессия

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Если заранее предрассчитать все степени признаков, то задача опять сводится к описанному выше алгоритму — методу наименьших квадратов. Попробуем отрисовать графики нескольких полиномов разных степеней.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

На графике мы можем наблюдать сразу два феномена. Пока не обращайте внимание на 13-ую степень полинома. При увеличении степени полинома, средняя ошибка продолжает уменьшаться, хотя мы вроде были уверены, что именно кубический полином должен лучше всего описывать наши данные.

perror
10.26704
20.22495
30.08217
50.05862
70.05749
100.0532
135.76155

Это явный признак переобучения, который можно заметить по визуализации даже не используя тестовый набор данных: при увеличении степени полинома выше третьей модель начинает интерполировать данные, вместо экстраполяции. Другими словами, график функции проходит точно через точки из тренировочного набора данных, причем чем выше степень полинома, тем через большее количество точек он проходит. Степень полинома отражает сложность модели. Таким образом, сложные модели, у которых степеней свободы достаточно много, могут попросту запомнить весь тренировочный набор, полностью теряя обобщающую способность. Это и есть проявление негативной стороны принципа минимизации эмпирического риска.

Вернемся к полиному 13-ой степени, с ним явно что-то не так. По идее, мы ожидаем, что полином 13-ой степени будет описывать тренировочный набор данных еще лучше, но результат показывает, что это не так. Из курса линейной алгебры мы помним, что обратная матрица существует только для несингулярных матриц, т.е. тех, у которых нет линейной зависимости колонок или строк. В методе наименьших квадратов нам необходимо инвертировать следующую матрицу: Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии. Для тестирования на линейную зависимость или мультиколлинеарность можно использовать число обусловленности матрицы. Один из способов оценки этого числа для матриц — это отношение модуля максимального собственного числа матрицы к модулю минимального собственного числа. Большое число обусловленности матрицы, или же наличие одного или нескольких собственных чисел близких к нулю свидетельствует о наличии мультиколлинеарности (или нечеткой мультиколлиниарности, когда Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии). Такие матрицы называются слабо обусловленными, а задача — некорректно поставленной. При инвертировании такой матрицы, решения имеют большую дисперсию. Это проявляется в том, что при небольшом изменении начальной матрицы, инвертированные будут сильно отличаться друг от друга. На практике это всплывет тогда, когда к 1000 семплов, вы добавите всего один, а решение МНК будет совсем другим. Посмотрим на собственные числа полученной матрицы, нас там ждет сюрприз:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Все так, numpy вернул два комплекснозначных собственных значения, что идет вразрез с теорией. Для симметричных и положительно определенных матриц (каковой и является матрица Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии) все собственные значения должны быть действительные. Возможно, это произошло из-за того, что при работе с большими числами матрица стала слегка несимметричной, но это не точно ¯\_(ツ)_/¯. Если вы вдруг найдете причину такого поведения нумпая, пожалуйста, напишите в комменте.

UPDATE (один из членов ложи по имени Андрей Оськин, с ником в слаке skoffer, без аккаунта на хабре, подсказывает):

Есть только одно замечание — не надо пользоваться формулой `(X^T X^<-1>) X^T` для вычисления коэффициентов линейной регрессии. Проблема с расходящимися значениями хорошо известна и на практике используют `QR` или `SVD`.

Ну, то есть вот такой кусок кода даст вполне приличный результат:

Перед тем как перейти к следующему разделу, давайте посмотрим на амплитуду параметров полиномиальной регрессии. Мы увидим, что при увеличении степени полинома, размах значений коэффициентов растет чуть ли не экспоненциально. Да, они еще и скачут в разные стороны.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессииРегуляризация

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Новая функция стоимости примет вид:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Вычислим производную по параметрам:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

И найдем решение в явном виде:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Для такой матрицы число обусловленности будет равно: Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии, где Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии— это собственные числа матрицы. Таким образом, увеличивая параметр регуляризации мы уменьшаем число обусловленности, а обусловленность задачи улучшается.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

perror
10.26748
20.22546
30.08803
100.05833
120.05585
130.05638

В результате даже 13-ая степень ведет себя так, как мы ожидаем. Графики немного сгладились, хотя мы все равно наблюдаем небольшое переобучение на степенях выше третьей, что выражается в интерполяции данных в правой части графика.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Амплитуда коэффициентов также изменилась, хотя скакать в разные стороны они не перестали. Мы помним, что полином третьей степени должен лучше всего описывать наши данные, хотелось бы, чтобы в результате регуляризации все коэффициенты при полиномиальных признаках степени выше третьей были равны нулю. И, оказывается, есть и такой регуляризатор.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиирегуляризация

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Тогда задача примет вид:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Посчитаем производную по параметрам модели (надеюсь уважаемые господа не будут пинать меня, за то, что я вжух и взял производную по модулю):

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

К сожалению, такая задача не имеет решения в явном виде. Для поиска хорошего приближенного решения мы воспользуемся методом градиентного спуска, тогда формула обновления весов примет вид:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

а в задаче появляется еще один гиперпараметр Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии, отвечающий за скорость спуска, его в машинном обучении называют скоростью обучения (learning rate).
Запрограммировать такой алгоритм не составит труда, но нас ждет еще один сюрприз:

Получим такую вот эволюцию ошибки:

Даже при такой небольшой скорости обучения, ошибка все равно растет и очень даже стремительно. Причина в том, что каждый признак измеряется в разных масштабах, от небольших чисел у полиномиальных признаков 1-2 степени, до огромных при 12-13 степени. Для того чтобы итеративный процесс сошелся, необходимо либо выбрать экстремально мелкую скорость обучения, либо каким-то образом нормализовать признаки. Применим следующее преобразование к признакам и попробуем запустить процесс еще раз:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Такое преобразование называется стандартизацией, распределение каждого признака теперь имеет нулевое матожидание и единичную дисперсию.

Все стало сильно лучше.
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Нарисуем теперь все графики:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

perror
10.27204
20.23794
30.24118
100.18083
120.16069
130.15425

Если посмотреть на коэффициенты, мы увидим, что большая часть из них близка к нулю (то, что у 13-ой степени коэффициент совсем не нулевой, можно списать на шум и малое количество примеров в обучающей выборке; так же стоит помнить, что теперь все признаки измеряются в одинаковых шкалах).

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии
Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Описанный способ построения регрессии называется LASSO регрессия. Очень хотелось бы думать, что дядька на коне бросает веревку и ворует коэффициенты, а на их месте остается нуль. Но нет, LASSO = least absolute shrinkage and selection operator.

Байесовская интерпретация линейной регрессии

Две вышеописанные регуляризации, да и сама лининейная регрессия с квадратичной функцией ошибки, могут показаться какими-то грязными эмпирическими трюками. Но, оказывается, если взглянуть на эту модель с другой точки зрения, с точки зрения байесовой статистики, то все становится по местам. Грязные эмпирические трюки станут априорными предположениями. В основе байесовой статистики находится формула Байеса:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

В то время как в байесовом подходе интересуются апостериорным распределением:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Часто получается так, что интеграл, полученный в результате байесового вывода, крайне нетривиален (в случае линейной регрессии это, к счастью, не так), и тогда нужна точечная оценка. Тогда мы интересуемся максимумом апостериорного распределения (MAP = maximum a posteriori):

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Давайте сравним ML и MAP гипотезы для линейной регрессии, это даст нам четкое понимание смысла регуляризаций. Будем считать, что все объекты из обучающей выборки были взяты из общей популяции независимо и равномерно распределенно. Это позволит нам записать совместную вероятность данных (правдоподобие) в виде:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

А также будем считать, что целевая переменная подчиняется следующему закону:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Т.е. верное значение целевой переменной складывается из значения детерминированной линейной функции и некоторой непрогнозируемой случайной ошибки, с нулевым матожиданием и некоторой дисперсией. Тогда, мы можем записать правдоподобие данных как:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

удобнее будет прологарифмировать это выражение:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

И внезапно мы увидим, что оценка, полученная методом максимального правдоподобия, – это то же самое, что и оценка, полученная методом наименьших квадратов. Сгенерируем новый набор данных большего размера, найдем ML решение и визуализируем его.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

По оси абсцисс и ординат отложены различные значения всех двух параметров модели (решаем именно линейную регрессию, а не полиномиальную), цвет фона пропорционален значению правдоподобия в соответствующей точке значений параметров. ML решение находится на самом пике, где правдоподобие максимально.

Найдем MAP оценку параметров линейной регрессии, для этого придется задать какое-нибудь априорное распределение на параметры модели. Пусть для начала это будет опять нормальное распределение: Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Если расписать логарифм этого выражения, то вы легко увидите, что добавление нормального априорного распределения — это то же самое, что и добавление Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиинормы к функции стоимости. Попробуйте сделать это сами. Также станет ясно, что варьируя регуляризационный параметр, мы изменяем дисперсию априорного распределения: Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Теперь на график добавились круги, исходящие от центра — это плотность априорного распределения (круги, а не эллипсы из-за того, что матрица ковариации данного нормального распределения диагональна, а на диагонали находится одно и то же число). Точками обозначены различные решения MAP задачи. При увеличении параметра регуляризации (что эквивалентно уменьшению дисперсии), мы заставляем решение отдаляться от ML оценки и приближаться к центру априорного распределения. При большом значении параметра регуляризации, все параметры будут близки к нулю.

Естественно мы можем наложить и другое априорное распределение на параметры модели, например распределение Лапласа, тогда получим то же самое, что и при Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиирегуляризации.

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Тогда апостериорное распределение примет вид:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Глобальная динамика не изменилась: увеличиваем параметр регуляризации — решение приближается к центру априорного распределения. Также мы можем наблюдать, что такая регуляризация способствует нахождению разреженных решений: вы можете видеть два участка, на которых сначала один параметр равен нулю, затем второй параметр (в конце оба равны нулю).

И на самом деле два описанных регуляризатора — это частные случаи наложения обобщенного нормального распределения в качестве априорного распределения на параметры линейной регрессии:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Или же мы можем смотреть на эти регуляризаторы с точки зрения ограничения Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессиинормы, как в предыдущей части:

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Методы оценивания параметров линейной регрессии. Смотреть фото Методы оценивания параметров линейной регрессии. Смотреть картинку Методы оценивания параметров линейной регрессии. Картинка про Методы оценивания параметров линейной регрессии. Фото Методы оценивания параметров линейной регрессии

Заключение

Здесь вы найдете jupyter notebook со всем вышеописанным и несколькими бонусами. Отдельное спасибо тем, кто осилил этот текст до конца.

Желающим копнуть эту тему глубже, рекомендую:

Источник

Leave a Reply

Your email address will not be published. Required fields are marked *