Несмещенность оценок параметров регрессии означает что
3.3. Статистические свойства оценок параметров линейной модели множественной регрессии. Теорема Гаусса-Маркова
Математическое ожидание вектора оценок. Несмещенность оценки
Подставим в формулу ( 3.15 ) для оценки вместо вектора y его выражение (подчеркнем, что здесь мы рассматриваем y и u как случайные величины (векторные), а не конкретные их реализации). Получим
Таким образом, в классической многомерной линейной модели регрессии оценки коэффициентов, полученные по методу наименьших квадратов, являются несмещенными, то есть .
Истинная ковариационная матрица вектора оценок. Эффективность оценки
Получим выражение для истинной ковариационной матрицы вектора оценок. Ковариационная матрица вектора b по определению равна
Из выражения ( 3.21 ) получаем
Подставляя выражение ( 3.24 ) в ( 3.23 ), будем иметь
или, окончательно имеем
Замечание. Вывод формул для дисперсий коэффициентов парной линейной регрессии.
Из общей формулы ( 3.27 ) можно легко получить формулы ( 2.22 ), ( 2.23 ) для дисперсий коэффициентов парной линейной регрессии, которые ранее были даны без вывода в главе 2 (см. п. 2.3.3. ). Действительно, в случае парной регрессии матрица наблюдений регрессоров X имеет вид
и обратная к ней матрица
Ранее (см. п. 2.2.2. ) мы показали, что имеет место равенство
Умножим обе его части на n, получим
Учитывая это равенство, выпишем уравнения для диагональных элементов ковариационной матрицы в случае парной регрессии, которые и будут дисперсиями соответствующих коэффициентов
Нетрудно убедиться, что полученные формулы совпадают с формулами ( 2.22 ), ( 2.23 ).
Покажем, что оценка наименьших квадратов является эффективной, то есть наилучшей в смысле минимума дисперсий компонент вектора оценок b.
Таким образом, мы получили, что
Далее, поскольку матрица (неотрицательно определенная), то имеет место неравенство
откуда следуют аналогичные неравенства и для диагональных элементов ковариационных матриц, которые являются дисперсиями соответствующих коэффициентов модели
Это и доказывает эффективность МНК-оценок.
Полученные результаты можно сформулировать в виде теоремы.
Теорема Гаусса-Маркова Оценка вида ( 3.15 ) параметров классической многомерной линейной регрессии по методу наименьших квадратов является наилучшей (эффективной) линейной несмещенной оценкой (Best Linear Unbiased Estimator, BLUE).
Несмещенность оценок параметров регрессии означает что
2.3. Статистические свойства оценок метода наименьших квадратов
Поскольку полученные оценки a и b коэффициентов линейной регрессии основаны на статистических данных и являются случайными величинами, то естественно установить свойства этих оценок, как случайных величин. Более того, не выяснив этих свойств, невозможно сделать обоснованных выводов относительно качества и надежности полученных оценок. Необходимо, в частности, определить такие их статистические характеристики, как математическое ожидание и дисперсия. К желательным свойствам оценок относятся также несмещенность и состоятельность. Далее, если бы удалось определить вид распределения (плотности распределения) оценок, можно было бы построить доверительные интервалы для истинных значений параметров регрессии (то есть получить интервальные оценки коэффициентов) и реализовать процедуры проверки гипотез относительно их значений. Важную роль играет также изучение статистических свойств остатков оцененной регрессии.
Все эти задачи можно решить, основываясь на некоторых правдоподобных теоретических предпосылках (гипотезах) модели, выполнение которых на практике подлежит проверке с помощью специально разработанных для этого статистических процедур.
Предположение относительно независимых переменных
Предположения относительно случайной составляющей модели
При выполнении предпосылки относительно переменной x статистические свойства оценок параметров и зависимой переменной, а также остатков, целиком определяются вероятностными свойствами случайной составляющей регрессионной модели. Относительно случайной составляющей в классическом регрессионном анализе предполагают выполнение следующих условий, которые называются условиями Гаусса-Маркова и играют ключевую роль при изучении свойств оценок, полученных по методу наименьших квадратов.
1. Первое условие заключается в том, что математическое ожидание случайной составляющей во всех наблюдениях должно быть равно нулю. Формально это записывается так
, для всех t =1,2,…,n.
Смысл этого условия заключается в том, что не должно быть систематического смещения случайной составляющей. В линейной регрессии систематическое смещение линии регрессии учитывается с помощью введения параметра смещения и поэтому данное условие можно считать всегда выполненным.
2. Дисперсия случайной составляющей постоянна для всех наблюдений (то есть не зависит от номера наблюдения). Это условие записывается так
, где дисперсия – величина постоянная.
Это свойство дисперсии ошибок называется гомоскедастичностью (однородностью) (запомните этот термин).
Графическая иллюстрация понятий гомоскедастичность и гетероскедастичность
Рис. 2.6а. Гомоскедастичность
Рис. 2.6б. Гетероскедастичность
Рис. 2.6в. Гетероскедастичность
3. Случайные составляющие модели для различных наблюдений некоррелированы. Это условие записывается таким образом
, для всех i не равных j (i, j=1,2,…,n).
Выполнение этого условия означает отсутствие систематической (статистической) связи между значениями случайного члена в любых двух наблюдениях. Это свойство на практике также проверяется с помощью статистических процедур на основе анализа остатков модели. Если оно нарушается, то процедура оценки параметров должна быть скорректирована.
4. Четвертое условие Гаусса-Маркова записывается так
, для всех i и j,
и означает, что объясняющие переменные и случайные составляющие некоррелированы для всех наблюдений. Ранее мы предположили, что объясняющая переменная в модели не является стохастической. В этом случае четвертое условие выполняется автоматически.
Дополнительное предположение о нормальном распределении ошибок
Данное предположение является, пожалуй, наиболее спорным. Дело в том, что предположение о нормальности можно считать правдоподобным, если значения случайной величины порождаются в результате воздействия большого количества независимых случайных факторов, каждый из которых не обязательно имеет нормальное распределение. Примером такого воздействия является так называемое броуновское движение (хаотичное движение малых частиц в жидкости как результат совокупного воздействия на частицу (ударов, соударения) большого количества молекул жидкости).
Если случайные величины в модели распределены по нормальному закону, то из свойств некоррелированности в третьем и четвертом условиях Гаусса-Маркова следует и независимость соответствующих случайных величин.
2.3.2. Свойства выборочных вариаций и ковариаций. Остаточные ошибки (остатки) модели, их свойства
Свойства выборочных вариаций (дисперсий) и ковариаций
Для дальнейшего изложения нам понадобиться установить ряд правил, которые можно использовать при преобразовании выражений, содержащих выборочные вариации и ковариации.
Несмещенность оценок параметров регрессии означает что
Несмещенная оценка 6 параметра 9 называется эффективной, если она имеет наименьшую дисперсию среди всех возможных несмещенных оценок параметра 9, вычисленных по выборкам одного и того же объема п. [c.43]
В силу того, что оценки bj, полученные методом наименьших квадратов, являются несмещенными оценками параметров Р7, [c.92]
Отметим, что при соблюдении прочих предпосылок МНК автокорреляция остатков не влияет на свойства состоятельности и несмещенности оценок параметров уравнения регрессии обычным МНК, за исключением моделей авторегрессии. Применение МНК к моделям авторегрессии ведет к получению смещенных, несостоятельных и неэффективных оценок. [c.280]
Однако, как было показано выше, оценка параметра с,, равная 0,440, является смещенной. Для получения несмещенных оценок параметров этого уравнения воспользуемся методом инструментальных переменных. Определим параметры уравнения регрессии (7.43) обычным МНК [c.327]
Несмещенность оценок параметров регрессии. Оценка параметров регрессии называется несмещенной, если для любого фиксированного числа наблюдений выполняется равенство математического ожидания параметра и значения параметра регрессии. Надо отметить, что оценки, полученные методом наименьших квадратов, обладают свойством несмещенности. [c.149]
Эффективность оценок параметров регрессии. Несмещенная оценка параметра регрессии называется несмещенной эффективной, если она среди всех прочих несмещенных оценок этого же параметра обладает наименьшей дисперсией. [c.149]
Для получения состоятельных и асимптотически несмещенных оценок параметров (3 можно вновь, кале и в предыдущем разделе, воспользоваться методом максимального правдоподобия. Поскольку в данном случае наблюдения (12.30) имеют смешанное распределение, то функция правдоподобия имеет следующий вид [c.341]
Покажите, что невозможно построить другую линейную несмещенную оценку параметра а, обладающую меньшей дисперсией. [c.52]
Средние квадраты s и s2 (табл. 3.3) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессий или объясняющей переменной X и воздействием неучтенных случайных факторов и ошибок т — число оцениваемых параметров уравнения регрессии п — число наблюдений. [c.72]
Выше ( 4.2) мы уже показали, что оценка метода наименьших квадратов b = (X X) l X Y есть несмещенная оценка для вектора параметров р, т. е. М(Ь) = р. Любую другую оценку Ь вектора р без ограничения общности можно представить в виде [c.94]
Равенство (4.20) означает, что несмещенная оценка s2 параметра ст2 или выборочная остаточная дисперсия s2 определяется по формуле [c.97]
Оценки, определяемые вектором (4.8), обладают в соответствии с теоремой Гаусса—Маркова минимальными дисперсиями в классе всех линейных несмещенных оценок, но при наличии мультиколлинеарности эти дисперсии могут оказаться слишком большими, и обращение к соответствующим смещенным оценкам может повысить точность оценивания параметров регрессии. На рис. 5.1 показан случай, когда смещенная оценка Ру, [c.110]
Как было отмечено в 7.1, b — несмещенная и состоятельная оценка параметра р для обобщенной линейной модели множественной регрессии следовательно, и в частном случае, когда мо- [c.156]
Это означает, что отсутствует систематическая ошибка в определении линии регрессии, следовательно оценки параметров регрессии являются несмещенными, то есть математическое ожидание оценки каждого параметра равно его истинному значению. [c.107]
Статистические проверки параметров регрессии, показателей корреляции основаны на непроверяемых предпосылках распределения случайной составляющей б,. Они носят лишь предварительный характер. После построения уравнения регрессии проводится проверка наличия у оценок б, (случайных остатков) тех свойств, которые предполагались. Связано это с тем, что оценки параметров регрессии должны отвечать определенным критериям. Они должны быть несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют чрезвычайно важное практическое значение в использовании результатов регрессии и корреляции. [c.155]
Коэффициенты регрессии, найденные исходя из системы нормальных уравнений, представляют собой выборочные оценки характеристики силы связи. Их несмещенность является желательным свойством, так как только в этом случае они могут иметь практическую значимость. Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Следовательно, при большом числе выборочных оцениваний остатки не будут накапливаться и найденный параметр регрессии bt можно рассматривать как среднее значение из возможного большого количества несмещенных оценок. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным исследованиям. [c.156]
Назовем наилучшей аффинной несмещенной оценкой оцениваемой функции параметров W/3 аффинную несмещенную оценку W(3 для W/3, такую, что [c.321]
Будет показано, что в случае, когда пространство параметров В совпадает с R, наилучшая аффинная несмещенная оценка оказывается линейной [c.321]
Вспомним, что в 2, при рассмотрении линейной регрессионной модели (у, Х/3, сг2 V), говорилось, что функцию параметров W/3 можно оценить, если существует по крайней мере одна аффинная несмещенная оценка для W/3. [c.332]
Метод, используемый чаще других для нахождения параметров уравнения регрессии и известный как метод наименьших квадратов, дает наилучшие линейные несмещенные оценки. Он называется так потому, что при расчете параметров прямой линии, которая наиболее соответствует фактическим данным, с помощью этого метода стараются найти линию, минимизирующую сумму квадратов значений ошибок или расхождений между величинами Y, которые рассчитаны по уравнению прямой и обозначаются Y, и фактическими наблюдениями. Это показано на рис. 6.2. [c.265]
Значение, которое было предположительно установлено в результате точечной оценки параметра генеральной совокупности, называют возможным значением, а возможное значение, которое в числе других возможных значений является наиболее несмещенным, называют несмещенной оценкой. [c.135]
Достаточность оценки. Если р представляет собой достаточную оценку параметра Ъ, то не существует другой оценки этого параметра, которую можно получить по выборке из некоторой генеральной совокупности и которая дала бы дополнительную информацию о нем. Р. Фишер показал, что количество измеримой информации, содержащейся в некоторой оценке, равно обратной величине от ее дисперсии. Таким образом, понятие достаточности эквивалентно требованию минимальной дисперсии. Достаточная оценка с необходимостью должна быть эффективной и, следовательно, также состоятельной и несмещенной. [c.149]
В качестве метода оценивания нами был выбран метод SURE, который, согласно исследованиям (см., например, Deaton (1998)), должен, при описанных выше предположениях, привести к несмещенным оценкам параметров функции спроса. Рассматривались оценки системы уравнений Тейла как по всей совокупности потребителей, так и по группам потребителей с разными доходами (см. ниже). [c.122]
Хотя оценки (12.10) и (12.11) сформированы из несмещенных оценок параметров приведенной формы, сами они не будут несмещенными оценками параметров аир структурной формы1. Однако эти оценки будут состоятельными. Так, легко показать с помощью (12.4) и (12.5), что оценка р, определенная в (12.10), даст нам [c.345]
Напомним, что в математической статистике для получения несмещенной оценки дисперсии случайной величины соответствующую сумму квадратов отклонений от средней делят не на число наблюдений я, а на число степеней свободы (degress of freedom) я — т, равное разности между числом независимых наблюдений случайной величины п и числом связей, ограничивающих свободу их изменения, т. е. число т уравнений, связывающих эти наблюдения. Поэтому в знаменателе выражения (3.26) стоит число степеней свободы п — 2, так как две степени свободы теряются при определении двух параметров прямой из системы нормальных уравнений (3.5). [c.62]
Другой метод устранения или уменьшения мультиколлинеар-ности заключается в переходе от несмещенных оценок, определенных по методу наименьших квадратов, к смещенным оценкам, обладающим, однако, меньшим рассеянием относительно оцениваемого параметра, т. е. меньшим математическим ожиданием квадрата отклонения оценки fy от параметра ру или М (bj— p/)2. [c.110]
Если удастся построить АКМ4-модель для ряда остатков, то можно получить эффективные оценки параметра р, а также несмещенные и состоятельные оценки дисперсий р с помощью обобщенного метода наименьших квадратов. Мы рассмотрим эту процедуру на простейшей (и в то же время наиболее часто встречающейся) авторегрессионной модели первого порядка. [c.181]
В линейном анализе временных рядов можно получить несмещенную оценку способности к обобщению, исследуя результаты работы на обучающем множестве (MSE), число свободных параметров (W) и объем обучающего множества (N). Оценки такого типа называются информационными критериями (1 ) и включают в себя компоненту, соответствующую критерию согласия, и компоненту штрафа, которая учитывает сложность модели. Барроном [30] были предложены следующие информационные критерии нормализованный 1 Акаике (NAI ), нормализованный байесовский 1 (NBI ) и итоговая ошибка прогноза (FPE) [c.65]
Погрешность 5/>>п (9/ ) в оценивании параметра 0Л. Воспользуемся нормальной распределенностъю оценки 0ft (см. (11.13)) и знанием ее среднего значения Е 0ft — 0fe, (см. свойство несмещенности оценок в в п. 11.1.1) и дисперсии D0A = = а2 ( ) ы (см. (11.11) здесь (Х Х) 1 обозначает Л-й диагональный элемент матрицы (Х Х)-1). Это, с учетом статистической независимости в и а2 и (11.15), позволяет утверждать, что величина [c.342]
Несмещенность оценок параметров регрессии означает что
Несмещенность оценок параметров регрессии. Оценка параметров регрессии называется несмещенной, если для любого фиксированного числа наблюдений выполняется равенство математического ожидания параметра и значения параметра регрессии. Надо отметить, что оценки, полученные методом наименьших квадратов, обладают свойством несмещенности. [c.149]
Эффективность оценок параметров регрессии. Несмещенная оценка параметра регрессии называется несмещенной эффективной, если она среди всех прочих несмещенных оценок этого же параметра обладает наименьшей дисперсией. [c.149]
Это означает, что отсутствует систематическая ошибка в определении линии регрессии, следовательно оценки параметров регрессии являются несмещенными, то есть математическое ожидание оценки каждого параметра равно его истинному значению. [c.107]
Статистические проверки параметров регрессии, показателей корреляции основаны на непроверяемых предпосылках распределения случайной составляющей б,. Они носят лишь предварительный характер. После построения уравнения регрессии проводится проверка наличия у оценок б, (случайных остатков) тех свойств, которые предполагались. Связано это с тем, что оценки параметров регрессии должны отвечать определенным критериям. Они должны быть несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют чрезвычайно важное практическое значение в использовании результатов регрессии и корреляции. [c.155]
Отметим, что при соблюдении прочих предпосылок МНК автокорреляция остатков не влияет на свойства состоятельности и несмещенности оценок параметров уравнения регрессии обычным МНК, за исключением моделей авторегрессии. Применение МНК к моделям авторегрессии ведет к получению смещенных, несостоятельных и неэффективных оценок. [c.280]
Однако, как было показано выше, оценка параметра с,, равная 0,440, является смещенной. Для получения несмещенных оценок параметров этого уравнения воспользуемся методом инструментальных переменных. Определим параметры уравнения регрессии (7.43) обычным МНК [c.327]
Средние квадраты s и s2 (табл. 3.3) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессий или объясняющей переменной X и воздействием неучтенных случайных факторов и ошибок т — число оцениваемых параметров уравнения регрессии п — число наблюдений. [c.72]
Оценки, определяемые вектором (4.8), обладают в соответствии с теоремой Гаусса—Маркова минимальными дисперсиями в классе всех линейных несмещенных оценок, но при наличии мультиколлинеарности эти дисперсии могут оказаться слишком большими, и обращение к соответствующим смещенным оценкам может повысить точность оценивания параметров регрессии. На рис. 5.1 показан случай, когда смещенная оценка Ру, [c.110]
Как было отмечено в 7.1, b — несмещенная и состоятельная оценка параметра р для обобщенной линейной модели множественной регрессии следовательно, и в частном случае, когда мо- [c.156]
Изучая уравнение линейной регрессии мы предполагали, что реальная взаимосвязь фактора X и отклика 7 линейна, а отклонения от прямой регрессии случайны, независимы между собой, имеют нулевое математическое ожидание и постоянную дисперсию. Если это не так, то статистический анализ параметров регрессии некорректен и оценки этих параметров не обладают свойствами несмещенности и состоятельности. Например, это может быть, если в действительности связь между переменными нелинейна. Поэтому после получения уравнения регрессии необходимо исследовать его ошибки. [c.122]
Коэффициенты регрессии, найденные исходя из системы нормальных уравнений, представляют собой выборочные оценки характеристики силы связи. Их несмещенность является желательным свойством, так как только в этом случае они могут иметь практическую значимость. Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Следовательно, при большом числе выборочных оцениваний остатки не будут накапливаться и найденный параметр регрессии bt можно рассматривать как среднее значение из возможного большого количества несмещенных оценок. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным исследованиям. [c.156]
Степень реалистичности доверительных интервалов параметров регрессии обеспечивается, если оценки будут не только несмещенными и эффективными, но и состоятельными. Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки. Большой практический интерес представляют те результаты регрессии, для которых доверительный интервал ожидаемого значения параметра регрессии 6, имеет предел значений вероятности, равный единице. Иными словами, вероятность получения оценки на заданном расстоянии от истинного значения параметра близка к единице. [c.156]
При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии. Этой цели, как уже указывалось, служит и применение обобщенного метода наименьших квадратов, к рассмотрению которого мы и переходим в п. 3.11. [c.169]
Метод, используемый чаще других для нахождения параметров уравнения регрессии и известный как метод наименьших квадратов, дает наилучшие линейные несмещенные оценки. Он называется так потому, что при расчете параметров прямой линии, которая наиболее соответствует фактическим данным, с помощью этого метода стараются найти линию, минимизирующую сумму квадратов значений ошибок или расхождений между величинами Y, которые рассчитаны по уравнению прямой и обозначаются Y, и фактическими наблюдениями. Это показано на рис. 6.2. [c.265]
Сформулируйте свойства несмещенности, состоятельности и эффективности оценок параметров. Обладают ли этими свойствами оценки. параметров линейной регрессии, полученные с помощью МНК [c.311]
Формула Q записана для парной регрессии аналогичный вид она имеет и для множественной линейной регрессии. При использовании WLS оценки параметров не только получаются несмещенными (они будут таковыми и для обычного МНК), но и более точными (имеют меньшую дисперсию), чем невзвешенные оценки. [c.355]
Почему, если известна оценка W ковариационной матрицы ошибок независимых переменных, то приведенная формула расчета оценок параметров простой регрессии обеспечивает их несмещенность [c.44]
Оценки являются несмещенными, т.е. математическое ожидание оценки каждого параметра равно его истинному значению М(а) = а М(Ь) = р. Это вытекает из того, что М(е.) = О, и говорит об отсутствии систематической ошибки в определении положения линии регрессии. [c.297]
Если матрица ковариации ошибок по наблюдениям отлична от О IN (нарушена 3-я гипотеза основной модели), то МНК-оценки параметров регрессии остаются несмещенными, но перестают быть эффективными в классе линейных. Смещенными оказываются МНК-оценки их ковариции, в частности оценки их стандартных ошибок (как правило, они преуменьшаются). [c.27]
При анализе временных рядов часто приходится учитывать статистическую зависимость наблюдений в разные моменты времени. Иными словами, для многих временных рядов предположение о некоррелированности ошибок не выполняется. В этом разделе мы рассмотрим наиболее простую модель, в которой ошибки образуют так называемый авторегрессионный процесс первого порядка (точное определение будет дано ниже). Как было показано ранее (глава 5), применение обычного метода наименьших квадратов к этой системе дает несмещенные и состоятельные оценки параметров, однако можно показать (см., например, Johnston and DiNar-do, 1997), что получаемая при этом оценка дисперсии оказывается смещенной вниз, что может отрицательно сказаться при проверке гипотез о значимости коэффициентов. Образно говоря, МНК рисует более оптимистичную картину регрессии, чем есть на самом деле. [c.184]
Состоятельное оценивание дисперсий. Предположим теперь, что в модели (6.1) с гетероскедастичностью для оценки вектора параметра ft используется обычный метод наименьших квадратов. Как установлено в главе 5, эта оценка является состоятельной и несмещенной, однако стандартная оценка ее матрицы ко-вариаций ((3.8), (ЗД9)) V”(/3OLs) — ff2(X X) l смещена и несостоятельна. Отметим, что компьютерные пакеты при оценивании коэффициентов регрессии вычисляют стандартные ошибки коэффициентов регрессии именно по этой формуле. Можно ли сделать поправку на гетероскедастичность и улучшить оценку матрицы ковариаций Положительный ответ дают приводимые ниже два способа оценивания. [c.173]