0

В теории статистического оценивания оценки бывают

Материал из MachineLearning.

Содержание

Постановка задачи

Задача статистического оценивания неизвестных параметров – одна из двух основных (наряду с задачей проверки статистических гипотез) задач математической статистики.

Предположим, что имеется параметрическое семейство распределений вероятностей (для простоты будем рассматривать распределение случайных величин и случай одного параметра). Здесь – числовой параметр, значение которого неизвестно. Требуется оценить его по имеющейся выборке значений, порожденной данным распределением.

Различают два основных типа оценок: точечные оценки и доверительные интервалы.

Точечное оценивание

Точечное оценивание – это вид статистического оценивания, при котором значение неизвестного параметра приближается отдельным числом. То есть необходимо указать функцию от выборки (статистику)

значение которой будет рассматриваться в качестве приближения к неизвестному истинному значению .

К общим методам построения точечных оценок параметров относятся: метод максимального правдоподобия, метод моментов, метод квантилей.

Ниже приводятся некоторые свойства, которыми могут обладать или не обладать точечные оценки.

Состоятельность

Одно из самых очевидных требований к точечной оценке заключается в том, чтобы можно было ожидать достаточно хорошего приближения к истинному значению параметра при достаточно больших значениях объема выборки . Это означает, что оценка должна сходиться к истинному значению при . Это свойство оценки и называется состоятельностью. Поскольку речь идет о случайных величинах, для которых имеются разные виды сходимости, то и данное свойство может быть точно сформулировано по-разному:

  • если сходится к истинному значению с вероятностью 1 (почти наверное), то тогда оценка называется сильно состоятельной;
  • если имеет место сходимость по вероятности , то тогда оценка называется слабо состоятельной.

Когда употребляют просто термин состоятельность, то обычно имеется в виду слабая состоятельность, т.е. сходимость по вероятности.

Условие состоятельности является практически обязательным для всех используемых на практике оценок. Несостоятельные оценки используются крайне редко.

Несмещенность и асимптотическая несмещенность

Оценка параметра называется несмещенной, если ее математическое ожидание равно истинному значению оцениваемого параметра:

Более слабым условием является асимптотическая несмещенность, которая означает, что математическое ожидание оценки сходится к истинному значению параметра с ростом объема выборки:

Несмещенность является рекомендуемым свойством оценок. Однако не следует слишком переоценивать его значимость. Чаще всего несмещенные оценки параметров существуют и тогда стараются рассматривать только их. Однако могут быть такие статистические задачи, в которых несмещенных оценок не существует. Наиболее известным примером является следующий: рассмотрим распределение Пуассона с параметром и поставим задачу оценки параметра . Можно доказать, что для этой задачи не существует несмещенной оценки.

Читайте также:  Значки для статуса вконтакте цветные

Сравнение оценок и эффективность

Для сравнения между собой различных оценок одного и того же параметра применяют следующий метод: выбирают некоторую функцию риска, которая измеряет отклонение оценки от истинного значения параметра, и лучшей считают ту, для которой эта функция принимает меньшее значение.

Чаще всего в качестве функции риска рассматривают математическое ожидание квадрата отклонения оценки от истинного значения

Для несмещенных оценок это есть просто дисперсия .

Существует нижняя граница на данную функцию риска, называемая неравенство Крамера-Рао.

(Несмещенные) оценки, для которых достигается эта нижняя граница (т.е. имеющие минимально возможную дисперсию), называются эффективными. Однако существование эффективной оценки есть довольно сильное требование на задачу, которое имеет место далеко не всегда.

Более слабым является условие асимптотической эффективности, которое означает, что отношение дисперсии несмещенной оценки к нижней границе Крамера-Рао стремится к единице при .

Заметим, что при достаточно широких предположениях относительно исследуемого распределения, метод максимального правдоподобия дает асимптотически эффективную оценку параметра, а если существует эффективная оценка – тогда он дает эффективную оценку.

Достаточные статистики

Статистика назвается достаточной для параметра , если условное распределение выборки при условии того, что , не зависит от параметра для всех .

Важность понятия достаточной статистики обуславливается следующим утверждением. Если – достаточная статистика, а – несмещенная оценка параметра , тогда условное математическое ожидание является также несмещенной оценкой параметра , причем ее дисперсия меньше или равна дисперсии исходной оценки .

Напомним, что условное математическое ожидание есть случайная величина, являющаяся функцией от . Таким образом, в классе несмещенных оценок достаточно рассматривать только такие, которые являются функциями от достаточной статистики (при условии, что такая существует для данной задачи).

(Несмещенная) эффективная оценка параметра всегда является достаточной статистикой.

Можно сказать, что достаточная статистика содержит в себе всю информацию об оцениваемом параметре, которая содержится в выборке .

Доверительные интервалы

Другим типом оценок статистических параметров являются доверительные интервалы.

Доверительный интервал – это случайный интервал, построенный по выборке (верхняя и нижняя границы этого интервала должны быть статистиками), который содержит (накрывает) истинное значение параметра с вероятностью, не меньшей заданного значения.

Доверительные интервалы используются, когда нам нужны надежные границы, в которые попадает значение оцениваемого параметра.

Часто вместе с точечной оценкой параметра строят доверительный интервал, середина которого равна этой оценке. Его ширина является наглядной характеристикой того, насколько точна может быть данная точечная оценка.

Иногда бывает наоборот: естественным образом строится некоторый доверительный интервал, а в качестве точечной оценки параметра рассматривают его середину.

  • В книжной версии

    Том 31. Москва, 2016, стр. 197

    Скопировать библиографическую ссылку:

    СТАТИСТИ́ЧЕСКАЯ ОЦЕ́НКА, функ­ция от ре­зуль­та­тов на­блю­де­ний, пред­на­зна­чен­ная для оце­ни­ва­ния не­из­вест­ных па­ра­мет­ров рас­пре­де­ле­ния ве­ро­ят­но­стей. Напр., ес­ли ре­зуль­та­ты на­блю­де­ний $X_1$ , $. $ , $X_n$ – не­за­ви­си­мые слу­чай­ные ве­ли­чи­ны, имею­щие од­но и то же нор­маль­ное рас­пре­де­ле­ние с не­из­вест­ным ма­те­ма­тич. ожи­да­ни­ем $θ$ , то вы­бо­роч­ное сред­нее – сред­нее ариф­ме­ти­че­ское ре­зуль­та­тов на­блю­де­ний – $$overline X = frac$$ и вы­бо­роч­ная ме­диа­на $μ_n=μ_n (X_1, . X_n)$ яв­ля­ют­ся С. о. не­из­вест­но­го па­ра­мет­ра $θ$ . С. о., даю­щие чи­сло­вые при­бли­же­ния не­из­вест­но­го чис­ла, на­зы­ва­ют­ся то­чеч­ны­ми, толь­ко они и рас­смат­ри­ва­ют­ся в даль­ней­шем. О дру­гих С. о. см. в ст. До­ве­ри­тель­ный ин­тер­вал .

    Читайте также:  Блютуз трансмиттер для наушников

    Изучив эту главу, студент будет знать, что выборка может рассматриваться как эмпирический аналог генеральной совокупности, что с помощью выборочных данных можно судить о свойствах генеральной совокупности и оценивать ее характеристики, основные законы распределения статистических оценок, уметь производить точечные и интервальные оценки параметров генеральной совокупности методом моментов и максимального правдоподобия, владеть способами определения точности и надежности полученных оценок.

    Виды статистических оценок

    О параметрах генеральной совокупности мы знаем то, что они объективно существуют, но определить их непосредственно невозможно в силу того, что генеральная совокупность или бесконечна или чрезмерно велика. Поэтому может стоять вопрос только об оценке этих характеристик.

    Ранее было установлено, что для выборки, извлеченной из генеральной совокупности, при соблюдении условий репрезентативности, можно определить характеристики, которые являются аналогами характеристик генеральной совокупности.

    cjp Определение 8.1. Приближенные значения параметров распределения, найденные по выборке, называются оценкой параметра.

    Обозначим оцениваемый параметр случайной величины (генеральной совокупности) как 0, а его оценку, полученную с помощью выборки, 0.

    Оценка 0 является случайной величиной, поскольку любая выборка является случайной. Оценки, полученные для разных выборок, будут отличаться друг от друга. Поэтому будем считать 0 функцией, зависящей от выборки: 0 = 0(Хв).

    ЩР Определение 8.2. Статистическая оценка называется состоятельной, если она стремиться по вероятности к оцениваемому параметру:

    Это равенство означает, что событие 0=0 становится достоверным при неограниченном возрастании объема выборки.

    В качестве примера можно привести относительную частоту некоторого события А, которая является состоятельной оценкой вероятности этого события в соответствии с теоремой Пуассона (см. формулу (6.1), часть 1).

    Определение 8.3. Статистическая оценка называется эффективной, если она имеет наименьшую дисперсию при одних и тех же объемах выборки.

    Рассмотрим оценку Мх математического ожидания Мх случайной величины X. В качестве такой оценки выберем X . Найдем математическое ожидание случайной величины X .

    Сначала сделаем важное утверждение: учитывая то, что все случайные величины X, извлекаются из одной и той же генеральной совокупности X, а значит, имеют одно и то же распределение что и X, можно записать:

    Читайте также:  Больше чем годом ранее

    Таким образом, выборочная средняя является статистической оценкой математического ожидания случайной величины. Эта оценка является состоятельной поскольку в соответствии со следствием из теоремы Чебышева она сходится по вероятности к математическому ожиданию (6.3).

    Мы установили, что в рассматриваемом случае математическое ожидание выбранной нами оценки (случайной величины) равно самому оцениваемому параметру. Оценки, обладающие таким свойством, занимают особое место в математической статистике, они называются несмещенными.

    Определение 8.4. Статистическая оценка © называется несмещенной, если ее математическое ожидание равно оцениваемому параметру

    Если это требование не выполнено, то оценка называется смещенной.

    Таким образом, выборочная средняя является несмещенной оценкой математического ожидания.

    Проведем анализ смещенности выборочной дисперсии D , если ее выбрать в качестве оценки генеральной дисперсии Dx. Для этого проверим выполнимость условия (8.2) для ?) :

    Преобразуем каждое из двух полученных слагаемых:

    Здесь было использовано равенство М(Х.) = М(Х 2 ), справедливое по той же причине, что и (8.1).

    Рассмотрим второе слагаемое. С помощью формулы квадрата суммы п слагаемых получаем

    учитывая снова равенство (8.1), а также то, что X. и X независимые случайные величины запишем

    и окончательно получим:

    Подставим полученные результаты в (8.3)

    После преобразования получим

    Таким образом, можно сделать вывод, что выборочная дисперсия является смещенной оценкой генеральной дисперсии.

    Учитывая полученный результат, поставим задачу построить такую оценку генеральной дисперсии, которая удовлетворяла бы условию несмещенности (8.2). Для этого рассмотрим случайную величину

    Легко видеть, что для этой величины условие (8.2) выполняется:

    Следовательно, 5 2 можно считать несмещенной оценкой генеральной дисперсии. Эта величина называется исправленной выборочной дисперсией. Значение исправленной дисперсии для конкретной выборки рассчитывается по формуле

    Заметим, что различие между выборочной дисперсией и исправленной выборочной дисперсией становятся незначительными при больших объемах выборки.

    При выборе оценок характеристик случайных величин важно знать их точность. В некоторых случаях требуется высокая точность, а иногда достаточно иметь грубую оценку. Например, планируя перелет с пересадкой нам важно знать как можно точнее планируемое время прилета к месту стыковки авиарейсов. В другой ситуации, например, находясь дома и ожидая курьера с заказанным нами товаром, высокая точность времени его прибытия для нас не важна. В обоих случаях случайной величиной является время прибытия, а интересующей нас характеристикой случайной величины — среднее время в пути.

    Оценки бывают двух видов. В первом случае ставится задача получить конкретное числовое значение параметра. В другом случае определяется интервал, в который с заданной вероятностью попадает интересующий нас параметр.

    admin

    Добавить комментарий

    Ваш e-mail не будет опубликован. Обязательные поля помечены *

    0

    В теории статистического оценивания оценки бывают

    Материал из MachineLearning.

    Содержание

    Постановка задачи

    Задача статистического оценивания неизвестных параметров – одна из двух основных (наряду с задачей проверки статистических гипотез) задач математической статистики.

    Предположим, что имеется параметрическое семейство распределений вероятностей (для простоты будем рассматривать распределение случайных величин и случай одного параметра). Здесь – числовой параметр, значение которого неизвестно. Требуется оценить его по имеющейся выборке значений, порожденной данным распределением.

    Различают два основных типа оценок: точечные оценки и доверительные интервалы.

    Точечное оценивание

    Точечное оценивание – это вид статистического оценивания, при котором значение неизвестного параметра приближается отдельным числом. То есть необходимо указать функцию от выборки (статистику)

    значение которой будет рассматриваться в качестве приближения к неизвестному истинному значению .

    К общим методам построения точечных оценок параметров относятся: метод максимального правдоподобия, метод моментов, метод квантилей.

    Ниже приводятся некоторые свойства, которыми могут обладать или не обладать точечные оценки.

    Состоятельность

    Одно из самых очевидных требований к точечной оценке заключается в том, чтобы можно было ожидать достаточно хорошего приближения к истинному значению параметра при достаточно больших значениях объема выборки . Это означает, что оценка должна сходиться к истинному значению при . Это свойство оценки и называется состоятельностью. Поскольку речь идет о случайных величинах, для которых имеются разные виды сходимости, то и данное свойство может быть точно сформулировано по-разному:

    • если сходится к истинному значению с вероятностью 1 (почти наверное), то тогда оценка называется сильно состоятельной;
    • если имеет место сходимость по вероятности , то тогда оценка называется слабо состоятельной.

    Когда употребляют просто термин состоятельность, то обычно имеется в виду слабая состоятельность, т.е. сходимость по вероятности.

    Условие состоятельности является практически обязательным для всех используемых на практике оценок. Несостоятельные оценки используются крайне редко.

    Несмещенность и асимптотическая несмещенность

    Оценка параметра называется несмещенной, если ее математическое ожидание равно истинному значению оцениваемого параметра:

    Более слабым условием является асимптотическая несмещенность, которая означает, что математическое ожидание оценки сходится к истинному значению параметра с ростом объема выборки:

    Несмещенность является рекомендуемым свойством оценок. Однако не следует слишком переоценивать его значимость. Чаще всего несмещенные оценки параметров существуют и тогда стараются рассматривать только их. Однако могут быть такие статистические задачи, в которых несмещенных оценок не существует. Наиболее известным примером является следующий: рассмотрим распределение Пуассона с параметром и поставим задачу оценки параметра . Можно доказать, что для этой задачи не существует несмещенной оценки.

    Читайте также:  Как войти в модем zte

    Сравнение оценок и эффективность

    Для сравнения между собой различных оценок одного и того же параметра применяют следующий метод: выбирают некоторую функцию риска, которая измеряет отклонение оценки от истинного значения параметра, и лучшей считают ту, для которой эта функция принимает меньшее значение.

    Чаще всего в качестве функции риска рассматривают математическое ожидание квадрата отклонения оценки от истинного значения

    Для несмещенных оценок это есть просто дисперсия .

    Существует нижняя граница на данную функцию риска, называемая неравенство Крамера-Рао.

    (Несмещенные) оценки, для которых достигается эта нижняя граница (т.е. имеющие минимально возможную дисперсию), называются эффективными. Однако существование эффективной оценки есть довольно сильное требование на задачу, которое имеет место далеко не всегда.

    Более слабым является условие асимптотической эффективности, которое означает, что отношение дисперсии несмещенной оценки к нижней границе Крамера-Рао стремится к единице при .

    Заметим, что при достаточно широких предположениях относительно исследуемого распределения, метод максимального правдоподобия дает асимптотически эффективную оценку параметра, а если существует эффективная оценка – тогда он дает эффективную оценку.

    Достаточные статистики

    Статистика назвается достаточной для параметра , если условное распределение выборки при условии того, что , не зависит от параметра для всех .

    Важность понятия достаточной статистики обуславливается следующим утверждением. Если – достаточная статистика, а – несмещенная оценка параметра , тогда условное математическое ожидание является также несмещенной оценкой параметра , причем ее дисперсия меньше или равна дисперсии исходной оценки .

    Напомним, что условное математическое ожидание есть случайная величина, являющаяся функцией от . Таким образом, в классе несмещенных оценок достаточно рассматривать только такие, которые являются функциями от достаточной статистики (при условии, что такая существует для данной задачи).

    (Несмещенная) эффективная оценка параметра всегда является достаточной статистикой.

    Можно сказать, что достаточная статистика содержит в себе всю информацию об оцениваемом параметре, которая содержится в выборке .

    Доверительные интервалы

    Другим типом оценок статистических параметров являются доверительные интервалы.

    Доверительный интервал – это случайный интервал, построенный по выборке (верхняя и нижняя границы этого интервала должны быть статистиками), который содержит (накрывает) истинное значение параметра с вероятностью, не меньшей заданного значения.

    Доверительные интервалы используются, когда нам нужны надежные границы, в которые попадает значение оцениваемого параметра.

    Часто вместе с точечной оценкой параметра строят доверительный интервал, середина которого равна этой оценке. Его ширина является наглядной характеристикой того, насколько точна может быть данная точечная оценка.

    Иногда бывает наоборот: естественным образом строится некоторый доверительный интервал, а в качестве точечной оценки параметра рассматривают его середину.

  • В книжной версии

    Том 31. Москва, 2016, стр. 197

    Скопировать библиографическую ссылку:

    СТАТИСТИ́ЧЕСКАЯ ОЦЕ́НКА, функ­ция от ре­зуль­та­тов на­блю­де­ний, пред­на­зна­чен­ная для оце­ни­ва­ния не­из­вест­ных па­ра­мет­ров рас­пре­де­ле­ния ве­ро­ят­но­стей. Напр., ес­ли ре­зуль­та­ты на­блю­де­ний $X_1$ , $. $ , $X_n$ – не­за­ви­си­мые слу­чай­ные ве­ли­чи­ны, имею­щие од­но и то же нор­маль­ное рас­пре­де­ле­ние с не­из­вест­ным ма­те­ма­тич. ожи­да­ни­ем $θ$ , то вы­бо­роч­ное сред­нее – сред­нее ариф­ме­ти­че­ское ре­зуль­та­тов на­блю­де­ний – $$overline X = frac$$ и вы­бо­роч­ная ме­диа­на $μ_n=μ_n (X_1, . X_n)$ яв­ля­ют­ся С. о. не­из­вест­но­го па­ра­мет­ра $θ$ . С. о., даю­щие чи­сло­вые при­бли­же­ния не­из­вест­но­го чис­ла, на­зы­ва­ют­ся то­чеч­ны­ми, толь­ко они и рас­смат­ри­ва­ют­ся в даль­ней­шем. О дру­гих С. о. см. в ст. До­ве­ри­тель­ный ин­тер­вал .

    Читайте также:  Большие остатки на складе

    Изучив эту главу, студент будет знать, что выборка может рассматриваться как эмпирический аналог генеральной совокупности, что с помощью выборочных данных можно судить о свойствах генеральной совокупности и оценивать ее характеристики, основные законы распределения статистических оценок, уметь производить точечные и интервальные оценки параметров генеральной совокупности методом моментов и максимального правдоподобия, владеть способами определения точности и надежности полученных оценок.

    Виды статистических оценок

    О параметрах генеральной совокупности мы знаем то, что они объективно существуют, но определить их непосредственно невозможно в силу того, что генеральная совокупность или бесконечна или чрезмерно велика. Поэтому может стоять вопрос только об оценке этих характеристик.

    Ранее было установлено, что для выборки, извлеченной из генеральной совокупности, при соблюдении условий репрезентативности, можно определить характеристики, которые являются аналогами характеристик генеральной совокупности.

    cjp Определение 8.1. Приближенные значения параметров распределения, найденные по выборке, называются оценкой параметра.

    Обозначим оцениваемый параметр случайной величины (генеральной совокупности) как 0, а его оценку, полученную с помощью выборки, 0.

    Оценка 0 является случайной величиной, поскольку любая выборка является случайной. Оценки, полученные для разных выборок, будут отличаться друг от друга. Поэтому будем считать 0 функцией, зависящей от выборки: 0 = 0(Хв).

    ЩР Определение 8.2. Статистическая оценка называется состоятельной, если она стремиться по вероятности к оцениваемому параметру:

    Это равенство означает, что событие 0=0 становится достоверным при неограниченном возрастании объема выборки.

    В качестве примера можно привести относительную частоту некоторого события А, которая является состоятельной оценкой вероятности этого события в соответствии с теоремой Пуассона (см. формулу (6.1), часть 1).

    Определение 8.3. Статистическая оценка называется эффективной, если она имеет наименьшую дисперсию при одних и тех же объемах выборки.

    Рассмотрим оценку Мх математического ожидания Мх случайной величины X. В качестве такой оценки выберем X . Найдем математическое ожидание случайной величины X .

    Сначала сделаем важное утверждение: учитывая то, что все случайные величины X, извлекаются из одной и той же генеральной совокупности X, а значит, имеют одно и то же распределение что и X, можно записать:

    Таким образом, выборочная средняя является статистической оценкой математического ожидания случайной величины. Эта оценка является состоятельной поскольку в соответствии со следствием из теоремы Чебышева она сходится по вероятности к математическому ожиданию (6.3).

    Читайте также:  База данных предприятия пример

    Мы установили, что в рассматриваемом случае математическое ожидание выбранной нами оценки (случайной величины) равно самому оцениваемому параметру. Оценки, обладающие таким свойством, занимают особое место в математической статистике, они называются несмещенными.

    Определение 8.4. Статистическая оценка © называется несмещенной, если ее математическое ожидание равно оцениваемому параметру

    Если это требование не выполнено, то оценка называется смещенной.

    Таким образом, выборочная средняя является несмещенной оценкой математического ожидания.

    Проведем анализ смещенности выборочной дисперсии D , если ее выбрать в качестве оценки генеральной дисперсии Dx. Для этого проверим выполнимость условия (8.2) для ?) :

    Преобразуем каждое из двух полученных слагаемых:

    Здесь было использовано равенство М(Х.) = М(Х 2 ), справедливое по той же причине, что и (8.1).

    Рассмотрим второе слагаемое. С помощью формулы квадрата суммы п слагаемых получаем

    учитывая снова равенство (8.1), а также то, что X. и X независимые случайные величины запишем

    и окончательно получим:

    Подставим полученные результаты в (8.3)

    После преобразования получим

    Таким образом, можно сделать вывод, что выборочная дисперсия является смещенной оценкой генеральной дисперсии.

    Учитывая полученный результат, поставим задачу построить такую оценку генеральной дисперсии, которая удовлетворяла бы условию несмещенности (8.2). Для этого рассмотрим случайную величину

    Легко видеть, что для этой величины условие (8.2) выполняется:

    Следовательно, 5 2 можно считать несмещенной оценкой генеральной дисперсии. Эта величина называется исправленной выборочной дисперсией. Значение исправленной дисперсии для конкретной выборки рассчитывается по формуле

    Заметим, что различие между выборочной дисперсией и исправленной выборочной дисперсией становятся незначительными при больших объемах выборки.

    При выборе оценок характеристик случайных величин важно знать их точность. В некоторых случаях требуется высокая точность, а иногда достаточно иметь грубую оценку. Например, планируя перелет с пересадкой нам важно знать как можно точнее планируемое время прилета к месту стыковки авиарейсов. В другой ситуации, например, находясь дома и ожидая курьера с заказанным нами товаром, высокая точность времени его прибытия для нас не важна. В обоих случаях случайной величиной является время прибытия, а интересующей нас характеристикой случайной величины — среднее время в пути.

    Оценки бывают двух видов. В первом случае ставится задача получить конкретное числовое значение параметра. В другом случае определяется интервал, в который с заданной вероятностью попадает интересующий нас параметр.

    admin

    Добавить комментарий

    Ваш e-mail не будет опубликован. Обязательные поля помечены *