Как найти дисперсию выборки
Перейти к содержимому

Как найти дисперсию выборки

  • автор:

2.1.1. Среднее и дисперсия выборки

Пусть М[Х] – математическое ожидание случайной величины Х. Это число нам неизвестно. Мы проводим наблюдения и при большом объеме выборки n можно вместо М[Х] рассматривать математическое ожидание Хn. Погрешность при этом будет тем меньше, чем больше объем выборки n.

Математическое ожидание выборки есть просто среднее арифметическое элементов выборки:

.

Будем называть средним выборки . Если сгруппировать итоги наблюдений, то можно записать

,

где хi – варианта выборки; ni – частота варианты хi; n – объем выборки.

Таким образом, в качестве истинного результата можно брать . Такой выбор вносит определенные погрешности, которые тем меньше, чем большеn.

Дисперсия D[Х] приближенно равна дисперсии D[Xn].

,

т.е. D[Х]  D[Xn]. Это равенство было бы еще более надежным, если бы в формуле для D[Xn] вместо стоял непосредственно истинный результатМ[Х]. Обычно получаем заниженную оценку рассеяния значения генеральной совокупности. В связи с этим D[Xn] называется смещенной оценкой дисперсии D[X]. Чтобы получить несмещенную оценку дисперсии требуется рассмотреть величину

,

которая является несмещенной оценкой дисперсии.

Переход к несмещенной оценке S 2 важен в основном для малых выборок, ибо разница между S 2 и D[Xn] при больших n незаметна.

Таким образом, среднее выборки

,

а несмещенная оценка дисперсии выборки

.

В практических вычислениях для дисперсии S 2 часто удобна формула

.

Величина S (корень квадратный из выборочной дисперсии) называется средним квадратическим отклонением выборки или выборочным стандартом.

Почему в формуле дисперсии n заменили на n – 1? Это связано с тем, что входящая в формулу величина сама зависит от элементов выборки. Если бы в формуле еще одна величина была функцией элементов выборки, то пришлось бы взятьn 2 и т.д.

Каждая величина, зависящая от элементов выборки и участвующая в формуле выборочной дисперсии, называется связью. Эта разность показывает, какое количество элементов выборки можно произвольно изменять, не нарушая связей и называется числом степеней свободы. Таким образом, знаменатель выборочной дисперсии всегда равен разности между объемом выборки и числом связей, наложенных на эту выборку.

2.2. Связь между случайными величинами. Корреляция

До сих пор изучали наблюдения над одной случайной величиной. Между тем для выяснения тех или иных причинно–следственных связей в окружающей природе необходимо вести одновременные наблюдения над целым рядом случайных величин, чтобы по полученным данным изучать взаимоотношения этих величин. Ограничимся пока двумя случайными величинами Х и У.

В математическом анализе зависимость между двумя величинами выражается понятием функции у = f(x), где каждому допустимому значению одной переменной соответствует одно и только одно значение другой переменной. Такая зависимость называется функциональной, она обнаруживается с помощью строгих логических доказательств и не нуждается в опытной проверке. Если у = const при изменении х, то говорят, что у не зависит от х.

Гораздо сложнее обстоит дело с понятием зависимости случайных величин: если при изменении х изменилось у, мы не можем сказать, является ли это изменение результатом зависимости у от х или это результат влияния случайных факторов. Здесь имеет место связь особого рода, при которой с изменением одной величины меняется распределение другой – такая связь называется стохастической.

Выявление стохастической связи и оценка ее силы представляют задачу математической статистики.

Рассматривая свойства дисперсии, мы указали, что дисперсия суммы двух независимых величин равна сумме дисперсий этих величин. Поэтому если для двух случайных величин Х и У окажется, что

,

то это служит верным признаком наличия зависимости между Х и У, т.е. корреляции.

Из этого неравенства вытекает (доказано), что справедливо следующее неравенство:

,

где называюткорреляционным моментом.

Корреляционный момент зависит от единиц измерения величин Х и У. Поэтому на практике чаще используется безразмерная величина, которая называется коэффициентом корреляции.

.

§ 9. Выборочная дисперсия

Для того чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения , вводят сводную характеристику — выборочную дисперсию.

Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения x1, х2, …, xn признака выборки объема п различны, то

.

Если же значения признака x1, х2, …, xk имеют соответственно частоты п1, n2,…, nk, причем n1 + n2+…+nk = n, то

,

т.е. выборочная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствующим частотам.

Пример. Выборочная совокупность задана таблицей распределения

xi 1 2 3 4

ni 20 15 10 5

Найти выборочную дисперсию.

Решение. Найдем выборочную среднюю (см. § 4):

.

Найдем выборочную дисперсию:

.

Кроме дисперсии для характеристики рассеяния значений признака выборочной совокупности вокруг своего среднего значения пользуются сводной характеристикой-средним квадратическим отклонением.

Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из выборочной дисперсии:

.

§ 10. Формула для вычисления дисперсии

Вычисление дисперсии, безразлично-выборочной или генеральной, можно упростить, используя следующую теорему.

Теорема. Дисперсия равна среднему квадратов значений признака минус квадрат общей средней:

.

Доказательство. Справедливость теоремы вытекает из преобразований:

.

,

где ,.

Пример. Найти дисперсию по данному распределению

xi 1 2 3 4

ni 20 15 10 5

Решение. Найдем общую среднюю:

.

Найдем среднюю квадратов значений признака:

.

=5-2 2 =1.

§11. Групповая, внутригрупповая, межгрупповая и общая дисперсии

Допустим, что все значения количественного признака X совокупности, безразлично-генеральной или выборочной, разбиты на k групп. Рассматривая каждую группу как самостоятельную совокупность, можно найти групповую среднюю (см. § 6) и дисперсию значений признака, принадлежащих группе, относительно групповой средней.

Групповой дисперсией называют дисперсию значений признака, принадлежащих группе, относительно групповой средней

,

где ni — частота значения xi; j — номер группы; — групповая средняя группы j; — объем группыj.

Пример 1. Найти групповые дисперсии совокупности, состоящей из следующих двух групп:

Как вычислить выборочную дисперсию

Выборочная дисперсия является сводной характеристикой для наблюдения рассеяния количественного признака выборки вокруг среднего значения.

Определение

Выборочная дисперсия – это среднее арифметическое значений вариантов части отобранных объектов генеральной совокупности (выборки).

Связь выборочной и генеральной дисперсии

Генеральная дисперсия представляет собой среднее арифметическое квадратов отступлений значений признаков генеральной совокупности от их среднего значения.

Осторожно! Если преподаватель обнаружит плагиат в работе, не избежать крупных проблем (вплоть до отчисления). Если нет возможности написать самому, закажите тут.

Определение

Генеральная совокупность – это комплекс всех возможных объектов, относительно которых планируется вести наблюдение и формулировать выводы.

Выборочная совокупность или выборка является частью генеральной совокупности, выбранной для изучения и составления заключения касательной всей генеральной совокупности.

Как вычислить выборочную дисперсию

Выборочная дисперсия при различии всех значений варианта выборки находится по формуле:

Для значений признаков выборочной совокупности с частотами n1, n2,…,nk формула выглядит следующим образом:

Квадратный корень из выборочной дисперсии характеризует рассеивание значений вариантов выборки вокруг своего среднего значения. Данная характеристика называется выборочным средним квадратическим отклонением и имеет вид:

Упрощенный способ вычисления выборочной или генеральной дисперсии производят по формуле:

Если вариационный ряд выборочной совокупности интервальный, то за xi принимается центр частичных интервалов.

Пример

Найти выборочную дисперсию выборки со значениями:

Решение

Для начала необходимо определить выборочную среднюю:

Затем найдем выборочную дисперсию:

Исправленная дисперсия

Математически выборочная дисперсия не соответствует генеральной, поскольку выборочная используется для смещенного оценивания генеральной дисперсии. По этой причине математическое ожидание выборочной дисперсии вычисляется так:

В данной формуле DГ – это истинное значение дисперсии генеральной совокупности.

Исправить выборочную дисперсию можно путем умножения ее на дробь:

Получим формулу следующего вида:

Исправленная дисперсия используется для несмещенной оценки генеральной дисперсии и обозначается S 2 .

Среднеквадратическая генеральная совокупность оценивается при помощи исправленного среднеквадратического отклонения, которое вычисляется по формуле:

При нахождении выборочной и исправленной дисперсии разнятся лишь знаменатели в формулах. Различия в этих характеристиках при больших n незначительны. Применение исправленной дисперсии целесообразно при объеме выборки меньше 30.

Для чего применяют исправленную выборочную дисперсию

Исправленную выборочную используют для точечной оценки генеральной дисперсии.

Пример

Длину стержня измерили одним и тем же прибором пять раз. В результате получили следующие величины: 92 мм, 94 мм, 103 мм, 105 мм, 106 мм. Задача найти выборочную среднюю длину предмета и выборочную исправленную дисперсию ошибок измерительного прибора.

Решение

Сначала вычислим выборочную среднюю:

Затем найдем выборочную дисперсию:

Теперь рассчитаем исправленную дисперсию:

1.1.4. Среднее и дисперсия выборки.

Допустим, что проводя экспериментальные исследования, мы сумели учесть все систематические ошибки и избежать грубых ошибок. Это значит, что истинный результат, который теоретически может быть получен при бесконечно большом числе опытов совпадает с математическим ожиданием исследуемой случайной величины, которое нам неизвестно. Для оценки неизвестного распределения генеральной совокупности случайной величины используем конечнозначную случайную (экспериментальную) величину .

Полученные в результате экспериментов числа называют элементами выборки. Каждому элементу соответствует вероятность , т.е. имеет равномерное распределение. Тогда ее математическое ожидание есть просто среднее арифметическое элементов выборки:

Данную количественную характеристику распределения называют простым средним выборки. Она характеризует центр группирования всей выборки и является выборочной оценкой математического ожидания генеральной совокупности исследуемой случайной величины. Точность среднего выборки будет тем выше, чем больше объем выборки.

Действие различных случайных факторов на условия проведения экспериментов порождает погрешность и приводит к превращению истинного результата в случайную величину. Следовательно, точность найденного истинного результата связана в первую очередь с мерой рассеяния — дисперсией наблюдаемой случайной величины.

Генеральную дисперсию оценивают выборочной дисперсией

Более детальный анализ дисперсии показывает, что истинный результат наблюдений над ней, как над случайной величиной, не совпадает с генеральной дисперсией , а оказывается несколько меньше последней. В связи с этим называется смещенной оценкой генеральной дисперсии . Несмещенной выборочной оценкой является величина

Переход к несмещенной оценке важен в основном для малых выборок, ибо разница между и при больших незаметна. Однако во избежание разногласий, мы в дальнейшем под выборочной дисперсией будем понимать только .

Используя знак  для обозначения суммы по всем элементам выборки, получим удобные сокращенные формулы простого среднего и дисперсии выборки

Формула расчета простого среднего применяется в случае, если частные значения усредняемого признака не повторяются или их повтор не оценивается.

В практических вычислениях для дисперсии часто удобна формула

Величина (корень квадратный из дисперсии) называется средним квадратическим отклонением выборки или выборочным стандартом (для нормального распределения).

Таким образом, такие количественные характеристики выборки, как выборочная дисперсия или выборочное среднее квадратическое отклонение показывают разброс или характер группирования частных значений выборки относительно центра (среднего значения выборки).

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *