Шапиро уилка критерий в статистике интерпретация

Шапиро уилка критерий в статистике интерпретация

Статистику критерия рассчитывают по формуле W =b 2 /nm2. Рассчитанное значение W сравнивают с табличным Wтабл. Табличные значения критерия Wтабл в зависимости от уровня значимости α находят из таблиц, однако с приемлемой точностью их можно найти по зависимостям, показанным в табл. 9.2.

Таблица 9.2.

α Wтабл
0,01 (-0,0148n 4 + 2,1875n 3 — 122,61n 2 + 3257,3n + 55585)/100000
0,05 (-0,0113n 4 + 1,656n 3 — 91,88n 2 + 2408,6n + 67608)/100000
0,1 (-0,0084n 4 + 1,2513n 3 — 70,724n 2 + 1890n + 73840)/100000

Если W >= Wтабл, нулевую гипотезу не бракуют, т.е. распределение считают нормальным.

Пример 9.1. По данным примера 1.1 проверить при различных уровнях значимости гипотезу о нормальности распределения предела прочности на разрыв алюминиевого сплава.

Вариант выполнения примера 9.1 показан на рисунке 9.1.

Рис. 9.1. Вариант расчёта для примера 9.1.

Вводим в электронную таблицу уровень значимости и результаты испытаний, упорядочиваем их в вариационном ряду, рассчитываем среднее значение, сумму квадратов отклонений от среднего nm2, объём испытаний (какие при этом целесообразно задать в статистических функциях диапазоны?), а также величину k. Очевидно, что для любого (чётного и нечётного) n можно рассчитать k по формуле k=n/2 с округлением результата вниз до целого (функция ОКРУГЛВНИЗ).

Далее находим b. Для этого вначале рассчитываем значения n-i+1. Поскольку при этом, в соответствии с формулой (9.1), i = k, при расчёте используем функцию ЕСЛИ, в которой логическим выражением будет n-i+1>= k (т.е. ссылка на ячейку столбца G). При истинности этого выражения значение xn-i+1 находим при помощи функции ИНДЕКС, при ложности значение не задаём. Затем находим x 2 и W. Рассчитываем табличные значения критерия для различных уровней значимости по формулам табл. 7.2. Из этих значений выбираем необходимое Wтабл в соответствии с заданным уровнем значимости, используя трижды функции ЕСЛИ.

Затем, если n < 8, с помощью функции ЕСЛИ выводим сообщение «ВЫБОРКА СЛИШКОМ МАЛА». При ложности этого логического выражения используем в строке Значение_если_ложь функцию ЕСЛИ для сравнивания W и Wтабл, и в зависимости от истинности или ложности логического выражения выводим сообщение, является ли распределение нормальным. В результате в одной ячейке (в примере – ячейка D18) должно выводиться одно из трёх сообщений, например: ВЫБОРКА СЛИШКОМ МАЛА; РАСПРЕД. НОРМАЛЬНОЕ; РАСПРЕД. НЕ НОРМАЛЬНОЕ.

Читайте также:  Написать базу данных в access

При правильном выполнении электронная таблица должна вер-но пересчитываться при вводе других данных в пределах применимо-сти критерия Шапиро-Уилка.

Задание.
1. Выполнить расчёты в соответствии с примером 9.1.
2. Выборочные значения случайных величин, полученные по результатам испытаний, показаны в табл. 9.3.

Таблица 9.3.

№ выборки Р Значения в выборке
1 0,9 855 875 834 872 863 855 888 864 870 881 891 872
2 0,95 11 12 9 16 12 8 9 10 10 9 11 10 8 8
3 0,99 34 36 38 33 34 32 30 36 38 31

Предполагается, что случайные величины распределены нормально.. Используя созданные электронные таблицы, исключить грубые ошибки по критерию Ирвина, проверить нормальность распределений, в случае нормального распределения рассчитать интервальные оценки параметров этих распределений. Результаты занести в таблицу 9.4.

Таблица 9.4.

№ выборки Грубые ошибки Распределение (норм/не норм) Оценка М Оценка σ
точечная Интерв. точечная Интерв.
1 . . . . . .
2 . . . . . .
3 . . . . . .

&nbsp &nbsp &nbsp &nbsp Далее &nbsp &nbsp Содержание

В ряде опытов, особенно в медицинских исследованиях, численность выборки мала. Специально для проверки нормальности распределения малых, численностью от трех до пятидесяти элементов, выборок Шапиро и Уилк разработали критерий .

Итак, пусть имеется выборка . Вычисления статистики производятся по формулам:

где и . Значение в последней формуле определяется следующим образом:
, если — четное, , если — нечетное, — известные константы.

Для вычисления реально достигнутого уровня значимости применяется нормальная аппроксимация, используется следующая формула:

где — стандартное нормальное распределение, , и — константы, для которых известны, в зависимости от объема выборки, табличные значения.

Электронные таблицы

Результаты вычислений
Объем выборки Значение статистики Шапиро-Уилка Достигаемый уровень значимости

Реализация исследуемой выборки

Правила пользования таблицами

Прежде всего в текстовое поле следует поместить изучаемую выборку (это можно сделать, набрав соответствующие значения вручную либо скопировав, скажем из Excel), затем нажать кнопку "Вычислить", после чего в таблице "Результаты вычислений" появится реально достигнутый уровень значимости в критерии Шапиро-Уилка, а также объем выборки и значение статистики Шапиро-Уилка.
Отметим, что в качестве десятичного разделителя в числах можно использовать и точку, и запятую. Удалять значения из первой таблицы можно двойным щелчком мыши. Особо обратим внимание! В качестве разделителя между отдельными числами ни в коем случае не следует использовать точку и запятую, так как эти знаки используются в качестве десятичного разделителя. Отделить одно число от другого можно используя "пробел" или "ввод". Скажем, такой ввод в текстовое поле верен:

0,23 0,56 0.98
0,98 1,56 9,9 7.908

Соответственно будут обрабатываться семь значений: 0.23 0.56 0.98 1.56 9.9 7.908.

Оценить соответствие анализируемых данных нормальному закону можно с помощью модуля «Statistics/Distribution fitting». В диалоговом окне этого модуля (рис.5.6) в списке непрерывных распределений (Continuous Distributions) указывается тип распределения (Normal).

Рисунок 5.6. Диалоговое окно «Distribution fitting»

По нажатию кнопки «OK» будет отображено диалоговое окно настройки процесса оценки нормальности «Fitting Continuous Distributions» (рис.5.7), где по кнопке «Variable» следует выбрать переменные для анализа (например, ID_UNEMPLAYMENT – индекс уровня безработицы).

Рисунок 5.7. Диалоговое окно «Fitting Continuous Distributions»

Нажав кнопку «Plot of observed and expected distributions» (График наблюдаемого и ожидаемого распределений), получим гистограмму распределения данных о индексе уровня безработицы и красную кривую, соответствующую ожидаемому нормальному распределению (у этого ожидаемого распределения те же средняя арифметическая и стандартное отклонение, что и в анализируемой совокупности данных) (рис.5.8). Глядя на полученный рисунок, можно сказать, что в целом распределение значений индекса уровня безработицы соответствует нормальному. Это заключение, основанное на визуальном анализе распределения, имеет и более строгое подтверждение в виде результатов теста (Chi-square test, см. в верхней части графика на рис.5.8). В данном случае этот тест проверяет нулевую гипотезу о том, что наблюдаемое распределение анализируемого признака не отличается от теоретически ожидаемого нормального распределения. Поскольку вероятность ошибиться, отклонив эту гипотезу оказалась больше 0,05 (Р = 0,29541), мы принимаем, что гипотеза действительно верна. Иными словами, распределение значений индекса уровня безработицы статистически не отличается от нормального распределения.

Рисунок 5.8. Гистограмма распределения значений индекса уровня безработицы и ожидаемая нормальная кривая

Тесты Колмогорова – Смирнова и Шапиро – Уилка

Следует отметить, что мощность теста при проверке нормальности распределения анализируемых данных относительно невысока (другими словами, его применение достаточно часто приводит к ошибочному выводу о нормальности распределения). Поэтому лучше воспользоваться и другими тестами. Их можно найти в уже рассмотренном выше модуле «Descriptive Statistics». После запуска этого модуля необходимо открыть закладку «Normality» и в поле «Distribution» (Распределение) разыскать опции «Kolmogorov-Smirnov and Lilliefors test for normality» (Тест Колмогорова-Смирнова и Лиллифорса на нормальность) и «Shapiro-Wilk’s W test» (W-тест Шапиро-Уилка). Равно как и критерий , эти тесты проверяют нулевую гипотезу об отсутствии различий между наблюдаемым распределением фактора и теоретическим ожидаемым нормальным распределением. Наиболее предпочтительным, особенно при небольших выборках (N = 3 ÷ 50) является использование W- критерия Шапиро-Уилка, поскольку он обладает наибольшей мощностью в сравнении со всеми перечисленными критериями (т.е. чаще выявляет различия между распределениями в тех случаях, когда они действительно есть). Для выбора того или иного теста, достаточно поставить флажок рядом с его названием. После выбора анализируемой переменной (кнопка «Variables») и нажатия кнопки «Histograms» программа создаст гистограмму распределения значений фактора и ожидаемую нормальную кривую (рис.5.9). Результаты выбранных тестов на нормальность автоматически располагаются в заголовке этого графика. При Р > 0,05 можно заключить, что анализируемое распределение не отличается от нормального. В примере с данными об индексе уровня безработицы для теста Шапиро-Уилка получаем Р = 0,45749 (рис.5.9), что подтверждает сделанный ранее вывод о нормальности распределения этих данных.

Рисунок 5.9 Гистограмма распределения значений индекса уровня безработицы и ожидаемая нормальная кривая по критерию Колмогорова-Смирнова и Шапиро-Уилка

Ссылка на основную публикацию
Что делать если плохо работает отпечаток пальца
Владельцы современных смартфонов на платформе Android нередко сталкиваются с тем, что сканер отпечатков пальцев реагирует недостаточно быстро и точно. Зачастую...
Хайскрин пауэр айс эво
Вас интересуют характеристики Highscreen Power Ice Evo (Хайскрин Повер Ис Эво)? Мы собрали всю важную информацию, чтобы помочь определиться с...
Халявные страницы в вк логины и пароли
Please complete the security check to access youhack.ru Why do I have to complete a CAPTCHA? Completing the CAPTCHA proves...
Что делать если пропал звук в наушниках
Всё о Интернете, сетях, компьютерах, Windows, iOS и Android Нет звука в наушниках на телефоне — что делать?! А Вы...
Adblock detector