Контакты

Используются для сравнения нескольких величин. Диаграмма – это средство наглядного графического изображения информации, предназначенное для сравнения нескольких величин или нескольких значений одной. Форматирование ячеек. Формат чисел в Microsoft Excel

В предыдущих заметках были описаны процедуры проверки гипотез о числовых и категорийных данных: , несколько , а также , позволяющего изучать один или . В настоящей заметке мы рассмотрим методы проверки гипотез о различиях между долями признака в генеральных совокупностях на основе нескольких независимых выборок.

Для иллюстрации применяемых методов используется сценарий, в котором оценивается степень удовлетворенности постояльцев отелей, принадлежащих компании Т. С. Resort Properties. Представьте себе, что вы - менеджер компании, владеющей пятью отелями, расположенными на двух курортных островах. Если гости удовлетворены обслуживанием, велика вероятность, что они вернутся на следующий год и порекомендуют своим друзьям остановиться именно в вашем отеле. Чтобы оценить качество обслуживания, постояльцев просят заполнить анкету и указать, довольны ли они гостеприимством. Вам необходимо проанализировать данные опроса, определить общую степень удовлетворенности запросов постояльцев, оценить вероятность того, что гости приедут вновь в следующем году, а также установить причины возможного недовольства некоторых клиентов. Например, на одном из островов компании принадлежат отели Beachcomber и Windsurfer. Одинаково ли обслуживание в этих отелях? Если нет, как эту информацию можно использовать для улучшения качества работы компании? Более того, если некоторые постояльцы заявили, что больше к вам не приедут, какие причины они указывают чаще других? Можно ли утверждать, что эти причины касаются лишь конкретной гостиницы и не относятся ко всей компании в целом?

Здесь использованы следующие обозначения: X 1 - количество успехов в первой группе, X 2 - количество успехов во второй группе, n 1 X 1 - количество неудач в первой группе, n 2 X 2 - количество неудач во второй группе, X = X 1 + X 2 - общее количество успехов, n X = (n 1 X 1 ) + (n 2 X 2 ) - общее количество неудач, n 1 - объем первой выборки, n 2 - объем второй выборки, n = n 1 + n 2 - суммарный объем выборок. Представленная таблица имеет две строки и два столбца, поэтому она называется факторной таблицей 2×2. Ячейки, образованные пересечением каждой строки и столбца, содержат количество успехов или неудач.

Проиллюстрируем применение таблицы сопряженности признаков на примере сценария, описанного выше. Предположим, что на вопрос «Вернетесь ли вы в следующем году?» утвердительно ответили 163 из 227 постояльцев отеля Beachcomber, и 154 из 262 постояльцев отеля Windsurfer. Существует ли статистически значимая разность между степенью удовлетворенности постояльцев отелей (представляющая собой вероятность того, что постояльцы вернутся в следующем году), если уровень значимости равен 0,05?

Рис. 2. Факторная таблица 2х2 для оценки качества обслуживания постояльцев

В первой строке указывается количество постояльцев каждого отеля, заявивших о своем желании вернуться в следующем году (успех); во второй строке – количество постояльцев, выразивших недовольство (неудача). Ячейки, расположенные в столбце «Итого», содержат общее количество гостей, планирующих вернуться в отель в следующем году, а также общее количество гостей, недовольных обслуживанием. Ячейки, расположенные в строке «Всего», содержат общее количество опрошенных постояльцев каждого отеля. Доля постояльцев, планирующих вернуться, вычисляется путем деления количества постояльцев, заявивших об этом, на общее количество опрошенных гостей данного отеля. Затем для сравнения вычисленных долей применяется χ 2 -критерий.

Чтобы проверить нулевую и альтернативные гипотезы Н 0: р 1 = р 2 ; Н 1: р 1 ≠ р 2 используем тестовую χ 2 -статистику.

Критерий «хи-квадрат» для сравнения двух долей. Тестовая χ 2 -статистика равна сумме квадратов разностей между наблюдаемым и ожидаемым количеством успехов, деленных на ожидаемое количество успехов в каждой ячейке таблицы:

где f 0 - наблюдаемое количество успехов или неудач в конкретной ячейке таблицы сопряженности признаков, f e

Тестовая χ 2 -статистика аппроксимируется χ 2 -распределением с одной степенью свободы.

Или неудач в каждой ячейке таблицы сопряженности признаков, необходимо понимать их смысл. Если нулевая гипотеза является истинной, т.е. доли успехов в двух генеральных совокупностях равны, выборочные доли, вычисленные для каждой из двух групп, могут отличаться друг от друга лишь по случайным причинам, причем обе доли являются оценкой общего параметра генеральной совокупности р . В этой ситуации статистика, объединяющая обе доли в одной общей (средней) оценке параметра р , представляет собой общую долю успехов в объединенных группах (т.е. равна общему количеству успехов, деленному на суммарный объем выборок). Ее дополнение, 1 – , представляет собой общую долю неудач в объединенных группах. Используя обозначения, смысл которых описан в таблице на рис. 1. можно вывести формулу (2) для вычисления параметра :

где – средняя доля признака.

Чтобы вычислить ожидаемое количество успехов f e (т.е. содержимое первой строки таблицы сопряженности признаков), необходимо умножить объем выборки на параметр . Чтобы вычислить ожидаемое количество неудач f e (т.е. содержимое второй строки таблицы сопряженности признаков), необходимо умножить объем выборки на параметр 1 – .

Тестовая статистика, вычисленная по формуле (1), аппроксимируется χ 2 -распределением с одной степенью свободы. При заданном уровне значимости α нулевая гипотеза отклоняется, если вычисленная χ 2 -статистика больше χ U 2 , верхнего критического значения χ 2 -распределения с одной степенью свободы. Таким образом, решающее правило выглядит следующим образом: гипотеза H 0 отклоняется, если χ 2 > χ U 2 , в противном случае гипотеза Н 0 не отклоняется (рис. 3).

Рис. 3. Критическая область χ 2 -критерия для сравнения долей при уровне значимости α

Если нулевая гипотеза является истинной, вычисленная χ 2 -статистика близка к нулю, поскольку квадрат разности между наблюдаемой f 0 и ожидаемой f е величинами в каждой ячейке очень мал. С другой стороны, если нулевая гипотеза Н 0 является ложной и между долями успехов в генеральных совокупностях существует значимая разница, вычисленная χ 2 -статистика должна быть большой. Это объясняется разностью между наблюдаемым и ожидаемым количеством успехов или неудач в каждой ячейке, которая увеличивается при возведении в квадрат. Однако вклады разностей между ожидаемыми и наблюдаемыми величинами в общую χ 2 -статистику могут быть неодинаковыми. Одна и та же фактическая разность между f 0 и f e может оказать большее влияние на χ 2 -статистику, если в ячейке содержатся результаты небольшого количества наблюдений, чем разность, соответствующая большему количеству наблюдений.

Для того чтобы проиллюстрировать χ 2 -критерий для проверки гипотезы о равенстве двух долей, вернемся к сценарию, описанному в ранее, результаты которого приведены на рис. 2. Нулевая гипотеза (Н 0: р 1 = р 2) утверждает, что при сравнении качества обслуживания в двух отелях доли постояльцев, планирующих вернуться в следующем году, практически одинаковы. Для оценки параметра р , представляющего собой долю гостей, планирующих вернуться в отель, если нулевая гипотеза является истинной, используется величина , которая вычисляется по формуле

Доля гостей, оставшихся недовольными обслуживанием = 1 – 0,6483 = 0,3517. Умножая эти две доли на количество опрошенных постояльцев отеля Beachcomber, получаем ожидаемое количество гостей, планирующих вернуться в следующем сезоне, а также число отдыхающих, которые больше не остановятся в этом отеле. Аналогично вычисляются ожидаемые доли постояльцев отеля Windsurfer:

Да - Beachcomber: = 0,6483, n 1 = 227, следовательно, f e = 147,16.
Да - Windsurfer: = 0,6483, n 2 = 262, следовательно, f e = 169,84.
Нет - Beachcomber: 1 – = 0,3517, n 1 = 227, следовательно, f e = 79,84.
Нет - Windsurfer: 1 – = 0,3517, n 2 = 262, следовательно, f e = 92,16.

Расчеты представлены на рис. 4.

Рис. 4. χ 2 -статистика для отелей: (а) исходные данные; (б) факторная таблица 2х2 для сравнения наблюдаемого (f 0 ) и ожидаемого (f e ) количества постояльцев, удовлетворенных и не удовлетворенных обслуживанием; (в) вычисление χ 2 -статистики при сравнении доли постояльцев, удовлетворенных обслуживанием; (г) расчет критического значения тестовой χ 2 -статистики

Для расчета критического значения тестовой χ 2 -статистики применяется функция Excel =ХИ2.ОБР(). Если уровень значимости α = 0,05 (вероятность, подставляемая в функцию ХИ2.ОБР есть 1 –α), а χ 2 -распределение для факторной таблицы 2×2 имеет одну степень свободы, критическое значение χ 2 -статистики равно 3,841. Поскольку вычисленное значение χ 2 -статистики, равное 9,053 (рис. 4в), превышает число 3,841, нулевая гипотеза отклоняется (рис. 5).

Рис. 5. Определение критического значения тестовой χ 2 -статистики с одной степенью свободы при уровне значимости α = 0,05

Вероятность р того, что нулевая гипотеза верна при χ 2 -статистикие равной 9,053 (и одной степени свободы) рассчитывается в Excel с помощью функции =1 – ХИ2.РАСП(9,053;1;ИСТИНА) = 0,0026. р -значение, равное 0,0026, - это вероятность того, что разность между выборочными долями постояльцев, удовлетворенных обслуживанием в отелях Beachcomber и Windsurfer, равна или больше 0,718 – 0,588 = 0,13, если на самом деле их доли в обеих генеральных совокупностях одинаковы. Таким образом, существуют веские основания утверждать, что между двумя отелями есть статистически значимая разница в обслуживании постояльцев. Исследования показывают, что количество гостей, удовлетворенных обслуживанием в отеле Beachcomber, больше количества постояльцев, планирующих снова остановиться в гостинице Windsurfer.

Проверка предположений, касающихся факторной таблицы 2×2. Для получения точных результатов на основе данных, приведенных в таблице 2×2, необходимо, чтобы количество успехов или неудач превышало число 5. Если это условие не выполняется, следует применять точный критерий Фишера .

При сравнении процента клиентов, удовлетворенных качеством обслуживания в двух отелях, критерии Z и χ 2 приводят к одинаковым результатам. Это можно объяснить существованием тесной связи между стандартизованным нормальным распределением и χ 2 -распределением с одной степенью свободы. В этом случае χ 2 -статистика всегда является квадратом Z-статистики. Например, при оценке степени удовлетворенности гостей мы обнаружили, что Z -статистика равна +3,01, а χ 2 -статистика - 9,05. Пренебрегая ошибками округления, легко убедиться, что вторая величина является квадратом первой (т.е. 3,01 2 = 9,05). Кроме того, сравнивая критические значения обеих статистик при уровне значимости α = 0,05, можно обнаружить, что величина χ 1 2 равная 3,841, является квадратом верхнего критического значения Z-статистики, равного +1,96 (т.е. χ 1 2 = Z 2). Более того, р -значения обоих критериев одинаковы.

Таким образом, можно утверждать, что при проверке нулевой и альтернативной гипотез Н 0: р 1 = р 2 ; Н 1: р 1 ≠ р 2 критерии Z и χ 2 являются эквивалентными. Однако, если необходимо не просто обнаружить различия, но и определить, какая доля больше (р 1 > р 2), следует применять Z-критерий с одной критической областью, ограниченной хвостом стандартизованного нормального распределения. Далее будет описано применение критерия χ 2 для сравнения долей признака в нескольких группах. Необходимо отметить, что Z-критерий в этой ситуации применять невозможно.

Применение χ 2 -критерия для проверки гипотезы о равенстве нескольких долей

Критерий «хи-квадрат» можно распространить на более общий случай и применять для проверки гипотезы о равенстве нескольких долей признака. Обозначим количество анализируемых независимых генеральных совокупностей буквой с . Теперь таблица сопряженности признаков состоит из двух строк и с столбцов. Чтобы проверить нулевую и альтернативные гипотезы Н 0: р 1 = р 2 = … = р 2 , Н 1: не все р j равны между собой (j = 1, 2, …, c ), используется тестовая χ 2 -статистика:

где f 0 - наблюдаемое количество успехов или неудач в конкретной ячейке факторной таблицы 2*с , f e - теоретическое, или ожидаемое, количество успехов или неудач в конкретной ячейке таблицы сопряженности признаков при условии, что нулевая гипотеза является истинной.

Чтобы вычислить ожидаемое количество успехов или неудач в каждой ячейке таблицы сопряженности признаков, необходимо иметь в виду следующее. Если нулевая гипотеза является истинной и доли успехов во всех с генеральных совокупностях равны, соответствующие выборочные доли могут отличаться друг от друга лишь по случайным причинам, поскольку все доли представляют собой оценки доли признака р в общей генеральной совокупности. В этой ситуации статистика, объединяющая все доли в одной общей (или средней) оценке параметра р , содержит больше информации, чем каждая из них в отдельности. Эта статистика, обозначаемая символом , представляет собой общую (или среднюю) долю успехов в объединенной выборке.

Вычисление средней доли:

Чтобы вычислить ожидаемое количество успехов f e в первой строке таблицы сопряженности признаков, необходимо умножить объем каждой выборки на параметр . Чтобы вычислить ожидаемое количество неудач f e во второй строке таблицы сопряженности признаков, необходимо умножить объем каждой выборки на параметр 1 – . Тестовая статистика, вычисленная по формуле (1), аппроксимируется χ 2 -распределением. Количество степеней свободы этого распределения задается величиной (r – 1)(c – 1) , где r - количество строк в факторной таблице, с - количество столбцов в таблице. Для факторной таблицы 2*с количество степеней свободы равно (2 – 1)(с – 1) = с – 1 . При заданном уровне значимости α нулевая гипотеза отклоняется, если вычисленная χ 2 -статистика больше верхнего критического значения χ U 2 , присущего χ 2 -распределению с с – 1 степенями свободы. Таким образом, решающее правило выглядит следующим образом: гипотеза Н 0 отклоняется, если χ 2 > χ U 2 (рис. 6), в противном случае гипотеза отклоняется.

Рис. 6. Критическая область χ 2 -критерия для сравнения с долей при уровне значимости α

Проверка предположений, касающихся факторной таблицы 2*с. Для получения точных результатов на основе данных, приведенных в факторной таблице 2*с , необходимо, чтобы количество успехов или неудач было достаточно большим. Некоторые статистики полагают, что критерий дает точные результаты, если ожидаемые частоты превышают 0,5. Более консервативные исследователи требуют, чтобы не более 20% ячеек таблицы сопряженности признаков содержали ожидаемые величины, которые меньше 5, причем ни одна ячейка не должна содержать ожидаемую величину меньше единицы. Последнее условие нам представляется разумным компромиссом между этими крайностями. Чтобы удовлетворить это условие, категории, содержащие небольшие ожидаемые величины, следует объединить в одну. После этого критерий становится более точным. Если по каким-либо причинам объединение нескольких категорий невозможно, следует применять альтернативные процедуры.

Для того чтобы проиллюстрировать χ 2 -критерий для проверки гипотезы о равенстве долей в нескольких группах, вернемся к сценарию, описанному в начале главы. Рассмотрим аналогичный опрос, в котором принимают участие постояльцы трех отелей, принадлежащих компании Т. С. Resort Resources (рис. 7а).

Рис. 7. Факторная таблица 2×3 для сравнения количества постояльцев, удовлетворенных и не удовлетворенных обслуживанием: (а) наблюдаемое количество успехов или неудач – f 0 ; (б) ожидаемое количество успехов или неудач – f e ; (в) вычисление χ 2 -статистики при сравнении долей постояльцев, удовлетворенных обслуживанием

Нулевая гипотеза утверждает, что доли клиентов, планирующих вернуться в следующем году, во всех отелях практически одинаковы. Для оценки параметра р , представляющего собой долю гостей, планирующих вернуться в отель, используется величина р̅ = Х / n = 513 / 700 = 0,733. Доля гостей, оставшихся недовольными обслуживанием, равна 1 – 0,733 = 0,267. Умножая три доли на количество опрошенных постояльцев в каждом из отелей, получаем ожидаемое количество гостей, планирующих вернуться в следующем сезоне, а также число клиентов, которые больше не остановятся в этом отеле (рис. 7б).

Чтобы проверить нулевую и альтернативные гипотезы используют тестовую χ 2 -статистику, вычисленную с помощью ожидаемых и наблюдаемых величин по формуле (1) (рис. 7в).

Критическое значение тестовой χ 2 -статистики определяется по формуле =ХИ2.ОБР(). Поскольку в опросе принимают участие постояльцы трех отелей, χ 2 -статистика имеет (2 – 1)(3 – 1) = 2 степени свободы. При уровне значимости α = 0,05 критическое значение χ 2 -статистики равно 5,991 (рис. 7г). Так как вычисленная χ 2 -статистика, равная 40,236, превышает критическое значение, нулевая гипотеза отклоняется (рис. 8). С другой стороны, вероятность р того, что нулевая гипотеза верна при χ 2 -статистикие равной 40,236 (и двух степенях свободы) рассчитывается в Excel с помощью функции =1-ХИ2.РАСП() = 0,000 (рис. 7г). р -значение равно 0,000 и меньше уровня значимости α = 0,05. Следовательно, нулевая гипотеза отклоняется.

Рис. 8. Области принятия и отклонения гипотезы о равенстве трех долей при уровне значимости, равном 0,05, и двух степенях свободы

Отклоняя нулевую гипотезу при сравнении долей, указанных в факторной таблице 2*с , мы можем утверждать лишь, что доли постояльцев, удовлетворенных обслуживанием в трех отелях, не совпадают. Для того чтобы выяснить, какие доли отличаются от других, необходимо применять иные методы, например процедуру Мараскуило.

Процедура Мараскуило позволяет сравнивать все группы попарно. На первом этапе процедуры вычисляются разности p s j – p s j ’ (где j j ) между с(с – 1)/2 парами долей. Соответствующие критические размахи вычисляются по формуле:


При общем уровне значимости α, величина представляет собой квадратный корень из верхнего критического значения распределения «хи-квадрат», имеющего с – 1 степеней свободы. Для каждой пары выборочных долей необходимо вычислить отдельный критический размах. На последнем этапе каждая из с(с – 1)/2 пар долей сравнивается с соответствующим критическим размахом. Доли, образующие конкретную пару, считаются статистически значимо разными, если абсолютная разность выборочных долей |p s j – p s j | превышает критический размах.

Проиллюстрируем процедуру Мараскуило на примере опроса постояльцев трех отелей (рис 9а). Применяя критерий «хи-квадрат», мы убедились, что между долями постояльцев разных отелей, собирающихся вернуться в следующем году, существует статистически значимая разница. Поскольку в опросе участвуют постояльцы трех отелей, необходимо выполнить 3(3 – 1)/2 = 3 попарных сравнений и вычислить три критических размаха. Для начала вычислим три выборочных доли (рис. 9б). При общем уровне значимости, равном 0,05, верхнее критическое значение тестовой χ 2 -статистики для распределения «хи-квадрат», имеющего (с – 1) = 2 степени свободы определяется по формуле =ХИ2.ОБР(0,95;2) = 5,991. Итак, = 2,448 (рис. 9в). Далее, вычислим три пары абсолютных разностей и соответствующие критические размахи. Если абсолютная разность больше ее критического размаха, то соответствующие доли считаются значимо разными (рис. 9г).

Рис. 9. Результаты выполнения процедуры Мараскуило для проверки гипотезы о равенстве долей удовлетворенных постояльцев трех отелей: (а) данные опроса; (б) выборочных доли; (в) верхнее критическое значение тестовой χ 2 -статистики для распределения «хи-квадрат»; (г) три пары абсолютных разностей и соответствующие критические размахи

Как видим, при уровне значимости, равном 0,05, степень удовлетворенности постояльцев отеля Palm Royal (p s2 = 0,858) выше, чем у постояльцев отелей Golden Palm (p s1 = 0,593) и Palm Princess (p s3 =0,738). Кроме того, степень удовлетворенности постояльцев отеля Palm Princess выше, чем у постояльцев отеля Golden Palm. Эти результаты должны заставить руководство проанализировать причины таких различий и попытаться определить, почему степень удовлетворенности постояльцев отеля Golden Palm значительно ниже, чем у постояльцев других отелей.

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 708–730

В книге рассмотрены основные приемы работы на компьютере Macintosh. Показаны особенности работы в операционной системе Mac OS X: пользовательский интерфейс, установка/удаление программ, прожиг CD/DVD, печать документов, подключение к сети Интернет и др. Описаны основные приложения, входящие в состав ОС: почтовый клиент Mail; web-браузер Safari; календарь-ежедневник iCal; приложение, управляющее виджетами, Dashboard; программа Photo Booth для работы со встроенной цифровой камерой; музыкальный редактор GarageBand; приложение Time Machine для резервного копирования и др. Рассмотрена работа с приложениями интегрированной среды iWork: текстовым редактором Pages, электронными таблицами Numbers, программой для создания презентаций Keynote. Показаны особенности клавиатуры Macintosh и проведены аналогии с клавиатурой компьютера IBM PC. Компакт-диск содержит задания для самостоятельной работы с Mac OS X и приложениями iWork, материалы для выполнения заданий, примеры презентаций.

Для начинающих пользователей.

Книга:

Разделы на этой странице:

Диаграмма - графическое представление данных из выбранного диапазона.

Для построения диаграммы придерживайтесь следующего алгоритма

1. Создать таблицу расчетных значений.

2. Выделить нужный диапазон (он может состоять из не смежных прямоугольных диапазонов).

3. Выбрать необходимый вид диаграммы из списка, организованного кнопкой Charts (Диаграммы):


Или из перечня меню Insert (Вставка) ? Chart (Диаграмма).

4. Произвести настройки параметров созданной диаграммы в окне инспектора на вкладке Chart (Диаграмма).

Подробно рассматривать настройки параметров диаграммы в этом разделе мы не будем, так как этот вопрос разбирался ранее в приложении Pages (см. разд. 5.1.14), а практика работы с диаграммами будет разобрана в разд. 6.2.8.

Виды диаграмм и примеры их использования

Приложение Numbers предлагает тот же перечень диаграмм, что и Pages. Работа с диаграммами в Pages была рассмотрена в разд. 5.1.14, в котором обращалось внимание только на различные настройки диаграмм, но не была приведена сравнительная характеристика различных видов. В этом разделе разберем несколько примеров использования некоторых видов диаграмм, которые наглядно демонстрируют их область применения.

Круговая диаграмма

Круговая диаграмма (Pie) и объемный ее вариант (3D Pie) используются для сравнения нескольких величин в одной точке или нескольких частей одного целого. Как следует из названия, диаграмма представляет собой круг, который разбит на секторы. Круг соответствует суммарному количеству всех данных и составляет 100 %, каждый сектор соответствует одному данному, представляющему собой часть (процентную долю) от общего количества.

Пример 1. Однажды дядя Федор пошел в лес по грибы и собрал: 24 лисички, 9 моховиков, 15 волнушек, 5 белых. Построить круговую диаграмму сбора грибов, показывающую какой процент от общего количества составляют белые грибы.

Предварительно следует подготовить таблицу значений, по которым будет осуществляться построение диаграммы. В таблицу необходимо занести наименования грибов и числовые данные, затем выделить диапазон A1:D2 (рис. 5.86) и выбрать тип диаграммы Pie (Круговая). Ячейки первой строки выделенного диапазона являются названиями секторов круга, ячейки второй строки содержат числовые данные диаграммы. Весь круг составляет общее количество собранных грибов - 45, каждый сектор отражает процентную долю каждого наименования гриба от общего количествами, рис. 5.86).


Использование круговой диаграммы не всегда удобно и наглядно, например, увеличение числа собранных грибов приведет к увеличению секторов, что пагубно скажется на информативности диаграммы. В этом случае следует использовать другие виды.

Столбцовые диаграммы

Numbers предлагает несколько вариантов столбцовой диаграммы: Column (Столбцовая) - вертикальные столбцы, Bar (Гистограмма) - горизонтальные столбцы, 3D Columnn (Трехмерная столбцовая), 3D Bar (Трехмерная гистограмма).

Столбцовая диаграмма и различные ее варианты служат для сравнения нескольких величин в нескольких точках, но также могут быть использованы и для сравнения нескольких величин в одной точке, как в предыдущем примере (см. рис. 5.86).

Как следует из названия, столбцовая диаграмма состоит из столбиков, высота которых соответствует значениям сравниваемых величин, в примере 1 высота столбиков определяется количеством собранных грибов. Каждый столбик привязан к некоторой опорной точке. В примере 1 опорная точка соответствует наименованию гриба, сколько наименований (4), столько и столбиков (см. рис. 5.86).

Рассмотрим задачу, для решения которой круговая диаграмма не годится. В примере 2 требуется несколько раз сравнивать несколько величин.

Пример 2. Предположим, к дяде Федору по сбору грибов присоединились его друзья: кот Матроскин и пес Шарик, данные приведены в таблице (рис. 5.87). Построить диаграмму, в которой отражены результаты всех сборщиков.


Высота столбца отражает, как и в примере 1, количество собранных грибов, по-прежнему остается 4 опорных точки, но в отличие от примера 1, в каждой опорной точке расположено не по одному столбцу, а по три (один столбик для каждого сборщика). Все столбики одного сборщика будут закрашены одним цветом. Для построения диаграммы следует выделить диапазон А1:Е4 (см. рис. 5.87), на рис. 5.87 использован тип диаграммы Column (Столбцовая).

Линейная диаграмма

Линейная диаграмма (Line ) предназначена для того, чтобы проследить за изменениями нескольких величин при переходе от одной точки к другой.

Пример 3. Построить линейную диаграмму на основе таблицы из примера 2, отражающую изменение количества собранных грибов в зависимости от их вида.

Опорных точек по-прежнему остается четыре по числу разновидностей грибов. Количество собранных грибов отмечается на графике метками, соединенными друг с другом отрезками. В результате чего график представляет собой ломаную линию, состоящую из нескольких отрезков, отсюда данный вид диаграмм так и называется - линейная. Диаграмма, изображенная на рис. 5.88, содержит три линии, каждая из которых соответствует одному сборщику. Линии отличаются друг от друга: цветом, толщиной, типом штриха, маркерами.

Диаграмма площадей

Диаграмма площади представляет гибрид линейной и столбцовой диаграмм, нагляднее отражает сравнение нескольких величин в одной точке.

Пример 4. Построить диаграмму площади на основе таблицы из примера 1, отражающую сбор дяди Федора.

Если на вершинах столбцов, приведенных на рис. 5.86, отметить точки, соединить их отрезками и полученную площадь закрасить каким-либо цветом, то получится диаграмма площади, представленная на рис. 5.88. Для отображения нескольких сборщиков этот вид диаграммы не информативен.

Numbers предлагает два варианта диаграммы площади: Area (Площадь) и ее объемный вариант 3D Area (Трехмерная площадь).


Многоярусные диаграммы

Многоярусная диаграмма позволяет наглядно сравнить суммы нескольких величин в нескольких точках, и при этом показать вклад каждой величины в общую сумму.

Пример 5. Построить многоярусные диаграммы на основе таблицы из примера 2.

Numbers предлагает шесть вариантов многоярусной диаграммы: Stacked Column (Многоярусные столбцы) и ее объемный вариант 3D Stacked Column (Трехмерные многоярусные столбцы), Stacked Bar (Многоярусная гистограмма) и 3D Stacked Bar (Трехмерная многоярусная гистограмма), Stacked Area (Многоярусная площадь) и 3D Stacked Area (Трехмерная многоярусная площадь).

Однако, круговая диаграмма не всегда обеспечивает необходимую наглядность представления информации. Во-первых, на одном круге может оказаться слишком много секторов. Во-вторых, все сектора могут быть примерно одинакового размера. Вместе эти две причины делают круговую диаграмму малополезной.

2.Столбчатая диаграмма (гистограмма)- Служит для сравнения нескольких величин в нескольких точках.

Столбчатые диаграммы (как и следует из названия) состоят из столбиков. Высота столбика определяется значениями сравниваемых величин . Каждый столбик привязан к опорной точке .

3.Линейная диаграмма (график)- Служит для того, чтобы проследить за изменениями нескольких величин при переходе от одной точки к другой.

Построение линейной диаграммы аналогично построению столбчатой. Но вместо столбиков просто отмечается их высота (точками, черточками, крестиками) и полученные отметки соединяются прямыми линиями. Вместо разной штриховки (закраски столбиков) используются разные отметки (ромбики, треугольники, крестики и т.д.), разная толщина и тип линий (сплошная, пунктирная и пр.), разный цвет.

4. Ярусная диаграмма (гистограмма с накоплением)- Позволяет наглядно сравнить суммы нескольких величин в нескольких точках, и при этом показать вклад каждой величины в общую сумму.

Порядок построения ярусной диаграммы очень напоминает порядок построения диаграммы столбчатой. Разница в том, что столбики в ярусной диаграмме ставятся не рядом друг с другом, а один на другой. Соответственно меняются правила расчета вертикального и горизонтального размера диаграммы.

5. Областная диаграмма (диаграмма площадей)- Гибрид ярусной диаграммы с линейной позволяет одновременно проследить изменение каждой из нескольких величин и изменение их суммы в нескольких точках.

Отдельные столбики сливаются, образуя непрерывные области. Отсюда и название – диаграмма областей или диаграмма площадей. Каждая область соответствует какой-то одной величине, для указания на которую используется различная штриховка (раскраска). Раньше ярусами располагались столбики, теперь – линии (и очерченные ими площади).

    Форматирование ячеек. Формат чисел в Microsoft Excel.

Форматирование в Excel применяется для облегчения восприятия данных, что играет немаловажную роль в производительности труда.

Для того чтобы назначить формат нужно выполнить следующее:

2. Выберать команду "Формат"-"Ячейки" (Ctrl+1).

3. В появившемся окне диалога ввести нужные параметры форматирования.

4. Нажать кнопку "Ок".

Форматированная ячейка сохраняет свой формат, пока к ней не будет применен новый формат или не удален старый. При вводе значения в ячейку к нему применяется уже используемый в ячейке формат.

Для того чтобы удалить формат нужно выполнить следующее:

1. Выделить ячейку (диапазон ячеек).

2. Выберать команду "Правка"-"Очистить"-"Форматы".

3. Для удаления значений в ячейках надо выбрать команду "Все" подменю "Очистить".

Следует учитывать, что при копировании ячейки наряду с ее содержимым копируется и формат ячейки. Таким образом, можно сберечь время, форматируя исходную ячейку до использования команд копирования и вставки

Форматирование можно также производить с помощью панелей инструментов. Наиболее часто используемые команды форматирования вынесены на панель инструментов "Форматирование". Чтобы применить формат с помощью кнопки панели инструментов, выделите ячейку или диапазон ячеек и затем нажмите кнопку мышью. Для удаления формата надо нажать кнопку повторно .

Для быстрого копирования форматов из выделенных ячеек в другие ячейки можно использовать кнопку "Формат по образцу" панели "Форматирование"

Форматирование можно применять к отдельным символам текстового значения в ячейке так же, как и ко всей ячейке. Для этого необходимо выделить нужные символы и затем в меню "Формат" выберать команду "Ячейки". Далее установить нужные атрибуты и нажать кнопку "Ок". Нажать клавишу Enter, чтобы увидеть результаты своего труда.

Настройка формата чисел в Excel

Так как программа Excel предназначена для обработки чисел, важную роль играет правильная настройка их формата. Для человека число 10 - это просто единица и ноль. С точки зрения Excel эти две цифры могут нести совершенно разную информацию в зависимости от того, обозначают ли они количество работников компании, денежную величину, процентную часть целого или фрагмент заголовка «10 ведущих фирм». Во всех четырех ситуациях это число должно отображаться и обрабатываться по-разному. Excel поддерживает следующие форматы данных:

* Общий - текст и числовые значения произвольного типа; * Числовой - наиболее общий способ представления чисел; * Денежный - денежные величины; * Финансовый - денежные величины с выравниванием по разделителю целой и дробной частей; * Дата - дата или дата и время; * Время - время или дата и время; * Процентный - значение ячейки, умноженное на 100 с символом «%» в конце; * Дробный - рациональные дроби с числителем и знаменателем; * Экспоненциальный - десятичные дробные числа; * Текстовый - текстовые данные отображаются точно так же, как вводятся и обрабатываются строки, вне зависимости от их содержимого; * Дополнительный - форматы для работы с базами данных и списками адресов; * Заказной - формат, настраиваемый пользователем.

Наиболее распространенные варианты формата данных можно назначать с помощью панели инструментов Форматирование.

1. Щелкните на ячейке С4, а затем на кнопке Процентный формат . Величина клетки С4 будет умножена на 100, и к ней добавится знак «%».

Рис. 9.14. Вкладка выбора формата данных

2. Нажмите клавишу вниз и щелкните на кнопке Денежный формат .

3. Щелкните на ячейке Сб, а затем на кнопке Формат с разделителями . Эта кнопка заставляет числа выравниваться в столбце по разделителю целой и дробной частей.

4. Выделите ячейку С7 и щелкните на кнопке Увеличить разрядность . Эта кнопка не изменяет основной формат, но добавляет один знак в дробной части числа.

5. Нажмите клавишу Enter и щелкните на кнопке Уменьшить разрядность . Эта операция убирает один знак дробной части и округляет число. Теперь ячейки с С4 по С9 выглядят совершенно по-разному, хотя исходно в них были введены совершенно одинаковые числа. Другие форматы назначаются с помощью следующих действий.

6. Щелкните на ячейке С10 и выберите команду Формат > Ячейки .

7. В открывшемся окне диалога раскройте вкладку Число (рис. 9.14).

8. В списке Числовые форматы щелкните на пункте Дата .

9. В появившемся списке Тип щелкните на строке 14 мар 01 (14-Mar-01). Затем щелкните на кнопке ОК .

Рис. 9.15. Различные форматы чисел

10. Аналогичным образом назначьте ячейке С11 формат Экспоненциальный, а ячейке С12 - формат Числовой. Теперь таблица будет выглядеть так (рис. 9.15). Обратите внимание, что среднее значение таблицы не изменилось, то есть при смене формата изменяется только способ отображения, а сами числовые значения остаются неизменными. Для проверки этого факта выполните следующие шаги.

11. Дважды щелкните на ячейке С11 и измените величину 03.01.1900 на 03.02.1900.

12. Нажмите клавишу Enter. Среднее значение таблицы (которое выводится в денежном формате) моментально изменится на 15.41р. Как войдите, можно суммировать даты с процентами и в результате получать рубли. Это типичный пример неверного назначения форматов данных.

    Защита листа. Защита ячеек в Microsoft Excel.

    Автоформаты и стили в Microsoft Excel.

    Использование условного форматирования в Microsoft Excel.

    Создание списка и формы данных в Microsoft Excel. Требования к оформлению списка.

    Сортировка и фильтрация данных в Microsoft Excel (автофильтр, расширенный фильтр).

    Группирование и структуирование данных в Microsoft Excel.

    Автоматические итоги: создание итоговой таблицы, отражение на экране итогов в разрезе одной или нескольких групп записей.

    Создание сводной таблицы в Microsoft Excel.(в тетради)

    Связывание и консолидация данных. (в тетради)

    Понятия теории баз данных. Принципы организации данных.

    Иерархическая и сетевая модели организации данных.

    Реляционная модель организации данных. Нормальные формы.

    Понятия систем управления БД (СУБД) и их назначение.

    Профессиональные системы управления базами данных (СУБД).

    Назначение, порядок работы, создание баз данных СУБД MS Access.

    Таблицы БД MS Access: назначение, структура, варианты создания.

    Типы данных и свойства полей СУБД MS Access.

    Понятие домена, атрибута, ключа реляционной базы данных.

    Создание структуры связей между таблицами БД.

    Виды отношений и ограничения в СУБД MS Access.

    Понятия, назначение и свойства форм.

    Варианты создания форм. Использование мастера форм.

    Работа с конструктором форм. Разделы формы.

    Использование выражений и вычисляемых полей.

    Типы элементов управления формами.

    Назначение, виды и варианты создания запросов.

    Порядок работы с конструктором запросов.

    Фильтрация и сортировка данных в запросах.

    Использование операторов и условий в запросах.

    Создание вычисляемых полей, объединений в запросах.

    Порядок работы с многотабличными запросами.

    Итоговые запросы. Групповые операции в MS Access.

    Изменение информации при помощи модифицирующих запросов.

    Назначение и способы создания отчетов MS Access.

    Использование мастера для создания отчета.

    Работа с конструктором отчетов.

    Группировка данных и промежуточные результаты в отчетах.

    Макросы в Access и их конструирование.

    Защита информации в базах данных.

    Классификация компьютерных сетей. Понятие сервера, рабочих станций.

    Программное обеспечение для работы в локальных сетях и в Интернете.

    Обмен данными в сетях, протоколы. Сетевое оборудование. Связи между сетями. Беспроводные сети.

    Интернет, структура сети, основные понятия. Сервисы Интернета.

    Принципы информационного поиска.

    Индексирование и механизм поиска.

    Схема информационно-поисковой системы. Стратегии поиска. Интерфейс.

    Антивирусные программы и их классификация.

    Основы защиты информации и сведений, составляющих государственную тайну.

    Способы защиты программ и данных.

    Аппаратное обеспечение средств защиты.

Параметрические критерии, которые мы рассматривали до сих пор, основаны на том, что сравниваемые выборки можно охарактеризовать двумя параметрами: средним и стандартным отклонением (или какой-то иной мерой изменчивости). А что делать, если распределение в выборках (или, точнее, в той генеральной совокупности, откуда были получены эти выборки) является совсем иным?

Если численность каждой из сравниваемых выборок достаточно велика (больше ста), параметрические критерии можно использовать все равно. Какое бы распределение ни имели эти выборки, их средние "ведут себя" примерно так же, как средние выборок с нормальным распределением. Однако если численность выборок более низкая, следует использовать непараметрические критерии.

Например, непараметрическим аналогом t-критерия Стьюдента является U-критерий Манна-Уитни. Критерий Стьюдента построен на основе распределения, которое описывает отклонения среднего значения выборки определенной численности вокруг генеральной средней нормально распределенной величины . Чем сильнее отклонение от , тем ниже вероятность того, что оно получилось в силу случайности при формировании выборки. А как действовать, если мы ничего не знаем о характере распределения генеральных совокупностей?

Рассмотрим достаточно простой пример, поясняющий, как работает большая группа непараметрических методов, - ранговые критерии . У нас есть две выборки. Расположим их элементы в порядке возрастания: первая - a1, a2, a3, a4, a5; вторая - b1, b2, b3, b4, b5, b6. Составим из элементов этих выборок общий ряд, построенный в порядке возрастания их значений. Сравним три разных случая:
№ 1: a1, a2, a3, a4, a5, b1, b2, b3, b4, b5, b6;
№ 2: a1, a2, a3, a4, b1, a5, b2, b3, b4, b5, b6;
№ 3: b1, a1, b2, a2, b3, a3,b4, b5, a4, a5, b6.

В случае № 1 все элементы одной выборки расположены с одной стороны общего ряда, а все элементы другого ряда - с другой стороны. В случае № 2 одной перестановки (элементов b1 и a5) было бы достаточно, чтобы порядок элементов стал, как в случае № 1. Наконец, в случае № 3 элементы двух выборок перепутаны, и чтобы выстроить их в ряд, где будут сначала стоять одни, а потом - другие, надо сделать 5 перестановок. Нам нужно выбрать между альтернативной гипотезой (согласно которой выборки a и b взяты из разных совокупностей) и нулевой гипотезой (согласно которой эти выборки взяты из одной совокупности). Одинаковы ли вероятности альтернативной и нулевой гипотез для показанных нами трех разных случаев? Нет; альтернативная гипотеза более вероятна в первом случае, а нулевая - в третьем.

Идея рангового непараметрического критерия состоит в том, что мы можем использовать количество необходимых перестановок как меру для оценки нулевой и альтернативной гипотезы. Конкретные величины, которые высчитываются при применении непараметрических критериев, оказываются иными, но логика сравнения примерно соответствует рассмотренному нами примеру.

Итак, благодаря применению остроумных подходов, для параметрических методов сравнения выборок подобраны их непараметрические аналоги (табл. 4.8.1). Чаще всего непараметрические методы обладают меньшей мощностью (т.е. чаще отвергают альтернативную гипотезу в той ситуации, когда она на самом деле верна), но зато позволяют работать с разнообразно распределенными данными и менее чувствительны к малой численности сравниваемых выборок.

Таблица 4.8.1. Непараметрические аналоги параметрических методов

Тип сравнения

Параметрические методы

Непараметрические методы

Сравнение значений величины в двух независимых выборках

t-критерий Стьюдента;
Дисперсионный анализ (ANOVA)

U-критерий Манна-Уитни ;
Критерий серий Вальда-Вольфовица;
Двухвыборочный критерий Колмогорова-Смирнова

Сравнение значений величины в двух зависимых выборках

t-критерий Стьюдента для парных сравнений

Критерий знаков
Критерий Вилкоксона

Сравнение значений величины в нескольких независимых выборках

Дисперсионный анализ (ANOVA)

Ранговый дисперсионный анализ Краскела-Уоллиса ;

Медианный тест

4.9. U-критерий Манна-Уитни

Чтобы рассмотреть применение критерия Манна-Уитни на нашем файле-примере Pelophylax_example.sta нам придется использовать несколько искуственный пример. В качестве примера величины, распределение которой сильно отличается от нормального, мы можем использовать признак, который называется DNA - содержание ДНК на клетку (в пикограммах, пг), измеренное с помощью проточной ДНК-цитометрии.

Рис. 4.9.1. Признак "DNA" имеет распределение, резко отличающееся от нормального

Выясним, отличаются ли по значению этого признака самки и самцы Pelophylax esculentus . Чтобы воспользоваться критерием Манна-Уитни перейдем в меню Statistics / Nonparametrics. Обратите внимание на пиктограммы в меню: они соответствуют тем, которые используются для аналогичных сравнений с помощью t-теста.

Рис. 4.9.2. U-критерий Манна-Уитни вычисляется здесь

В диалоговом окне надо указать зависимую (Dependent) и группирующую (Grouping) переменные; если группирующая переменная имеет более двух значений, надо выбрать те два значения, которым будут соответствовать сравниваемые выборки. Чтобы выбрать только представителей Pelophylax esculentus , воспользуемся окошком Select cases и используем текстово-цифровые обозначения, введенные в пункте 3.1, при описании файла-примера.

Рис. 4.9.3. Установки, выбираемые для описываемого сравнения

Вы можете увидеть, что Statistica вычисляет все три упомянутых в табл. 4.9.1. критерия, которые используются для сравнения двух независимых выборок, но "рекомендует" (запускает с кнопки, расположенной в левом верхнем углу) критерий Манна-Уитни. Вычислим его и убедимся, что отличия между самками и самцами по количеству ДНК, приходящемуся на клетку, статистически незначимы.

Рис. 4.9.4. Результат сравнения по Манну-Уитни

Если нас не интересует односторонний критерий, целесообразно использовать значение p, вычисленное с поправкой (то, которое находится после столбца "Z adjusted, т.е. 0,906780). Эта поправка повыщает мощность критерия в случае выборок, численность которых превышает 20. Так или иначе, никакой сколь-нибудь существенной разницы между самцами и самками не обнаружено.

Использованный нами диалог для сравнения по Манну-Уитни предусматривает возможность построения коробчатых графиков. Поскольку мы используем непараметрический метод, на графике не тражаются параметры выборки (например, ее среднее значение), а используются непараметрические меры - медиана и квартили (значения, "отрезающие" по четвертой части распределения).

Рис. 4.9.5. Графическое сравнение распределений значения признака DNA для самок и самцов Pelophylax esculentus

Может показаться странным, почему первая (от Min до 25%) и последняя (от 75% до Max) четверти настолько уже, чем вторая и третья? Чтобы это понять, построим категоризованную гистограмму.

Рис. 4.9.6. Гистограмма, показывающая распределения значения признака DNA, зарегистрированные для самок и самцов Pelophylax esculentus

Становится понятно, что удивившее нас свойство показанных на предыдущем рисунке распределений является следствием бимодальности рассматриваемого нами признака.

4.10. Критерий знаков для парных сравнений

В нашем файле-примере Pelophylax_example.sta отсутствуют данные, которые требуют сравнения значений двух связанных выборок, поэтому мы создадиим их искусственно. Представим себе, что выборку из 25 лягушек измерили два человека. Их результаты измерений находятся в столбцах First и Second. Размерное распределение в данной выборке изначально было далеким от нормального.

Рис. 4.10.1. Распределение размеров лягушек (в 0,1 мм) по данным измерений, выполненных двумя людьми на одном и том же материале

Тем не менее, для многих из лягушек результаты измерений, сделанных первым и вторым исследователем, отличаются. Наша задача - установить, одинаково ли измеряют длину лягушек два исследователя. Для поиска ответа на этот вопрос воспользуемся критерием знаков.

Рис. 4.10.2. Использование критерия знаков для сравнения результатов измерений, сделанных двумя разными исследователями

Критерий знаков попросту определяет долю случаев, в которых значение из одной выборки больше, чем значение из другой выборки.

Рис. 4.10.3. Отличия статистически значимы!

Мы можем установить, что второй исследователь статистически значимо чаще завышал результаты измерений по сравнению с первым исследователем.

Сравним полученный результат с результатом от использования параметрического метода - t-критерия для парных выборок.

Рис. 4.10.4. Параметрический метод дал тот же результат, но с несколько большей надежностью

Более низкое значение p, определенное с помощью параметрического критерия, вполне согласуется с упомянутым выше фактом, что параметрические методы обладают большей мощностью, чем непараметрические. Но правомочно ли мы использовали параметрический критерий? На самом деле, правомочно. Парные сравнения рассматривают не совокупность значений в первой и второй выборке, а разницу по каждому элементу между первой и второй выборкой. Построим распределение разницы между выборками First и Second.

Рис. 4.10.5. Распределение разницы между измерениями двух исследователей

Можно увидеть, что отклонение распределения разницы между двумя измерениями от нормального является статистически незначимым. Использование параметрического теста было вполне правомочным.

А могли ли мы использовать методы для сравнения независимых выборок? В случае сравнения независимых выборок то, что распределение интересующих нас величин сильно отличается от нормального, оказывается важным. Таким образом, мы должны использовать не t-критерий, а U-критерий. Для того, чтобы использовать U-критерий Манна-Уитни, файл с данными придется перестроить: все измерения должны находиться в одном столбце, а второй столбец станет группирующим.

Рис. 4.10.6. По Манну-Уитни результаты измерений, выполненных двумя разными людьми, не отличаются

Как пояснить такое отличие? Как и во многих других случаях, первое, что нужно сделать в случае какого-то непонимания - надо посмотреть на распределение интересующих нас величин.

Рис. 4.10.7. Распределения результатов измерений, выполненных двумя людьми, практически одинаковы. Но, все-таки, как свидетельствует рис. 4.10.3, для 75% лягушек результаты измерения второго исследователя оказываются большими, чем результаты измерения первого исследователя!

Конечно, полученный результат вполне закономерен. Используя критерий Манна-Уитни вместо критерия знаков (или критерия Вилкоксона), мы утратили важнейшую информацию, характеризующую закономерности изменений рассматриваемой нами величины.

Кстати, использованные нами данные были сгенерированы искусственно. Столбец First был фрагментом из файла Pelophylax_example.sta, куда попали в основном самые мелкие и самые крупные особи, а столбец Second был получен с помощью формулы =Trunc(First-2,4+Rnd(8)). Вам ведь понятно, что и как "делает" эта формула?

4.11. Ранговый дисперсионный анализ Краскела-Уоллиса

До нестоящего времени мы использовали только попарные сравнения выборок. Сейчас мы рассмотрим метод, позволяющий сравнивать друг с другом одновременно несколько выборок. Тест Краскела-Уоллиса является непараметрическим аналогом дисперсионного анализа (ANOVA), который подробно обсуждается в следующем разделе нашего пособия. С вычислительной точки зрения он является многомерным обобщением теста Манна-Уитни. Хотя тест Краскела-Уоллиса в некоторых отношениях и уступает дисперсионному анализу (например, в том, что не позволяет одновременно оценивать действия двух или большего количества факторов), он является мощным инструментом, который оказывается пригодным для решения многих задач.

Покажем действие теста Краскела-Уоллиса на примере нашего файла Pelophylax_example.sta (см. пункт 3.1). Нам надо выяснить, отличаются ли представители разных генотипов по длине внутреннего пяточного бугра статистически значимо. Это вполне осмысленная задача, ведь размер и форма внутреннего пяточного бугра являются важным диагностическим признаком, полезным для определения разных форм зеленых лягушек.

Рис. 4.11.1. Обратите внимание на выделенную пиктограмму, соответствующую сравнению нескольких независимых групп

Естественно, что зависимой переменной является длина пяточного бугра (Ci), а группирующей - генотип.

Рис. 4.11.2. Установки выбраны. Если надо сравнивать не все значения группирующей переменной, следует воспользоваться диалогом, который вызывает кнопка Code

Нажав на кнопку Summary, вы получите результаты сразу двух тестов: непараметрического дисперсионного анализа Краскела-Уоллиса и медианного теста, который основан на методе Пирсона. Использование подробнее обсуждается в одной из следующих глав данного пособия, а здесь достаточно сказать, что этот метод используется для непараметрического сравнения распределений. Если распределения зависимой величины для разных групп, выделенных по значению группирующего признака, оказываются различными, это свидетельствует о том, что группирующая и зависимая переменная связаны. Метод же Краскела-Уолиса, как вы помните, относится к ранговым непараметрическим методам. Эти два метода работают по разным принципам и часто дают достаточно сильно отличающиеся результаты.

Рис. 4.11.3. Оба метода демонстрируют статистически значимое влияние группирующей переменной на зависимую переменную. Метод Краскела-Уоллиса дает p=0,0047, а медианный тест - p=0,0112

Обратите внимание: в силу какого-то непонятного снобизма в некоторых окнах программы Statistica 0 перед десятичным разделителем (при используемых настройках операционной системы - запятой) не ставится.

Нажав на кнопку Multiple comparisons of mean ranks for all groups можно получить результаты попарного сравнения всех групп. Фактически, это эквивалентно выполнению сравнения по Манну-Уитни для всех возможных пар групп. Программа при этом выводит два окна: значения величины z, используемой в вычислениях по Манну-Уитни, и расчитанный для каждой пары уровень статистической значимости различий.

Рис. 4.11.4. Попарные сравнения групп в диалоге теста Краскела-Уоллиса эквивалентны множественным сравнениям с помощью критерия Манна-Уитни

Обратите внимание на то, что при проведении множественных сравнений появляется опасность совершить статистическую ошибку I рода (принять альтернативную гипотезу в то время, когда верна нулевая). Чтобы избежать этой опасности, следует использовать описанную выше поправку на множественные сравнения.

Наконец, кнопка Box & whisker позволяет зримо сравнить распределения разных групп.

Рис. 4.11.5. Сравнение распределений длины пяточного бугра у представителей разных генотипов

Еще одна из "графических" кнопок обсуждаемого диалога позволяет построить категоризованные гистограммы для сравниваемых групп; с точки зрения автора, этот способ вывода результатов является менее наглядным.

2

Я слушал лекцию по измерению производительности компьютера, и профессор дал аналогию с измерением производительности самолетов. Он показал таблицу, которая содержала различные параметры различных летательных аппаратов, таких как:

Aircrafts: Passenger Capcity Speed Concord 132 1350 mph DC9 146 544 mph

тогда он задавал вопросы от студентов, что «Насколько быстрее Конкорд по сравнению с DC9 ?». Затем он объяснил это более чем в 2 раза. Мой вопрос: почему он использовал Дивизион для сравнения двух значений, а не вычитания? Я знаю его очень фундаментальный вопрос, но, пожалуйста, извините мою некомпетентность за это.

0

Иногда вам приходится использовать соотношение для описания явлений, например, вероятность выигрыша игры. Иногда это необязательно, как в вашем случае. Вы можете найти это интересно: https: //en.wikipedia.org/wiki/Relative_change_and_difference - NoChance 06 мар. 16 2016-03-06 17:40:56

  • 2 ответа
  • Сортировка:

    Активность

0

Я разместил тот же вопрос на Dr.Maths и получил следующий ответ, который, на мой взгляд, более точный и подробный.

Ask yourself which would be more meaningful to you: The Concord is 806 mph faster than the DC9. The Concord is 2.5 times as fast as the DC9. If you have no idea how fast the DC9 is, the first statement would be nearly meaningless -- you can"t tell whether it"s just a small improvement (from, say 100,000 mph to 100,806 mph!) or a huge improvement (from 10 mph to 816 mph). I"m exaggerating to make a point: interpreting the significance of the number depends on having at least some knowledge of related numbers. The ratio, on the other hand, requires no such knowledge. Also, and perhaps even more important, the ratio will be the same regardless of the units used. We don"t need to know whether the speeds were measured in mph or kph or inches per second. In effect, the ratio amounts to using the DC9 itself as a unit of measurement -- the Concord flies at 2.5 DC9"s. The same is probably true in comparing computer speeds. Who knows, these days, what is a good speed? But anyone can tell that twice as fast is a lot better. This is something we can visualize a lot better than nanoseconds or gigabytes!

1

Рассмотрите ситуацию - я съел $1000$ яблок. Мой друг съел яблоки на $1050$ .

Два statements- Мой друг съел $50$ яблок больше, чем я от разницы, Мой друг съел $1,05$ раз количество яблок, как мне из соотношения.

Рассмотрим другую ситуацию, когда я ел $100$ яблоки и мой друг $105$

Два заявления будет Мой друг съел $5$ яблоки больше, чем меня и
Мой друг съел $1,05$ раза больше яблок, как мне

Третий Я ел с ситуациями $1$ яблоко, мой друг ел $51$

два заявления - Мой друг съел $50$ яблок более-й МЭ и
Мой друг съел $51$ раз количество яблок, как мне

Заключение - Нам нужно как разность и отношение четко знать ситуацию. Однако мы используем разные вещи в разных сценариях, которые, как я надеюсь, ясны из приведенного выше примера.



Понравилась статья? Поделитесь ей