Newcomposers.ru

IT Мир
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Мода в excel формула

Мода в EXCEL

Для вычисления моды выборки в MS EXCEL существует специальная функция МОДА() . Вычислим моду для заданного распределения случайной величины.

Мода , наряду со средним значением и медианой , является показателем, характеризующим типичное или «центральное» значение в выборке (массиве, множестве чисел).

Мода – это наиболее часто встречающееся (повторяющееся) значение в выборке . Для вычисления моды в MS EXCEL используется функция МОДА() , английский вариант MODE(). Вычисление моды выборки подробно рассмотрено в статье Описательная статистика в MS EXCEL . В этой статье сосредоточимся на вычислении моды для заданного распределения непрерывной случайной величины.

Мода распределения непрерывной случайной величины

Чтобы определить моду распределения непрерывной случайной величины необходимо вычислить максимум соответствующей функции плотности распределения .

Примечание : Подробнее о функции плотности распределения см. статью Функция распределения и плотность вероятности в MS EXCEL .

В статье о распределениях MS EXCEL приведены ссылки на распределения, для которых в MS EXCEL существуют специальные функции ( Нормальное распределение , Гамма-распределение , Экспоненциальное и др.). Используя эти функции в MS EXCEL можно вычислить моду соответствующего распределения.

В качестве примера вычислим моду для Логнормального распределения (см. файл примера ).

С помощью функции ЛОГНОРМ.РАСП() построим график Функции распределения и плотности вероятности .

Настроим Поиск решения , чтобы вычислить значение случайной величины (х), при котором функция плотности вероятности достигает максимума, т.е. вычислим моду .

Целевую функцию =ЛОГНОРМ.РАСП(P8;B8;B9;ЛОЖЬ) разместим в ячейке P9 . Эта функция с 4-м аргументом равным ЛОЖЬ вернет плотность вероятности . Нам нужно найти значение x (первый аргумент функции ЛОГНОРМ.РАСП() ), при котором значение целевой функции максимально. Найденное значение х и будет модой .

В ячейках B8 и B9 введем параметры Логнормального распределения . В ячейке P8 разместим значение х — переменную, которую Поиск решения будет изменять, чтобы максимизировать целевую функцию.

Диалоговое окно для настройки Поиска решения будет выглядеть так (в MS EXCEL 2010):

После нажатия кнопки Найти решение Поиск решения подберет значение в ячейке P8 , при котором результат формулы =ЛОГНОРМ.РАСП(P8;B8;B9;ЛОЖЬ) примет максимальное значение. Чтобы найти моду для Логнормального распределения с другими параметрами, измените их в ячейках B8 и B9 , а затем перезапустите Поиск решения .

Найденное значение моды можно сравнить со значением моды, вычисленным аналитически с помощью формулы =EXP(B8-B9*B9) . Аналогичным образом можно вычислить моду для других распределений. Для этого нужно заменить целевую функцию. Например, для нормального распределения используйте функцию =НОРМ.РАСП(P8;B8;B9;ЛОЖЬ) .

Функция МОДА

Предположим, что вы хотите узнать наиболее общее количество форельов, которые просматриваются при выборке значений счетчика с высоты, определенного за 30-летним периодом, или вы хотите узнать наиболее часто встречающееся количество телефонных звонков в центре поддержки по телефону нерабочее время. Чтобы вычислить режим группы чисел, используйте функцию режим.

MODE возвращает наиболее часто встречающееся или повторяющееся значение в массиве или диапазоне данных.

Важно: Эта функция была заменена одной или несколькими новыми функциями, которые обеспечивают более высокую точность и имеют имена, лучше отражающие их назначение. Хотя эта функция все еще используется для обеспечения обратной совместимости, она может стать недоступной в последующих версиях Excel, поэтому мы рекомендуем использовать новые функции.

Дополнительные сведения о новых функциях см. в разделах Функция МОДА.НСК и Функция МОДА.ОДН.

Синтаксис

Аргументы функции МОДА описаны ниже.

Число1 Обязательный. Первый числовой аргумент, для которого требуется вычислить моду.

Число2. Необязательный. От 1 до 255 числовых аргументов, для которых вычисляется мода. Вместо аргументов, разделенных точкой с запятой, можно воспользоваться массивом или ссылкой на массив.

Замечания

Аргументы могут быть либо числами, либо содержащими числа именами, массивами или ссылками.

Если аргумент, который является массивом или ссылкой, содержит текст, логические значения или пустые ячейки, эти значения игнорируются; ячейки, содержащие нулевые значения, учитываются.

Аргументы, которые являются значениями ошибки или текстами, не преобразуемыми в числа, приводят к возникновению ошибок.

Если множество данных не содержит одинаковых данных, функция МОДА возвращает значение ошибки #Н/Д.

Функция МОДА измеряет центральную тенденцию, которая является центром множества чисел в статистическом распределении. Существует три наиболее распространенных способа определения центральной тенденции:

Среднее значение — это среднее арифметическое, которое вычисляется путем сложения набора чисел с последующим делением полученной суммы на их количество. Например, средним значением для чисел 2, 3, 3, 5, 7 и 10 будет 5, которое является результатом деления их суммы, равной 30, на их количество, равное 6.

Медиана — это число, которое является серединой множества чисел, то есть половина чисел имеют значения большие, чем медиана, а половина чисел имеют значения меньшие, чем медиана. Например, медианой для чисел 2, 3, 3, 5, 7 и 10 будет 4.

Мода — это число, наиболее часто встречающееся в данном наборе чисел. Например, модой для чисел 2, 3, 3, 5, 7 и 10 будет 3.

Читать еще:  Excel на планшете андроид

При симметричном распределении множества чисел все три значения центральной тенденции будут совпадать. При смещенном распределении множества чисел значения могут быть разными.

Пример

Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.

Мода в статистике

В статистике есть целый набор показателей, которые характеризуют центральную тенденцию. Выбор того или иного индикатора в основном зависит от характера данных, целей расчетов и его свойств.

Что подразумевается под характером данных? Прежде всего, мы говорим о количественных данных, которые выражены в числах. Но набор числовых данных может иметь разное распределение. Под распределением понимаются частоты отдельных значений. К примеру, в классе из 23 человек 2 школьника написали контрольную работу на двойку, 5 – на тройку, 10 – на четверку и 6 – на пятерку. Это и есть распределение оценок. Распределение очень наглядно можно представить с помощью специальной диаграммы – гистограммы. Для данного примера получится следующая гистограмма.

Во многих случаях количество уникальных значений намного больше, а распределение похоже на нормальное. Ниже приведена примерная иллюстрация нормального распределения случайных чисел.

Итак, центральная тенденция. Если частоты анализируемых значений распределены по нормальному закону, то есть симметрично вокруг некоторого центра, то центральная тенденция определяется вполне однозначно – это есть тот самый центр, и математически он соответствует средней арифметической.

Как нетрудно заметить, в этом же центре находится и максимальная частота значений. То есть при нормальном распределении центральная тенденция есть не только средняя арифметическая, но и максимальная частота, которая в статистике называется модой или модальным значением.

На диаграмме оба значения центральной тенденции совпадают и равны 10.

Но такое распределение встречается далеко не всегда, а при малом числе данных – совсем редко. Чаще бывает так, что частоты распределяются асимметрично. Тогда мода и среднее арифметическое не будут совпадать.

На рисунке выше среднее арифметическое по-прежнему составляет 10, а вот мода уже равна 9. Что в таком случае считать значением центральной тенденции? Ответ зависит от поставленных целей анализа. Если интересует уровень, сумма отклонений от которого равна нулю со всеми вытекающим отсюда свойствами и последствиями, то это средняя арифметическая. Если нужно максимально частое значение, то это мода.

Итак, зачем нужна мода? Приведу пару примеров. Экономист планово-экономического отдела обувной фабрики интересуется, какой размер обуви пользуется наибольшим спросом. Средний размер обуви, скорее всего, здесь не подойдет, тем более, что число может получится дробным. А вот мода – как раз нужный показатель.

Расчет моды

Теперь посмотрим, как рассчитать моду. Мода – это то значение в анализируемой совокупности данных, которое встречается чаще других, поэтому нужно посмотреть на частоты значений и отыскать максимальное из них. Например, в наборе данных 3, 4, 6, 7, 3, 5, 3, 4 модой будет значение 3 – повторяется чаще остальных. Это в дискретном ряду, и здесь все просто. Если данных много, то моду легче всего найти с помощью соответствующей гистограммы. Бывает так, что совокупность данных имеет бимодальное распределение.

Без диаграммы очень трудно понять, что в данных не один, а два центра. К примеру, на президентских выборах предпочтения сельских и городских жителей могут отличаться. Поэтому распределение доли отданных голосов за конкретного кандидата может быть «двугорбым». Первый «горб» – выбор городского населения, второй – сельского.

Немного сложнее с интервальными данными, когда вместо конкретных значений имеются интервалы. В этом случае говорят о модальном интервале (при анализе доходов населения, например), то есть интервале, частота которого максимальна относительно других интервалов. Однако и здесь можно отыскать конкретное модальное значение, хотя оно будет условным и примерным, так как нет точных исходных данных. Представим, что есть следующая таблица с распределением цен.

Для наглядности изобразим соответствующую диаграмму.

Требуется найти модальное значение цены.

Вначале нужно определить модальный интервал, который соответствует интервалу с наибольшей частотой. Найти его так же легко, как и моду в дискретном ряду. В нашем примере это третий интервал с ценой от 301 до 400 руб. На графике – самый высокий столбец. Теперь нужно определить конкретное значение цены, которое соответствует максимальному количеству. Точно и по факту сделать это невозможно, так как нет индивидуальных значений частот для каждой цены. Поэтому делается допущение о том, что интервалы выше и ниже модального в зависимости от своей частоты имеют разные вес и как бы перетягивают моду в свою сторону. Если частота интервала следующего за модальным больше, чем частота интервала перед модальным, то мода будет правее середины модального интервала и наоборот. Давайте еще раз посмотрим на рисунок, чтобы понять формулу, которую я напишу чуть ниже.

Читать еще:  Не отображать 0 в excel

На рисунке отчетливо видно, что соотношение высоты столбцов, расположенных слева и справа от модального определяет близость моды к левому или правому краю модального интервала. Задача по расчету модального значения состоит в том, чтобы найти точку пересечения линий, соединяющих модальный столбец с соседними (как показано на рисунке пунктирными линиями) и нахождении соответствующего значения признака (в нашем примере цены). Зная основы геометрии (7-й класс), по данному рисунку нетрудно вывести формулу расчета моды в интервальном ряду.

Формула моды имеет следующий вид.

x – значение начала модального интервала,

h – размер модального интервала,

fМо – частота модального интервала,

fМо-1 – частота интервала, находящего перед модальным,

fМо1 – частота интервала, находящего после модального.

Второе слагаемое формулы моды соответствует длине красной линии на рисунке выше.

Рассчитаем моду для нашего примера.

Таким образом, мода интервального ряда представляет собой сумму, состоящую из значения начального уровня модального интервала и отрезка, который определяется соотношением частот ближайших интервалов от модального.

Расчет моды в Excel

В настоящее время большинство вычислений делается в MS Excel, где для расчета моды также предусмотрена специальная функция. В Excel 2013 я таких нашел ажно 3 штуки.

МОДА – пережиток старых изданий Excel. Функция оставлена для совмещения со старыми версиями.

МОДА.ОДН – рассчитывает моду по заданным значениям. Здесь все просто. Вставили функцию, указали диапазон данных и «Ок».

МОДА.НСК – позволяет рассчитать сразу несколько модальных значений (одинаковых максимальных частот) для одного ряда данных, если они есть. Функцию нужно вводить как формулу массива, перед этим выделив количество ячеек равное количеству требуемых модальных значений. Иногда действительно модальных значений может быть несколько. Однако для этих целей предварительно лучше посмотреть на диаграмму распределения.

Моду для интервальных данных одной функцией в Excel рассчитать нельзя. То есть такая функция в готовом виде не предусмотрена. Придется прописывать вручную.

Статистические функции Excel, которые необходимо знать

Функции категории Статистические предназначены в первую очередь для анализа диапазонов ячеек в Excel. С помощью данных функций Вы можете вычислить наибольшее, наименьшее или среднее значение, подсчитать количество ячеек, содержащих заданную информацию, и т.д.

Данная категория содержит более 100 самых различных функций Excel, большая часть из которых предназначена исключительно для статистических расчетов и обычному рядовому пользователю покажется темным лесом. Мы же в рамках этого урока рассмотрим самые полезные и распространенные функции данной категории.

В рамках данной статьи мы не будем затрагивать такие популярные статистические функции Excel, как СЧЕТ и СЧЕТЕСЛИ, для них подготовлен отдельный урок.

СРЗНАЧ()

Статистическая функция СРЗНАЧ возвращает среднее арифметическое своих аргументов.

Данная функция может принимать до 255 аргументов и находить среднее сразу в нескольких несмежных диапазонах и ячейках:

Если в рассчитываемом диапазоне встречаются пустые или содержащие текст ячейки, то они игнорируются. В примере ниже среднее ищется по четырем ячейкам, т.е. (4+15+11+22)/4 = 13

Если необходимо вычислить среднее, учитывая все ячейки диапазона, то можно воспользоваться статистической функцией СРЗНАЧА. В следующем примере среднее ищется уже по 6 ячейкам, т.е. (4+15+11+22)/6 = 8,6(6).

Статистическая функция СРЗНАЧ может использовать в качестве своих аргументов математические операторы и различные функции Excel:

СРЗНАЧЕСЛИ()

Если необходимо вернуть среднее арифметическое значений, которые удовлетворяют определенному условию, то можно воспользоваться статистической функцией СРЗНАЧЕСЛИ. Следующая формула вычисляет среднее чисел, которые больше нуля:

В данном примере для подсчета среднего и проверки условия используется один и тот же диапазон, что не всегда удобно. На этот случай у функции СРЗНАЧЕСЛИ существует третий необязательный аргумент, по которому можно вычислять среднее. Т.е. по первому аргументу проверяем условие, по третьему – находим среднее.

Допустим, в таблице ниже собрана статистика по стоимости лекарств в городе. В одной аптеке лекарство стоит дороже, в другой дешевле. Чтобы посчитать стоимость анальгина в среднем по городу, воспользуемся следующей формулой:

Если требуется соблюсти несколько условий, то всегда можно применить статистическую функцию СРЗНАЧЕСЛИМН, которая позволяет считать среднее арифметическое ячеек, удовлетворяющих двум и более критериям.

Статистическая функция МАКС возвращает наибольшее значение в диапазоне ячеек:

Статистическая функция МИН возвращает наименьшее значение в диапазоне ячеек:

НАИБОЛЬШИЙ()

Возвращает n-ое по величине значение из массива числовых данных. Например, на рисунке ниже мы нашли пятое по величине значение из списка.

Чтобы убедиться в этом, можно отсортировать числа в порядке возрастания:

НАИМЕНЬШИЙ()

Возвращает n-ое наименьшее значение из массива числовых данных. Например, на рисунке ниже мы нашли четвертое наименьшее значение из списка.

Если отсортировать числа в порядке возрастания, то все станет гораздо очевидней:

Читать еще:  Фиксация строки в excel

МЕДИАНА()

Статистическая функция МЕДИАНА возвращает медиану из заданного массива числовых данных. Медианой называют число, которое является серединой числового множества. Если в списке нечетное количество значений, то функция возвращает то, что находится ровно по середине. Если же количество значений четное, то функция возвращает среднее для двух чисел.

Например, на рисунке ниже формула возвращает медиану для списка, состоящего из 14 чисел.

Если отсортировать значения в порядке возрастания, то все становится на много понятней:

Возвращает наиболее часто встречающееся значение в массиве числовых данных.

Если отсортировать числа в порядке возрастания, то все становится гораздо понятней:

Статистическая функция МОДА на данный момент устарела, точнее, устарела ее форма записи. Вместо нее теперь используется функция МОДА.ОДН. Форма записи МОДА также поддерживается в Excel для совместимости.

Как известно, категория Статистические в Excel содержит более 100 самых разноплановых функций. Но, как показывает практика, львиная доля этих функций практически не применяется, а особенно начинающими пользователями. В этом уроке мы постарались познакомить Вас только с самыми популярными статистическими функциями Excel, которые Вы рано или поздно сможете применить на практике. Надеюсь, что данный урок был для Вас полезен. Удачи Вам и успехов в изучении Excel.

4.2.2. МОДА И МЕДИАНА

Мода — наиболее часто встречающееся значение во множестве наблюдений. Если такое значение только одно, распределение называется унимодальным, а если несколько — полимодальным. Изучаемая случайная величина может не иметь моды, в этом случае Excel выдает сообщение об ошибке #Н/Д.

Для вычисления моды в Excel есть несколько встроенных функций:

  • а) МОДА.ОДН и МОД вычисляют моду для унимодального распределения и выдают только одно значение моды, даже если распределение полимодально;
  • б) МОДА.НСК вычисляет моду для полимодального распределения и возвращает вертикальный массив наиболее часто встречающихся значений в указанном диапазоне, т. е. несколько значений моды.

Заметим, что при вычислении моды с помощью «Описательной статистики» используется функция МОДА.ОДН, т. е. выдается только одно значение моды, меньшее по значению. Так в рассмотренном выше примере (см. рис. 4.2) расчетное значение моды равно 8 (см. рис. 4.4), хотя числа 12 и 8 встречаются по три раза.

При вычислении моды рекомендуется сначала использовать функцию МОДА.НСК. Применение этой функции имеет свои особенности. Формулу =МОДА.НСК(диапазон) необходимо ввести как формулу массива.

Замечание. Ряд функций в Excel необходимо вводить как формулу массива, так как они возвращают несколько значений, которые выводятся в диапазон ячеек, или массив. Для ввода формулы массива выделите диапазон, в который будет сохранен результат, введите формулу и нажмите комбинацию клавиш Ctrl + Shift + Enter.

Так как заранее не известно, имеет ли исследуемая совокупность моду, а если имеет, то одну или несколько, то диапазон для вывода может содержать несколько ячеек. Найдем моду для вышеуказанного примера. Выделите диапазон F3:F6 и введите формулу =МОДА.НСК(ВЗ:Б16), где диапазон D3:D16 задает исходные данные. Эта формула отобразится также в строке формул (рис. 4.7).

Теперь нажмите одновременно комбинацию клавиш Ctrl + Shift + Enter, формула введется во все выделенные ячейки как формула массива. Отобразятся два значения моды, в остальных ячейках появится сообщение «Нет данных» (рис. 4.8).

Если известны все значения признака, то для нахождения моды не требуется проводить дополнительные расчеты, значением моды является конкретное значение признака. Расчет моды для несгруппированных данных состоит в определении наиболее часто встречающегося значения. Для дискретного ряда распределения мода соответствует

Результаты вычисления моды значению признака, имеющего наибольшую частоту. Моду для интервального ряда распределения определяются по специальной формуле, в этом случае ее значение вычисляется приближенно.

Медиана — такое значение признака, которое делит ранжированный ряд на две равные части со значениями признака меньше медианы и со значениями признака больше медианы. Для нахождения медианы исходный ряд предварительно упорядочивают по возрастанию (ранжируют).

Для вычисления медианы в Excel есть встроенная функция МЕДИАНА (диапазон), причем исходный ряд не требуется предварительно упорядочивать.

Если известны все значения признака, ряд не сгруппирован, то для нахождения медианы не требуется проводить дополнительные расчеты. Все сводится к нахождению порядкового номера медианы. Если данные содержат нечетное число значений, то медиана есть центральное значение. Если же данные содержат четное число значений, то медиана находится как среднее арифметическое двух центральных значений. Значением моды является конкретное значение признака.

Для интервальных рядов медиана рассчитывается по специальной формуле.

Мода и медиана называются структурными средними. Кроме того, часто используют понятие «пяти базовых показателей», в которые входят минимальное значение, 1 квартиль Q1; 2 квартиль Q2, 3 квартиль Q3 и максимальное значение. Квартили — это значения признака, делящие ранжированную совокупность на четыре равновеликие части, 2 квартиль совпадает с медианой.

Ссылка на основную публикацию
Adblock
detector