243. Как найти выбросы?

Что такое выбросы? Это данные, нетипичные для конкретной выборки, способные исказить статистические показатели (например, среднее), рассчитанные по ней.

Откуда они появляются? Выбросы могут возникать из-за ошибок ввода информации, неправильного сбора данных, а также по причинам, не связанным с темой исследования (например, в какой-то месяц были низкие продажи из-за внешних факторов – проблем дистрибьютора, какого-то форс-мажора на рынке).

Если вернуться к примеру с заработной платой из бизнесхака «Медиана, мода и среднее», то зарплата руководителя – это не выброс.

Выбросы можно и нужно удалять, и делают это как вручную, так и автоматически.

Если у вас мало данных (например, статистика по продажам за два-три года по месяцам), то убрать их можно вручную, экспертно оценив, есть ли нетипичные данные в выборке (их может и не быть вовсе, особенно в небольшой выборке).

Если же данных много, то выбросы лучше искать автоматически. Делать это можно в Excel, Google Таблицах или в статистических пакетах.

Есть несколько базовых методов.

Правило трех сигм. Все наблюдения, которые на три среднеквадратичных отклонения (сигмы) больше или меньше среднего, – выбросы.

Формула среднеквадратичного отклонения:

Его можно рассчитать в Excel с помощью функции СТАНДОТКЛОН.В (STDEV.S), если у вас выборка из общей совокупности, и с помощью функции СТАНДОТКЛОН.Г (STDEV.P), если вы оцениваете отклонение по всей генеральной совокупности.

В Google Таблицах используйте функции СТАНДОТКЛОН (STDEV) для выборки и СТАНДОТКЛОНП (STDEVP) для генеральной совокупности.

Примечание. Генеральная совокупность – это все объекты, которые вы собираетесь исследовать. Например, если вы проводите маркетинговое исследование своей целевой аудитории, генеральной совокупностью могут быть все мужчины от 25 до 39 лет с определенным доходом, проживающие в городе N.

Соответственно, выборка – это часть генеральной совокупности, элементы, по которым есть наблюденные данные.

Если вы сомневаетесь – используйте формулу для выборки. Данные по всей генеральной совокупности встречаются редко.

Метод Тьюки[57].

1. Рассчитайте 25-й и 75-й персентили. В Excel и Google Таблицах – с помощью функции ПЕРСЕНТИЛЬ (PERCENTILE).

2. Вычтите 25-й персентиль из 75-го, чтобы получить межквартильный размах (МР).

3. Рассчитайте внутренние и внешние границы по следующим формулам:

Нижняя внешняя граница = 25-й персентиль – 3 МР;

Верхняя внешняя граница = 75-й персентиль + 3 МР;

Нижняя внутренняя граница = 25-й персентиль – 1,5 МР;

Верхняя внутренняя граница = 75-й персентиль + 1,5 МР.

4. Значения, лежащие за пределами внешних границ, – выбросы (если данные распределены нормально, то за пределами этих границ будет лежать лишь 0,000002 данных). Значения за пределами внутренних границ тоже можно считать выбросами, но не такими экстремальными. За их пределами будет лежать 0,01 данных.

Более 800 000 книг и аудиокниг! 📚

Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением

ПОЛУЧИТЬ ПОДАРОК