Миф о достаточной выборке

Миф о достаточной выборке

«Достаточной» является выборка, которая дает возможность сделать вывод о распределении исследуемых параметров в генеральной совокупности с приемлемо низкой погрешностью.

При изучении данных социального характера одним из доминирующих является анализ

перекрестных распределений (иначе говоря, «дву-мерок», «двумерных распределений», «кроссов», «перекрестных таблиц», «матриц кросс-табуляции», «пересечений»). Его использование на практике нередко приводит к базовой ошибке в интерпретации, вернее, даже понимании результатов исследования — «игнорированию математики».

Суть ошибки сводится к некритичному отношению к данным в перекрестных таблицах. Рассмотрим типичный пример перекрестной таблицы — пересечение возраста респондентов и вопроса об отношении к брендам. Ошибка «игнорирования математики» заключается в следующем. Большинство тех, кто работает с подобными таблицами, знают о существовании погрешности (как правило, она указывается в начале отчета). Однако не все представляют себе, что эта погрешность зависит от размера генеральной совокупности и выборки, но не напрямую: и для всей России, и для крупного райцентра выборка в 1500 человек достаточна и дает одинаковую погрешность. Еще меньшее число людей знают, что погрешность для каждого из измеренных значений различается (простой пример: для значения 1% погрешность не может составлять ±2,5%); в исследованиях обычно указывается погрешность для измеренного значения 50%.

При анализе распределения ответов на один вопрос в разрезе другого мы наблюдаем аналог нескольких подвыборок из ряда генеральных совокупностей. Количество подвыборок определяется количеством групп, на которые делит выборку вопрос, в разрезе которого мы анализируем данные. В нашем примере это 6 возрастных групп.

Приведем пошаговые расчеты погрешности для одной из подвыборок.

Всего в городе жителей старше 18 лет — 450 000 человек.

Доля жителей от 55 до 64 лет — 13%.

Число жителей 55-64 лет (13% от 450 000) - 58 500 человек.

В выборку попало жителей 55-64 лет (13% от 1314) — 171 человек.

Погрешность при выборке 171 человека из совокупности в 58 500 человек составляет ±7,48% (при уровне достоверности 95%).

Таким образом, для данных по всей выборке погрешность (для значения 50%) составляет 2,7%, а для данных по возрастной группе «от 55 до 64 лет» — 7,5% (к примеру, для группы «65 лет и старше» погрешность составляет 5,5%).

Итак, нельзя воспринимать понятие «погрешность» как одну цифру в начале отчета. Для каждой группы, по которой приводятся данные, погрешность должна быть указана отдельно.

Частым следствием «игнорирования математики» является то, что люди относятся к цифрам слишком внимательно, а без должного понимания эти цифры могут нанести вред даже больший, чем полное отсутствие информации.

Только имея целостную концепцию исследования, понимая, какие содержательные зависимости мы пытаемся проверить на модели объекта (выборке) и зная, по каким группам (в каком разрезе) будем представлять данные, можно определить адекватный, в полном смысле достаточный, размер выборки.

Все рекламные акции, распродажи
и скидки в Чебоксарах

Самое популярное

Все рекламные акции, распродажи и скидки в Чебоксарах

Самое популярное

Все рекламные акции, распродажи
и скидки в Чебоксарах