Миф о достаточной выборке

 

«Достаточной» является выборка, которая дает возможность сделать вывод о распределении исследуемых параметров в генеральной сово­купности с приемлемо низкой погрешностью.

При изучении данных социального характера одним из доминирую­щих является анализ перекрестных распределений (иначе говоря, «дву-мерок», «двумерных распределений», «кроссов», «перекрестных таблиц», «матриц кросс-табуляции», «пересечений»). Его использование на прак­тике нередко приводит к базовой ошибке в интерпретации, вернее, даже понимании результатов исследования — «игнорированию математики».

Суть ошибки сводится к некритичному отношению к данным в пе­рекрестных таблицах. Рассмотрим типичный пример перекрестной таб­лицы — пересечение возраста респондентов и вопроса об отношении к брендам. Ошибка «игнорирования математики» заключается в следу­ющем. Большинство тех, кто работает с подобными таблицами, знают о существовании погрешности (как правило, она указывается в начале отчета). Однако не все представляют себе, что эта погрешность зависит от размера генеральной совокупности и выборки, но не напрямую: и для всей России, и для крупного райцентра выборка в 1500 человек достаточна и дает одинаковую погрешность. Еще меньшее число лю­дей знают, что погрешность для каждого из измеренных значений раз­личается (простой пример: для значения 1% погрешность не может со­ставлять ±2,5%); в исследованиях обычно указывается погрешность для измеренного значения 50%.

При анализе распределения ответов на один вопрос в разрезе друго­го мы наблюдаем аналог нескольких подвыборок из ряда генеральных совокупностей. Количество подвыборок определяется количеством групп, на которые делит выборку вопрос, в разрезе которого мы анали­зируем данные. В нашем примере это 6 возрастных групп.

Приведем пошаговые расчеты погрешности для одной из подвы­борок.

Всего в городе жителей старше 18 лет — 450 000 человек.

Доля жителей от 55 до 64 лет — 13%.

Число жителей 55-64 лет (13% от 450 000) - 58 500 человек.

В выборку попало жителей 55-64 лет (13% от 1314) — 171 че­ловек.

Погрешность при выборке 171 человека из совокупности в 58 500 человек составляет ±7,48% (при уровне достоверности 95%).

Таким образом, для данных по всей выборке погрешность (для зна­чения 50%) составляет 2,7%, а для данных по возрастной группе «от 55 до 64 лет» — 7,5% (к примеру, для группы «65 лет и старше» погреш­ность составляет 5,5%).

Итак, нельзя воспринимать понятие «погрешность» как одну цифру в начале отчета. Для каждой группы, по которой приводятся данные, погрешность должна быть указана отдельно.

Частым следствием «игнорирования математики» является то, что люди относятся к цифрам слишком внимательно, а без должного пони­мания эти цифры могут нанести вред даже больший, чем полное отсут­ствие информации.

Только имея целостную концепцию исследования, понимая, какие содержательные зависимости мы пытаемся проверить на модели объек­та (выборке) и зная, по каким группам (в каком разрезе) будем пред­ставлять данные, можно определить адекватный, в полном смысле дос­таточный, размер выборки.