Миф о достаточной выборке
«Достаточной» является выборка, которая дает возможность сделать вывод о распределении исследуемых параметров в генеральной совокупности с приемлемо низкой погрешностью.
При изучении данных социального характера одним из доминирующих является анализ
Суть ошибки сводится к некритичному отношению к данным в перекрестных таблицах. Рассмотрим типичный пример перекрестной таблицы — пересечение возраста респондентов и вопроса об отношении к брендам. Ошибка «игнорирования математики» заключается в следующем. Большинство тех, кто работает с подобными таблицами, знают о существовании погрешности (как правило, она указывается в начале отчета). Однако не все представляют себе, что эта погрешность зависит от размера генеральной совокупности и выборки, но не напрямую: и для всей России, и для крупного райцентра выборка в 1500 человек достаточна и дает одинаковую погрешность. Еще меньшее число людей знают, что погрешность для каждого из измеренных значений различается (простой пример: для значения 1% погрешность не может составлять ±2,5%); в исследованиях обычно указывается погрешность для измеренного значения 50%.
При анализе распределения ответов на один вопрос в разрезе другого мы наблюдаем аналог нескольких подвыборок из ряда генеральных совокупностей. Количество подвыборок определяется количеством групп, на которые делит выборку вопрос, в разрезе которого мы анализируем данные. В нашем примере это 6 возрастных групп.
Приведем пошаговые расчеты погрешности для одной из подвыборок.
Всего в городе жителей старше 18 лет — 450 000 человек.
Доля жителей от 55 до 64 лет — 13%.
Число жителей 55-64 лет (13% от 450 000) - 58 500 человек.
В выборку попало жителей 55-64 лет (13% от 1314) — 171 человек.
Погрешность при выборке 171 человека из совокупности в 58 500 человек составляет ±7,48% (при уровне достоверности 95%).
Таким образом, для данных по всей выборке погрешность (для значения 50%) составляет 2,7%, а для данных по возрастной группе «от 55 до 64 лет» — 7,5% (к примеру, для группы «65 лет и старше» погрешность составляет 5,5%).
Итак, нельзя воспринимать понятие «погрешность» как одну цифру в начале отчета. Для каждой группы, по которой приводятся данные, погрешность должна быть указана отдельно.
Частым следствием «игнорирования математики» является то, что люди относятся к цифрам слишком внимательно, а без должного понимания эти цифры могут нанести вред даже больший, чем полное отсутствие информации.
Только имея целостную концепцию исследования, понимая, какие содержательные зависимости мы пытаемся проверить на модели объекта (выборке) и зная, по каким группам (в каком разрезе) будем представлять данные, можно определить адекватный, в полном смысле достаточный, размер выборки.