Коллеги, подскажите пожалуйста: имеются 2 выборки - объемы опухолей в опыте и контроле. Признак варьирует очень сильно (среднее=800, SD=1000). Как определить минимальный объем выборки, чтобы с вероятностью 95% увидеть различия между двумя выборками (если они, конечно, есть)? Заранее благодарен
Den-N, 03.12.2009 21:14
Такая сильная вариабельность признака указывает на ненормальность распределения. Для ваших данных коэффициент вариации = 1000/800=1,25 или 125%, тогда как в не слишком малых выборках из нормального распределения он не может превышать 33%. Причин - 2. Соответственно решения будут различны.
(1). Распределение признака ненормальное, но одновершинное. Посмотрите гистограмму распределения признака. Скорее всего распределение будет асимметричным - с удлинённым хвостом справа. Такие распределения близки к логарифмически нормальному. Поэтому попробуйте прологарифмировать исходные данные, посмотрите станет ли распределение более симметричным. Если да - работайте далее с логарифмами. Расчёт выборки для сравнения t-критерием Стьюдента - есть онлайновые калькуляторы, например: Выберите ... (two-sided independent) - двусторонний тест для независимых выборок. Альфа = 0.05 (уровень значимости), Бета = 0.2 (обычно мощность в 80% считается достаточной), D - разница в размерах опухолей 2-х групп, которую вы хотите обнаружить. Чем меньше разница, тем закономерно больше наблюдений понадобится. Если работаете с ln - вводите разность в логарифмах. В последней ячейке вбейте SD - 1000 или ln(1000) если будете всё логармировать. Go!
(2) Хуже, если распределение признака не одновершинное, а с несколькими модами. Значит выборка неоднородна - в ней присутствует несколько классов опухолей (классов не в медицинском, а в статистическом смысле). В этом случае средний размер в выборке будет определятся соотношением особей с разными размерными классами опухолей и сравнение групп нужно будет проводить не по среднему размеру опухоли, а по количеству особей в каждом классе опухолей - сравнивать однородность распределения особей по размернм классам опухолей. Это делается с помощью критериев типа хи-квадрат, но пока никаких рекомендаций по объёму выборок дать нельзя. Вопросы медицинской статистики обсуждают здесь:
bklimovich, 04.12.2009 12:09
Спасибо за совет! Да, распределение, безусловно, не нормальное, оно унимодальное с хвостом справа. После логарифмической трансформации тест Колмогорова-Смирнова показывает нормальность распределения, среднее становится 6, SD - 2,2, это уже на что-то похоже. Правильно я понимаю, что делать надо так: у двух моих выборок разница между средним и медианой составляет примерно 1 (после трансформации данных). Это значение и вводится в калькулятор? Он выдает 79. То есть, чтобы доказать статичтическую значимость различий признака в двух группах необходимо 79 образцов?
Den-N, 04.12.2009 17:23
А почему между средним и медианой? Между двумя средними. Т.е. из логарифма первой выборки вычесть логарифм предполагаемого среднего второй выборки. Понятно, что если вы предполагаете, изменение показателя в опыте на 10% относительно контроля то потребуется высокая чувствительность критерия - понадобится много наблюдений, а если изменение в 10 раз - совсем немного. "у двух моих выборок разница между средним и медианой составляет примерно 1..." Здесь не понял. Ведь планирование объёмов выборок проводится до исследования на основании предварительных и/или литературных данных. Если же вы уже имеете измерения в обеих выборках - зачем такие расчёты? Сравнивайте 2 выборки напрямую - может имеющихся объёмов будет уже достаточно для обнаружения статистически значимых различий в средних.
bklimovich, 04.12.2009 19:09
конечно между двумя средними, ну или двумя медианами, они примерно сравнялись. я как бы считаю, что получил предварительные данные о вариации признака (пилотный эксперимент на маленькой выборке). данные из опыта и контроля различаются, но недостоверно. соответственно, вопрос поставлен: какой мне нужен объем выборки, чтобы при существующем разбросе данных наблюдаемая разница могла бы быть расценена как достоверная. Или такой вопрос не слишком правомерен?
Den-N, 04.12.2009 20:30
Ну тогда вы действуете абсолютно грамотно. И из этих действий следует неутешительный вывод о необходимости 80 наблюдений в каждой группе в рамках стандартного подхода к анализу данных. Если получение таких выборок проблематично - можно пойти на маленькую хитрость. Почитайте про технику последовательного анализа Вальда. Например, есть описание с примером в Урбах. Биометрические методы (можно найти в сети - около 80 МБ) и в Хальд. Математическая статистика с техническими приложениями (есть в сети, но не нашёл бесплатно). При таком анализе на основании предварительных данных рассчитываются границы коридора принятия решения, и испытания продолжаются пока график функции, которая пересчитывается после каждого нового наблюдения не перейдёт одну из этих границ (есть различия - нет различий). Этот подход требует в 2-3 раза меньших объёмов выборок и позволяет быстрее принять статистически обоснованное решение - не случайно эта техника составляла гостайну США все военные годы и была рассекречена только в 1950-м году.
bklimovich, 05.12.2009 12:04
Спасибо большое, чувствую, на специалиста наткнулся)) На самом деле это действительно был пилотный эксперимент: посмотрели разброс признака, поняли, сколько надо брать животных для получения достоверных данных. Но, главное, тенденция, наметившаяся в опыте, хоть и не доказанная статистически, свидетельствует о том, что получаемый результат противоположен желаемому, то есть увеличив объем выборки (в нашем случае в 4 раза) мы лишь статистически обоснованно поймем, что зря потратили силы и деньги. Так что и не стоит мучатся: либо модель неадекватна, либо проверяемая гипотеза не верна в целом. Еще раз спасибо за помощь!
bubnilkin, 19.06.2010 07:32
уважаемый Den-N, не могли бы объяснить просто про последовательный анализ вальда? или скажите, где про него просто написано (я не разбираюсь в математике...
заранее спасибо
Den-N, 12.07.2010 19:36
Последовательный (секвенциальный) анализ. Урбах Ю. Биометрические методы, стр. 158-..., - с примером. Хальд А. Математическая статистика с техническими приложениями, стр. 636-... Обе книги можно найти в сети (75 и 14 Мб соответственно).
Это — лёгкая версия форума. Чтобы попасть на полную, щелкните здесь.