Полная версия страницы  English  

Статистическая обработка данных

Pages: 1, 2
cesaro, 04.12.2002 18:38
<img src="graemlins/weep.gif" border="0" alt="[рев в 3 ручья]" />
Статистика (о больных и наболевшем)
Давно хотел обсудить важный вопрос о статистических критериях в биологии и медицине. Наблюдая медицинские и биологические статьи возникает много вопросов о распределениях исследованных величин. Вот некоторые из них:
1. Почему во многих статьях указывается стандартная ошибка среднего, а не стандартное отклонение? (понятно, что это величина падает по гиперб в зависимости от числа экс)
2. Почему !!! показатели 3-4 больных (или эксп) исследуют как значения нормальной совокупности?? И используют простого «Студента», а не Вилкоксона, Манни и прочие хорошие нонпараметрик процедуры
3. и другие вопросы о критериях…..
В этой связи прошу мнения авторитетных коллег. Кто и чем пользуется на работе (критерии и распределения)? Тестирует ли кто-нибудь свои данные на нормальность (прошу не острить!!)?
Olegovitch, 04.12.2002 19:00
Вопрос очень хороший. Когда я, например, измеряю FRET между флуоресцирующими белками in vivo, я a priori считаю, что распределение клеток по уровню экспрессии белков нормально. В таком случае хватает t-критерия, но в силу ужасного разнообразия expression levels приходится брать несколько десятков измерений. То же самое с количественной дигибридкой.
Ну, а те, кто указывает SE, а не SD, наверное, просто хотят погордиться тем, какие у них данные аккуратненькие smile.gif
Anonymous, 04.12.2002 19:39
Ничего плохого в указывании sem а не sd нет. Ведь эти "error bars" приводятся для того, чтобы читатель мог оценить, достоверны ли данные статистически или нет. Так что если эта достоверность указывается отдельно, то каковы эти "error bars - вообще вопрос вторичный. Пусть они хоть будут реальным разбросом данных, ничего не изменится (конечно нужно указывать, что эты "error bars" из себя представляют).
Насчет нормальности. Использование "Студента" для данных с ненормальным распределением может дать "false negatives", но никогда не даст "false positives". Иными словами, если уж t-тест показал статистически достоверное различие между двумя наборами данных с ненормальным распределением, то здесь ошибки быть не может, и разные трансформации или использование непараметрических тестов только понизят P-value.
Я как раз на днях выяснял все эти вопросы. Могу дать ссылку на свежий обзор, где эти вопросы обсуждаются в понятных для биолога терминах:
Kusuoka H, Hoffman JI. Advice on statistical analysis for Circulation Research. Circ Res. 2002 Oct 18;91(8):662-71. Review.
[Текст переведён с транслита]
Kis, 05.12.2002 10:07
В российских медицинских работах в большинстве случаев никто не проверяет тип распределения данных и Стьюдента считают по умолчанию.
Vladimir, если данные распределены не нормально - то Стьюдента считать нельзя. Просто по определению самого критерия и свойств распределения. Кстати, SD и SEM можно считать только для нормального распределения. Что указывать - в принципе не важно, одно в другое легко переводится. Хотя на мой взгляд SD критерий более показателен.
zelensky, 05.12.2002 10:23
Вопрос хороший. В большинстве случаев ситуация обстоит так. Используют попросту те статистические показатели, которые знают...А знают, увы, мало. Мало кто дает себе труд вникать в статистические дебри, тем более большинство биологов. Они в лучшем случае с помошью Екссела рассчитывают указанные вами мин. хар-ки, а в лучшем - отдают свои данные математикам, которые, в свою очередь, не утруждают себя биологическими проблемами и относятся с не совсем понятным мне снобизмом - дескать, хватит с них и коеффициента корреляции.
Одна очень уважаемая и далеко неглупая дама мне говорила (я не шучу, ето уже для Вес. стр.) :"Если есть разница между вариантами - то ее и так видно..."
Ече я была на зачите 2-кс диссертаций двух дам из разных институтов - биол. и мед., не будем приводить имен. Математик из ее ин-та, извиняюсь, навставлял им обеим прямых по всем опытам, коеф. кор. между выравненными и исx. данными был удобоваримым, и ето называлось - мат. модели.
Anonymous, 05.12.2002 11:37
<blockquote><font size="1" face="Verdana, Helvetica, sans-serif">цитата:
Автор - Kis:
Кстати, SD и SEM можно считать только для нормального распределения.
</blockquote>
вообще-то я хреновый статистик, только одно уточнение - стандартную ошибку можно считать и для альтернативного распределения.
А так согласен со всеми:
ст ошибка меньше, чем ср кв отклонение, и посему субъективно приятнее, хотя одно в другое легко переводится.
считают так как легче и сильно выбором критериев не загружаются.
а в медах со статистикой вообще караул smile.gif (не обижайтесь коллеги, но это так)
Kis, 05.12.2002 17:33
stat, что вы называете альтернативным распределением ?
Anonymous, 05.12.2002 19:14
to Kis, касательно возможности использования t-теста для ненормального распределения: цитата из статьи, на которую я выше ссылался:
If the distribution is very abnormal, that may cause a real difference to be regarded as not significant because the variability will have been inflated by the skewed distribution. On the other hand, if despite the abnormal distribution the t test comes out to be significant, that is never a false result. Had the distribution been normalized, then the t test would have been even more significant, but that is not usually required once significance has been demonstrated.

Luchshe ne skazhesh.
[Текст переведён с транслита]
Kis, 05.12.2002 20:36
To Vladimir
Исполать вам, батюшка. Попробуйте послать в тот же Ciculation статью с t-критерием для данных с не нормальным распределением - посмотрите, что получите в ответ.
Если по сути - то с автором не согласен, надо или нормализовать данные, или использовать непараметрическю статистику. Кстати, именно это и следует из первой фразы - в случае отклонения распределения от нормального можно выплеснуть ребенка.
VEG, 06.12.2002 15:49
To Vladimir
У меня к сожалению не получилось скачать указанную вами статью. А было бы интересно почитать. Вы не могли бы кинуть её мне не e-mail?
С уважением,
Евгений.
cesaro, 06.12.2002 19:11
Спасибо! Очень рад увидеть интерес к вопросу!
цитата:"Иными словами, если уж t-тест показал статистически достоверное различие между двумя наборами данных с ненормальным распределением, то здесь ошибки быть не может, и разные трансформации или использование непараметрических тестов только понизят P-value."
Это точно false утверждение.
Если это необходимо, то могу описать совокупности в которых это не так.
По поводу статьи - спасибо, но у меня возникли сомнения (вполне достоверные smile.gif .
Может автору напишу - обсудим.
Пока появился один вывод:
если ты медик или биолог, то проверь свои данные на нормальность.
И только потом пиши статью в Журнал.
А тезисы?
Было очень смешно писать на моск онко конф: "только тест Вилкоксона показал различие...".....Кому это надо???? Только не "клиницистам"
frown.gif
А жаль!
Anonymous, 06.12.2002 20:18
То Кис: "Попробуйте послать в тот же Circulation статью с т-критерием для данных с не нормальным распределением - посмотрите, что получите в ответ"
Hideo Kusuoka и Julien Hoffman входят в Editorial Board журнала Circulation Research. Их обзор "Advice on statistical analysis for Circulation Research" явно заказан журналом, и отражает редакторскую политику.
Но не это главное. Я не математик, и независимо оценить обсуждаемую проблему не могу. Однако должен признаться, что мнение авторов-редакторов уважаемого журнала мне кажется более весомым. Добавлю, что и мой личный опыт (я анализировал proportions, которые не являются данными с нормальным распределением и по отношении к которым рекомендуют применять например arc-sine transformation) подтверждает цитату, которую я више приводил.
Было бы здорово, если бы кто-нибудь из участников форума мог привести математическое доказательство (желательно простое), которое бы показывало, какая точка зрения верна, или ссылку на него. Вопрос действительно важен.
[Текст переведён с транслита]
Kis, 07.12.2002 12:23
Во-первых, позиция даже членов редколлегиии не всегда отражает позицию журнала. Просто (ну по жизни так) им проще опубликовать все что угодно - даже достаточно спорные утверждения. Тут еще должен отметить, что оба автора ни в коем случае не являются математиками.
Во-вторых, полностью согласен с предыдущим постом Cesario.
Anonymous, 09.12.2002 11:48
Прошу прощения, господа, еще один вопрос. Если, используя критерий Вилкоксона, обнаружены различия между группами данных, то по каким признакам можно сформулировать вывод об этих различиях, то есть сказать на сколько и как отличаются эти группы.
cesaro, 20.12.2002 20:57
Кстати, все (конечно, некоторые) вопросы будут обсуждаться в четверг в конф зале НИИ КО РОНЦ. Анонс хороший, связано с выходом книги по мед статистике.
около 17.
Anonymous, 05.01.2003 13:09
Очень наболевшая тема - статистика. Мы в основном пользуемся программой Statistica 5.0 очень не плохая программа - надо сказать. Наш "research unit" занимается как клиничискими исследованиями так и "basic science" в психиатрии. Гениральная политика нашего босса паралленьна политике журнала American Journal of psychiatry и вот то что нам рекомендуют при статистической обработке:
1. Defoult Популяция с нормальным распределением если не доказано другое. На маленьких выборках доказать что распределение не нормальное не возможно то есть N для такого определения должен быть большой.
2. В клинических экспериментах нужно указывать SD ибо это отражает индивидуальную реакцию больных на лечение а в экспериментах с животными можно и SE. главное чтобы это было консистентно по ходу статьи.
3. Есть ещё требование - шкала У должна всегда начинаться с 0. Ибо если это не так то это здорово вводит в заблуждение если не посмотреть на шкалу.
4. Хорошая книга, написанная нормальным языком это Intuitive Biostatistics , by Harvey Motulsky

Хорошего нового года
cesaro, 05.01.2003 16:32
Алена, Спасибо за комм.!
А нет ли у Вас ссылки на эту книгу?
или других её источников.
по поводу маленьких N - я пока не дошел до сознания априорности нормального распределения.
Могу сказать одно: если эксп данные увеличить и выясн ненормальность распр, то потом можно найти "некоторые" противоречия в своих рассуждениях.
Anonymous, 05.01.2003 18:57
уважаемый cesaro

к сожалению я не уверена что эта книга есть в инете smile.gif )
Anonymous, 16.01.2003 19:02
Продолжая данную тему. Я уже задавал этот вопрос выше, но он остался без внимания.

Если, методами непараметрической статистики обнаружены различия между группами данных, то по каким признакам можно сформулировать вывод об этих различиях, то есть сказать на сколько и как отличаются эти группы?
cesaro, 16.01.2003 20:45
to Fert:
Можно, например, говорить о различиях в распределениях величин.
Все зависит от того что хотите исследовать.
И в каких группах - вы говорите о независ
или связан выборках ?
Kis, 17.01.2003 11:22
Алена, а Вам не кажется, что в группе с N=10 не будет работать ни одна статистика ?
dbaev, 17.01.2003 12:12
Автор - cesaro:
  <img border=\"0\" alt=\"[рёв в три ручья]\" title=\"\" src=\"graemlins/weep.gif\" />  
Статистика (о больных и наболевшем)

Давно хотел обсудить важный вопрос о статистических критериях в биологии и медицине. Наблюдая медицинские и биологические статьи возникает много вопросов о распределениях исследованных величин. Вот некоторые из них:
1. Почему во многих статьях указывается  стандартная ошибка среднего, а не стандартное отклонение? (понятно, что это величина падает по гиперб в зависимости от числа экс)
2. Почему !!! показатели 3-4 больных (или эксп) исследуют как значения нормальной совокупности?? И используют простого «Студента», а не Вилкоксона, Манни и прочие хорошие нонпараметрик процедуры
3. и другие вопросы о критериях…..

В этой связи прошу мнения авторитетных коллег.  Кто и чем пользуется на работе (критерии и распределения)? Тестирует ли кто-нибудь свои данные на нормальность (прошу не острить!!)?
Просто, зачастую, работающим в области биологии и медицины не хватает знания математики и мат. статистики., как это ни прискорбно....
Sana, 17.01.2003 12:16
Автор - <Fert>:

Если, методами непараметрической статистики обнаружены различия между группами данных, то по каким признакам можно сформулировать вывод об этих различиях, то есть сказать на сколько и как отличаются эти группы?
Мне кажется, что это сильно зависит от конкретного непараметрического критерия, который вы использовали. Я разбиралась с тем как действует Манн-Уитни и Колмагоров-Смирнов.
Вот последний анализирует скорее разницу в распределении величин.
Могу дать ссылки на сайты, где это подробно и просто объясняется, чтобы не получилось "испорченного телефона"
Anonymous, 17.01.2003 13:07
to cesaro:

Ну, например, имеются 2 независимых группы (контрольная и экспериментальная). Оцениваем какой-то параметр. Статистическая процедура показывает наличие достоверных различий. Нужно сделать вывод в какой из групп величина этого параметра больше и на сколько. Как это сделать?
Sana, 17.01.2003 13:55
[/qb][/QUOTE]Просто, зачастую, работающим в области биологии и медицины не хватает знания математики и мат. статистики., как это ни прискорбно.... [/QB][/QUOTE]
Не думаю, что дело в незнании математики биологами и медиками. Сами математики не могут разобраться между собой. Уже приводилсь ссылки на высказывания в защиту критерия Ст'юдента для любого распределения в этом форуме. Мне недавно попалась книга в которой это обсуждалось. Как же бедные биологи могут в этом бардаке разобраться?
Anonymous, 20.01.2003 10:51
to Sana:
Если можно, то дайте, пожалуйста ссылки на сайты, о которых Вы говорили.
Anonymous, 21.01.2003 10:57
???
Sana, 21.01.2003 15:48
Автор - <Fert>:
to Sana:
Если можно, то дайте, пожалуйста ссылки на сайты, о которых Вы говорили.
Ссылка на сайт, где подробно описан подсчет достоверности различий по критерию Манна-Уитни, с таблицами. Колмагоров-Смирнов куда-то завалился, дам позже, если найду.
http://143.52.70.168/distance/stats/10.shtml
taniarakitina, 30.09.2003 02:08
What's statistical method could I use to determine is the significant difference between the population of data and
the constant value?

Could you advise something to read about (what statistical analysis is useful for what situation) in PDF and as simplest as possible.

Thank you very much.
Anonymous, 30.09.2003 04:06
www.statsoft.ru -> download -> учебник по статистике
Anonymous, 30.09.2003 08:54
Старые добрые хи-квадрат, критерий Фишера, критерий Колмогорова-Смирнова. В популяционной генетике любят Fst (предложена Райтом, такая толстая книга 50х годов выпуска). Очень хорошая книга Вейр (Weir) примерное название «Статистический анализ генетических данных» А на самом деле куча книг по биометрии, и на русском, и на английском.
Anonymous, 30.09.2003 11:43
To taniarakitina: Почитайте книгу:
Гланц С., "Медико-биологическая статистика", Изд-во Практика.

Вопрос остальным: Люди, как определить чувствительность таблиц сопряженности? Если метод хи-квадрат не нашел различий в данных, то требуется определить его чувствительность (мощность). Это необходимо, т.к. объем выборки N может быть недостаточен для выявления различий. Таблицы, по которым это делается, у меня есть, но для написания программы нужны математические формулы. Дайте ссылки на книги, сайты, статьи.
Anonymous, 30.09.2003 13:39
to Математик:
Не понял чувтвительность чего - таблиц сопряженности или метода хи-квадрат? Вообще, по-моему, в Арлекине (Arlequin 2.0) есть обработка таких табличек c использованием цепей Маркова.
Anonymous, 30.09.2003 13:45
Вообще всем, трудящимся в области популяционной, советую
Arlequin, очень мощная программа с множеством методов.
К тому же эбсолютли фри.
Anonymous, 30.09.2003 14:42
To Guest: таблицы сопряженности анализируются с помощью критерия хи-квадрат. Значение статистики хи-квадрат и ее уровень значимости зависит от общего числа наблюдений и количества ячеек в таблице. Относительно малые отклонения наблюдаемых частот от ожидаемых будут доказывать значимость, если число наблюдений велико. Если число наблюдений (объем выборки) мало, то даже большие отклонения частот не будут значимы. Именно поэтому для уверенности в справедливости нулевой гипотезы об отсутствии различий требуется оценка чувствительности критерия, т.е. его способности выявлять различия, если они существуют.
Anonymous, 30.09.2003 15:19
Вот и используйте Arlequin. Там есть расширенная версия точного теста Фишера специально для анализа "сопряжений". Процедура сэмплинга возможных таблиц сопряжения с использованием цепей Маркова даст Вам "точное" значение вероятности справедливости нулевой гипотезы.
Siatris, 22.07.2004 23:26
Доброго времени суток уважаемые коллеги
У нас в лаборатории проблемка со статистикой помогите пожалуйста (желательно англоязычные источники)
Проблема: обработка данных
В эксперименте 2 группы. Были закодированы скажем 1 и 2. Один из профессоров уверена что можно разделить результаты на группы посчитать отдельно для каждой группы среднее и стандартное отклонение и те кто за среднее +- 2 стандартных девиаций (в каждой группе по отдельности) исключить. Так как коды еще не открыты - не искажает результаты. Другой профессор утверждает что так делать нельзя. Что нужно объединить все результаты и считать общие среднее и стандартное отклонение и тогда исключить те что за average +2SD. Так как они оба мои босса.... Скажите пожалуйста что статистически правильно и в какой книге я могу это найти. Пока читаю Intuitive Biostatistics. Спасибо большое.
Piter-, 22.07.2004 23:32
А групы разные? Типа контроль ееперимент Или чем они отличаются?

[Текст переведён с транслита]
Piter-, 22.07.2004 23:43
http://www.statsoft.ru/home/textbook/default.htm
Mozhna i na ponjatnom jazyke
Siatris, 22.07.2004 23:44
то Piter_ да группы контрольэксперимент. то vectors спасибо большое а как сформулировать то что я ищу знаю как это будет на иврите но не на английском даже не уверена что смогу сказать это на русском frown.gif сорри у меня 1 начальный курс статистики за плечами кучу лет назад и полное доверие к STATISTICA 5.0 и не исключенаю данные из за статистики
спасибо
Piter-, 23.07.2004 00:00
A kakoe n?
Mne eto napominaet vyskazyvanie chto experimenty udacny esli dlja soglasovanija s vashej teoriej mozhno vykinut` 50% danykh.
Siatris, 23.07.2004 00:10
то Piter smile.gif ну это было бы уже слишком сильно сказано. Были исключены по одному реультату из группы. N 17/18. Как называется раздел или глава которая говорит об этом статистическом допущении (если оно конечно существует)?
zelensky, 23.07.2004 17:59
напишите на иврите, я - туда-сюда - но гобочка так точно переведет.
напишите более точно - какой размер выборок, если большое число данных - можно разбить на группы, даже нужно, если нет - нельзя.
и что вам мешает сделать и так, и так, и посмотреть - что получится?
Piter-, 23.07.2004 19:20
Автор - Siatris:
Как называется раздел или глава которая говорит об этом статистическом допущении (если оно конечно существует)?
Esli mne pamjat` me izmenjaet eto dolzjno chtoto byt` tipa analiza vybrosov.
Anonymous, 23.07.2004 19:47
Простите, может быть за глупый вопрос, но какова цель Вашего эксперимента? Сравнение двух выборок? Тогда зачем Вам выкидывать значения находящиеся за пределами двух сигм? Если Ваш признак распределен нормально то в интервале +-2 сигмы находится примерно 68% значений признака. Вы с какой целью хотите выкинуть 32%? Кроме того, если Вы работаете с двумя выборками, то объединять Вы их можете только после того, как докажете, что выборки принадлежат к одной генеральной совокупности.
Существуют непараметрические ранговые критерии, в которых для сравнения выборок используется объединение данных и ранжирование, но это совершенно другой случай.
В параметричекой статистике для сравнения выборок используются вычисленные средние значения и дисперсии выборок - t-критерий Стьюдента. Выкидывают сильно отклоняющиеся значения, находящиеся за пределами 3х сигм.
Другое дело, если у Вас не нормальное распределение в выборках, но тогда и считать надо не "сигмы".
Anonymous, 23.07.2004 20:01
Сразу извиняюсь за грубую ошибку, 68% +-1 сигма, за двумя сигмами совсем немного остается, но тем не менее.
zelensky, 23.07.2004 20:05
если я правильно поняла, то одна из профессоров предлагала исключить выбросы, как не соответствующие нормальному распределению; и считать эти данные аномальными, т.е. они даже не могут являться ошибкой опыта...
если мне не изменяет память, то, чтобы не исключать выбросы, с целью лакировки действительности использовался "метод скользящих средних", который усреднял данные до такой степени, что все было хорошо...
Anonymous, 23.07.2004 21:12
Есть метод условного среднего, который ориентирован на модальный класс, усиливает его значимость при подсчете среднего и "сглаживает" отклонения. Наверное это что-то вроде "скользящих средних".
Wolf, 26.07.2004 05:38
Может, там и распределения разные - так особо вредный (для исследователя smile.gif ) эксперимент, вылетают где-то, где-то - нет. Согласен в остальном с <tipa statistik nemnogo>.
Это — лёгкая версия форума. Чтобы попасть на полную, щелкните здесь.
Invision Power Board © 2001-2024 Invision Power Services, Inc.