Полная версия страницы  English  

Применение теста Фридмана

Blaid, 14.11.2011 09:29
Здравствуйте уважаемые форумчане!

У меня есть вопрос(ы) касательно особенностей применения теста Фридмана: можно ли его использовать как аналог two-way ANOVA без повторений и можно ли его использовать в случае неодинакового числа переменных в сравниваемых группах? Насчёт первого вопроса мне тут (http://molbiol.ru/forums/index.php?showtopic=474822) уже отвечали, но хотелось бы еще услышать комментарии на этот счёт.
И еще вопрос. В классическом two-way ANOVA, помимо прочего, даётся информация о том, за счёт какого именно фактора (первого или второго) выборки различаются и насколько (%) конкретный фактор обуславливает варирование признака.
А даёт ли такую информацию тест Фридмана?

Спасибо!
Vrag, 14.11.2011 19:00
Я лично не люблю дисперсионный анализ. На мой взгляд это вообще очень неудобный формализм. На сколько я понимаю, все модели дисперсионного анализа являются частным случаем регрессионных моделей, каковые модели на много проще интерпретировать (мне во всяком случае). Например классический (т.н. параметрический) дисперсионный анализ можно делать включая индикаторы в линейную модель и расчитывать параметры и их дисперсию с коррекцией для непостоянной дисперсии (heteroskedasticity-consistent covariance matrix estimator). То есть constant variance assumption тут вообще не нужен. Нормальность распределения зависимых величин тоже не нужна потому что по центральным предельным теореммам, расчитанные параметры модели имеют нормальное распределение в своем пространстве вероятности почти для любого распределения зависимых величин и почти любого механизма выборки.

Кстати в регрессионных моделях, ты можешь моделировать ожидание зависимой величины как функцию независимых величин или например вместо ожидания моделировать медианы или другие quantiles (это quantile regression). Я лично предпочитаю моделировать ожидание почти всегда. Так что, про дисперсионный анализ вообще и про тест Фридмана в частности, скажем дружно нафик нужно.
Vrag, 14.11.2011 22:22
Вот допустим у тебя есть две независимые величины Х и Z, каждая из которых может принимать одно из трех значений Х=а, Х=b, Х=c, Z=a, Z=b, Z=c. Зависимая величина Y это допустим какой-нибудь титр или еще что-нибудь такое ординальное (раз ты тест Фридмана хочешь использовать то Y наверное у тебя ординальный а не непрерывный). Ты хочешь знать как ожидание или скажем медиана Y зависят от значений Х и Z. Регрессионную модель для такой задачи можно составить так.

F(Y) = B0+Х1*B1+Х2*B2+Z1*B3+Z2*B4+Х1*Z1*B5+Х1*Z2*B6+Х2*Z1*B7+Х2*Z2*B8

где F(Y) это ожидание или медиана зависимой величины, Б0-Б8 коэффициенты модели, а Х1, Х2, Z1, и Z2 индикаторные величины

Если F(Y) это ожидание то коэффициенты можно расчитать методом меньших квадратов, если F(Y) это медиана то коеффициенты нужно расчитывать численно потому что закрытого решения нет
Blaid, 16.11.2011 09:35
Vrag! Спасибо за интересное и оригинальное предложение. Но мне сходу оно не совсем понятно, пояснить бы на конкретном примере. Да и в принципе отрицать дисперсионный анализ - не знаю, не знаю...
А тест Фридмана (говоря шире - непараметрические аналоги two-way ANOVA вообще) я хочу использовать потому, что использование классического two-way ANOVA предполагает: нормальность распределения сравниваемых групп, одинаковое число вариант в них и равенство диспресий сравниваемых групп. Не знаю насколько эти условия обязательны. Но для установления характера распределения нужно большое число наблюдений, а у меня группы по 3-6 вариант. И неодинаковое число вариант в группах. STATISTICA 8.0 two-way ANOVA по моим данным вообще считать отказывается (ругается, что неполная модель - наверное, как раз из-за разного числа вариант в группах), GraphPad Prism (5.01) считает на ура, но насколько правомерен такой расчёт - ?.
А данные - от отдельных животных, составляющих соответствующие группы (контроль, опыт-1, опыт-2 и т.д.).
Guest, 16.11.2011 16:46
Обычно если колличество наблюдений достаточно велико, нормальность распределения зависимой величины значения не имеет потому что включаются центральные предельные теореммы. Но у тебя как я понял вообще-то не много наблюдений.

Можешь обрисовать задачу подробнее? Во-первых какие значения может принимать зависимая величина? Ну например 1+, 2+, 3+, т.д. Во- вторых сколько у тебя независимых величин? Ты например упомянул три группы (контроль, опыт 1 и опыт 2), но наверное у тебя еще какие-то факторы есть в задаче, иначе не понятно зачем нужно делать 2-Way ANOVA. Сколько наблюдений в каждой группе и сколько всего групп? Ты упомянул три группы (контроль, опыт 1 и опыт 2). Если у тебя всего три группы и нет других факторов, то воoбще 2-Way ANOVA не нужно делать, а можно сделать Kruskal-Wallis test.

Кстати я не отрицаю дисперсионный анализ, мне просте не нравится его математический формализм. Совершенно эквивалентный анализ можно сделать используя формализм регрессионных моделей. Когда условия необходимые для классического дисперсионного анализа выполняются, регерссионные модели выдают те же P-values. Когда же эти условия не выполняются, регрессионные модели все-равно применимы, а дисперсионный анализ уже теряет смысл. Кроме того из регрессионных моделей в дополнение к P-values можно получить значения параметров с очень полезной интерпретацией.
Vrag, 16.11.2011 16:52
Последний пост - мой. Это я не потрудился логин сделать. Вообще если у тебя не большая база данных, можешь тут запостить, я обсчитаю в SAS, только если задачу подробнее обьяснишь.
Den-N, 21.11.2011 07:36
(Blaid @ 16.11.2011 12:35)
Ссылка на исходное сообщение  ...использование классического two-way ANOVA предполагает: нормальность распределения сравниваемых групп, одинаковое число вариант в них и равенство диспресий сравниваемых групп...

Насчёт нормальности распределения - распространённое заблуждение, сам не так давно заблуждался. Нормально должна быть распределена ошибка модели, т.е. остатки, остающиеся после снятия всех главных эффектов и их взаимодействий. Поэтому хорошие пакеты предлагают после ANOVA анализ остатков (residuals), чтобы или визуально, или с помощью тестов оценить их нормальность. В настоящее время расчёт ДА проводится в пакетах с помощью общих линейных моделей (GLM), поскольку, как уже написал Vrag, все ДА являются частными случаями таких моделей. Поэтому все проблемы с неравными группами остались лишь в учебниках 50-70х гг. То, что пакет ругается говорит скорее всего о том, что данные введены как-то не так. Распространённой ошибкой является занесение данных по разным выборкам в разные столбцы (как в Excel'е), тогда как в продвинутых пакетах типа Statisica и более крутых все данные должны быть в одном столбце, а в других столбцах должны быть проставлены метки принадлежности к той или иной группе, тому или иному варианту обработки и т.д. Анализ Фридмана плох тем, что невозможно обнаружить взаимодействие факторов, т.е. в зависимости от использования обычной или транспонированной матрицы данных он найдёт различия в центральной тенденции по первому или по второму фактору, тогда как информация о возможном взаимодействии останется невыраженной и уйдёт в ошибку анализа. Я очень люблю дисперсионный анализ и если распределение остатков отличается от нормального - преобразую исходные данные (преобразование Бокса-Кокса для измерений и угловые преобразования для частот) и всё равно использую его, а не Фридмана.

(Guest @ 16.11.2011 19:46)
Ссылка на исходное сообщение  ...Кстати я не отрицаю дисперсионный анализ, мне просте не нравится его математический формализм. Совершенно эквивалентный анализ можно сделать используя формализм регрессионных моделей...

А мне его формализм нравится: для биолога - очень изящно. Полагаю, что биологу куда понятнее описание результатов анализа в терминах изменчивости - внутригрупповой и межгрупповой, привносимой различными факторами и их сочетаниями -, чем в терминах регрессионных коэффициентов. В особенности это касается сложных вариантов ДА. Понятие "взаимодействия факторов" тоже абсолютно прозрачно. Возможно, любовь к регрессиям продиктована больше заточенностью решаемых исследователем задач на управление процессом и прогноз, а любовь к ДА - заточенностью на вскрытие причино-следственных связей в данных.
Blaid, 21.11.2011 09:29
Den-N - большое спасибо за Ваши ответы (и не только в этом посте)!
Насколько я понимаю, исходя из Вашего ответа, при выполнении two-way ANOVA - нормальность распределения сравниваемых групп и одиноковое число вариант в них - необязательны?
А как насчёт равенства дисперсий? Если это требование обязательно, преобразование (в случае неравных дисперсий сравниваемых групп) Бокса-Кокса тут поможет?
И главное: как проверяется нормальность остатков (в каких прогах это реализовано)?
Насчёт ввода данных: в STATISTICA (8.0) я данные так и вношу, как Вы пишете (один столбец - первый фактор, воторой столбец - второй фактор, третий столбец - все варианты, группированные по факторам). Если по другому (варианты по факторам в разные столбцы) - у меня STATISTICA такие модели просто не считает - одинаковое число вариант в группах или нет, всё равно (в противоположность GraphPad Prism - ему все равно как). Но даже если ввести все по трём столбцам, в случае неодинакового числа вариант в группах, - все равно не считает (GraphPad, опять же, в таком случае считает без возражений). Может у меня прога (STATISTICA 8.0) глюкнутая (хотя вряд ли - в STATISTICA 6.0 то же самое)?
Влияние первого фактора, влияние второго и влияние их взаимодействия на изменчивость признака - это как раз то, что мне и нужно знать. Фридман, как я понимаю, этой информации не даёт в принципе?
Спасибо!
Blaid, 23.11.2011 10:37
Den-N, вопрос (так сказать) по мотивам Ваших ответов в посте (http://molbiol.ru/forums/index.php?showtopic=479503): остатки (resudials) One-way ANOVA не имеют нормального распределения (тест Шапиро-Уилка дал отрицательный результат), но сделать преобразование Бокса-Кокса (в AtteStat) не получается, поскольку в остатках есть отрицательные значения.
Как быть в этом случае?
Спасибо!
Den-N, 24.11.2011 17:03
(Blaid @ 23.11.2011 13:37)
Ссылка на исходное сообщение  Den-N, вопрос (так сказать) по мотивам Ваших ответов в посте (http://molbiol.ru/forums/index.php?showtopic=479503): остатки (resudials) One-way ANOVA не имеют нормального распределения (тест Шапиро-Уилка дал отрицательный результат), но сделать преобразование Бокса-Кокса (в AtteStat) не получается, поскольку в остатках есть отрицательные значения.
Как быть в этом случае?
Спасибо!

Благодарю за наводку. Так действительно не получается - я про такой путь где-то читал, но не пробовал. Попробовал преобразовать по Боксу-Коксу величину (остаток+среднее значение непреобразованной выборки), выписать лямбду и преобразовать исходные данные снова с этим значением лямбды - остатки всё равно выходят асимметричные. Вероятно эту процедуру можно реализовать, но итерационно: через несколько последовательных приближений. Большего пока не надумал.
Тогда пока остаётся простой вариант: преобразовать по Б-К просто исходные данные - так чаще всего и делают. Я не совсем с этим согласен, но вероятно это проще и по-любому лучше чем не преобразовывать вообще. Как грамотно использовать распределение именно ошибки - ещё подумаю и попробую когда время будет. Ещё более простой путь - поподбирать преобразование из числа наиболее распространённых: натуральный и десятичный логарифмы, квадратный корень. Посмотреть распределение ошибки: если будет более-менее симметричным - можно работать. Известно, что диспресионный анализ становится устойчивым к отклонениям от предположений нормальности и равенства дисперсий по мере увеличения числа данных и количества факторов. Поэтому если даже идеального нормального распределения ошибки достичь не удастся - по крайней мере мы как могли пытались этого добиться. А ограничения есть у всех методов. Скажем народ считает различия по Манну-Уитни и думает, что раз метод непараметрический, то всё обсчитает. А метод работает только если распределения в выборках относятся к одному типу. Кто это проверяет и что делать если это не так?
А со Statistica ещё посмотрите Реброву. Сдаётся мне что всё-таки данные оформлены не так. ВСЕ измерения должны быть в одной колонке, скажем Data. Во второй (скажем Group) напротив измерения стоит цифра 1, 2 или 3 в зависимости от того к 1-ой, второй или третьей группе относится цифра из первой колонки. В третьей колонке (например Treatment) стоит цифра 1 или 2 в зависимости опыт это или контроль.
Blaid, 25.11.2011 09:26
Ещё раз спасибо!

Насчёт two-way ANOVA в STATISTICA разобрался, точнее прога разобралась сама без меня - не-считала - не считала, а позже ещё раз попробовал - всё нормально, результат есть. Кстати, такой же как и выдал GraphPad Prism. В чём была загвоздка - не знаю (дизайн ввода данных я не менял), но уж точно не в разном числе вариант в группах.
Касательно этого хочу спросить: у меня получилось, что различия между группами статистически значимы (при Р 0,05) как за счёт первого фактора, как за счёт второго, так и за счёт их взаимодействия (в смысле доказано влияние на вариацию изучаемого признака обоих факторов и их взаимодействия); в то же время GraphPad Prism, помимо того, что выдаёт STATISTICA, даёт ещё и информацию о количественном влиянии отдельных факторов (т.е., допустим, фактор А обуславливает 70 % вариации признака, фактор В - 10%, их взаимодействие - 15 %, случайные факторы (точнее не учитываемые в экспериментальной модели) - 5%). Информация об этом есть в Биологической статистике Рокицкого 1973 года (с. 225). Так вот, хочу спросить: а какой смысл имеет (и имеет ли вообще) такая информация по оценке относительной доли влияния фактора (факторов). Если, допустим один фактор обуславливает 70 % изменчивости признака, то из-за него признак, преимущественно, и варьирует? А если, скажем, доля влияния фактора А - 10 %, фактора В - тоже 10 %, а их взаимодействия - 80 % - тут как понимать? Факторы действуют синергично, усиливая друг друга?
Насчёт Манна-Уитни - а как определить к какому типу относится распределение данных (желательно не чисто графически, а с помощью тестов на распределение и не таких, которые дают информацию только о том, нормальное распределение или нет; если не нормальное - то какое?). И как быть если при использовании Манна-Уитни одна выборка имеет один тип распределения, а вторая - другой?
Позвольте ещё спросить: а как насчёт корреляции и регрессии? Они, так же как и дисперсионный анализ, тоже требуют нормального распределения именно residuals, а не нормального распределения исходных данных?
Спасибо!
Den-N, 04.12.2011 18:36
Лень копаться в Рокицком. Но думаю там другое, скорее всего если показатель силы влияния фактора, то это - "эта". Сейчас её не используют, по крайней мере не попадалась в литературе. А Prism выдаёт вероятно компоненты дисперсии; это другое. Их может посчтитать и Statistica, но для этого нужно заходить в дисперсионный анализ через модуль общих линейных моделей и целенаправленно выбирать "Компоненты дисперсии". Зачем?
Все дисперсионные анализы делятся на 2 модели.
Модель I - c фиксированными (F) факторами - используется как правило в экспериментах. Интересуют сравнения средних. Поэтому после анализа проводят или запланированные или апостериорные (post-hoc) сравнения средних в рамках дисперсионного комплекса.
Модель II - со случайными ( R) факторами используется для анализа изменчивости, как правило при анализе природных популяций. В этом случае после анализа имеет смысл вычислять компоненты дисперсии, чтобы выразить количественно сколько какой фактор вкладывает в общую изменчивость.
Ну и для полноты - смешанная модель, с F и R факторами. Может использоваться как для сравнения средних, так и для анализа изменчивости. Однако наиболее часто - для сравнения средних в ДА с повторными измерениями.
Про Манна - Уитни: не греюсь особо, т.к. у меня обычно объёмы выборок малы и сходство распределений проверить не удастся.
По регрессии - да, конечно, остатки (ошибка). А вот для корреляции нужно именно нормальное распределение показателей, причём ДВУМЕРНОЕ нормальное, что на практике - большая редкость (но можно приблизить данные к многомерному нормальному распределению с помощью предварительного их преобразования многомерным преобразованием Бокса-Кокса - есть в бесплатном пакете-надстройке к Excel AtteStat: http://attestatsoft.narod.ru/download.htm)
guest: 123 , 13.06.2022 08:05
Saxon Mullins 123VEGA says she once had PRAGMATIC PLAY romantic dreams of what her 'first time' would ICONIC GAMING be like. In none was หวยปิงปอง she paralysed by fear in a Sydney ปั่นสล็อต alleyway, aged 18, with a 123GOAL man she had met only minutes earlier. Ms 88KTC Mullins has always maintained FC SLOT this incident - in 2013 - was rape. It spurred AMB CASINO her to push for legal 11HILO reform in Australia, after a long court battle ended with a judge finding the man involved did not realise she hadn't consented to sex.
Это — лёгкая версия форума. Чтобы попасть на полную, щелкните здесь.
Invision Power Board © 2001-2024 Invision Power Services, Inc.