Все форумы > корреляция при разном распределении

d-r.s, 15.09.2012 15:19

Добрый день. Нужно сделать корреляцию 2х массивов данных (множество параметров давления к параметрам показателей кровотока головного мозга).
1.Часть данных имеет нормальное распределение, часть - логнормальное. Подскажите, плиз, можно ли строить корреляционную матрицу (коэф.корреляции Пирсона) с логарифмированными и нелогарифмированными данными или необходимо логарифмировать и нормально распределенные данные?
2. Вычитала про ограничения корреляционного анализа: "применение возможно при наличии достаточного количества наблюдений для изучения". У меня группы по 17 обследуемых, для каждого - 26 данных по давлению и 72 - по кровотоку. Подскажите, можно ли делать корреляционный анализ со всеми данными одновременно?

Nastja, 15.09.2012 16:58

1. Не просто можно, а даже нужно. Данные, нуждающиеся в логарифмировании, перед обработкой логарифмируются, не нуждающиеся - не логарифмируются.
2. Уточните, пожалуйста, у Вас несколько групп по 17 человек? Корреляцию между чем и чем надо определить?

d-r.s, 15.09.2012 17:52

1.Спасибо.
2.Нужна корреляция между данными по давлению (смад) и параметрами кровотока (уздг) в каждой из 4 групп по 17 человек каждая (потом еще группы объединяются попарно - нужна корреляция в группе из 34чел (2 группы) между данными тех же методов обследования). Смутила фраза по ограничению корреляционного анализа: "применение возможно при наличии достаточного количества наблюдений для изучения". Наблюдения в данном случае - количество человек в группе или количество данных по каждому методу исследования? И действительно ли это ограничение обычно соблюдается?

викепидист, 15.09.2012 21:17

(d-r.s @ 15.09.2012 17:52)

2.Нужна корреляция между данными по давлению (смад) и параметрами кровотока (уздг) в каждой из 4 групп по 17 человек каждая. Смутила фраза по ограничению корреляционного анализа: "применение возможно при наличии достаточного количества наблюдений для изучения"

В википедии написано, что число наблюдений должно быть не менее, чем в 5-6 раз превышать число факторов. Число наблюдений 17, число факторов 2. Условие применимости корреляционного анализа: 2*6=12<17 выполняется. Осталось проверить двумерную нормальность распределения совокупности из 2-х переменных и линейную зависимость между ними (согласно той же самой википедии).

PS2004R, 16.09.2012 00:06

(d-r.s @ 15.09.2012 15:19)

Добрый день. Нужно сделать корреляцию 2х массивов данных (множество параметров давления к параметрам показателей кровотока головного мозга).
1.Часть данных имеет нормальное распределение, часть - логнормальное. Подскажите, плиз, можно ли строить корреляционную матрицу (коэф.корреляции Пирсона) с логарифмированными и нелогарифмированными данными или необходимо логарифмировать и нормально распределенные данные?
2. Вычитала про ограничения корреляционного анализа: "применение возможно при наличии достаточного количества наблюдений для изучения". У меня группы по 17 обследуемых, для каждого - 26 данных по давлению и 72 - по кровотоку. Подскажите, можно ли делать корреляционный анализ со всеми данными одновременно?

Это не совсем тот корреляционный анализ, если речь про массивы

У Вас две группы показателей у каждого из обследованных (26 давления и 72 кровотока), наилучшим образом связь между ними объясняет CCA (каноническая корреляция). Этот анализ строит линейную комбинацию показателей давления наилучшим образом коррелирующую с аналогично построенной линейной комбинацией показателей кровотока. Оставшаяся дисперсия строится во вторую каноническую корреляцию ет цетера.

Проверить не развалилось ли что то у Вас очень просто с помощью бутстрепа.

Nastja, 16.09.2012 12:47

Для того, чтобы "в лоб" применять каноническую корреляцию, наблюдений очень мало. Вот тут например об этом написано:
http://www.statsoft.ru/home/portal/applica...demic/kanon.htm

У Вас довольно сложная задача, которая имеет много неправильных решений, мне кажется, стоит обратиться к специалисту.

PS2004R, 16.09.2012 14:22

(Nastja @ 16.09.2012 12:47)

Для того, чтобы "в лоб" применять каноническую корреляцию, наблюдений очень мало. Вот тут например об этом написано:
http://www.statsoft.ru/home/portal/applica...demic/kanon.htm

У Вас довольно сложная задача, которая имеет много неправильных решений, мне кажется, стоит обратиться к специалисту.

в чем проблема то? ну уменьшит человек в каждой группе показателей число переменных, например с помощью pca (да и посоветованный мной бутсреп явную ерунду посчитать не позволит).

вот советовать простой корреляционный анализ, там где полностью соответствует постановка задачи канонической корреляции это проблема

d-r.s, 16.09.2012 17:59

Nastja, PS2004R - большое спасибо за консультацию. Общая мысль ясна, но для освоения сложна ). Постараюсь найти специалиста, ибо сроки горят ((

викепидист, 16.09.2012 18:34

Сначала убедитесь, что простой анализ работает, а уже потом лезьте в дебри. Рассчитайте корреляционную матрицу всех давлений против всех кровотоков. Потом из этой матрицы выберите несколько пар давление-кровоток с самыми большими по модулю коэффициентами корреляции и посмотрите на их величину. Если они достаточно велики, то копайте дальше.

d-r.s, 16.09.2012 19:30

викепидист, спасибо за совет, но с моим знанием статистики воспользоваться им сложно ).
С благодарностью приму координаты специалиста по статистике (с умеренными расценками) ;-)

PS2004R, 16.09.2012 22:31

(d-r.s @ 16.09.2012 19:30)

викепидист, спасибо за совет, но с моим знанием статистики воспользоваться им сложно ).
С благодарностью приму координаты специалиста по статистике (с умеренными расценками) ;-)

загружайте данные

Nastja, 17.09.2012 05:08

PS2004R, я могу с ходу придумать несколько вариантов, как сделать неправильно:
оставить слишком много параметров, в результате получится задача, аналогичная линейной регрессии при числе наблюдений меньше чем размерность;
сделать неправильный вариант бутстрепа - подозреваю, не для всех параметров мы хорошо знаем форму распределения;
неправильно оценить значимость.

викепидист, из общих соображений при статистической обработке данных не стоит делать 26*72 парных сравнений, так как p-value устремится к неприличным значениям.

PS2004R, 17.09.2012 11:27

(Nastja @ 17.09.2012 05:08)

PS2004R, я могу с ходу придумать несколько вариантов, как сделать неправильно:
оставить слишком много параметров, в результате получится задача, аналогичная линейной регрессии при числе наблюдений меньше чем размерность;
сделать неправильный вариант бутстрепа - подозреваю, не для всех параметров мы хорошо знаем форму распределения;
неправильно оценить значимость.

викепидист, из общих соображений при статистической обработке данных не стоит делать 26*72 парных сравнений, так как p-value устремится к неприличным значениям.

0. Сделать неправильно значительно больше шансов если не брать стандартные постановки задачи.

Редукция числа переменных это стандартная задача. Каноническая корреляция тоже стандартная задача. Бутстреп получение доверительных интервалов тоже стандартная.

1. ну для "коэффициента корреляции" (та еще на самом деле "священная корова" статистики

) ничто не мешает его определить хоть по двум точкам. вот по одной -- действительно проблема

метод cca как и все что выросло из pca сугубо геометрические преобразования исходного пространства случаев экспериментальной выборки. в них возможны проблемы, когда реально куча измерений на самом деле пустые, но это очень искусственная ситуация.

не надо путать алгебраические выкладки (и сделанные в их начале ограничивающие посылки) с самой процедурой преобразования пространства переменных. она всегда (кроме искусственных случаев) корректна. (и даже в искусственных случаях сохраняет смысл.)

2. Для получения доверительного интервала любого показателя (сколь бы сложно мы его не вычисляли) знать форму распределения что бы использовать бутстреп не надо. (искусственные случаи когда матожидание вообще не сходится мы надеюсь не рассматриваем). Собственно в этом как бы и заключается бутстреп.

Например, в случае когда число экспериментальных точек позволяет провести через них точную линию, бутстреп покажет какие широкие доверительные интервалы получаться у параметров уравнения этой линии.

d-r.s, 17.09.2012 19:21

Вот одна из таблиц данных "вживую". Ко всему, я ошиблась, не везде распределение "нормализуется" логарифмированием (для оценки распределения пользовалась формулами Пустыльникова (в файле есть формула)), т.к со Statistica 6.0 такие массивы обсчитать не получается. Что посоветуете?

Файл/ы:

___________________________.xls
размер: 1.45
кол-во скачиваний: 358

Nastja, 17.09.2012 19:39

Я посоветую немного поуговаривать PS2004R, потому что мне сейчас некогда

PS2004R, 17.09.2012 20:00

(Nastja @ 17.09.2012 19:39)

Я посоветую немного поуговаривать PS2004R, потому что мне сейчас некогда

зачем уговаривать? сейчас посмотрим

Guest, 17.09.2012 20:10

Nastja, PS2004R, большое спасибо Вам за консультации ;-)
Статистик вроде бы нашелся, но я не уверена, что его квалификация сравнима с Вашей, так что буду признательна за еще один совет (план действий ;-) ). Подобных таблиц еще много обсчитывать ;-(

PS2004R, 17.09.2012 20:19

(d-r.s @ 17.09.2012 19:21)

Вот одна из таблиц данных "вживую". Ко всему, я ошиблась, не везде распределение "нормализуется" логарифмированием (для оценки распределения пользовалась формулами Пустыльникова (в файле есть формула)), т.к со Statistica 6.0 такие массивы обсчитать не получается. Что посоветуете?

скачал, открыл в гнумерике.

1. "Многоэтажный" заголовок таблицы увы не дает мне полной информации о том какие колонки хватать для анализа

a) судя по всему показатели давления продублированы? это до и после воздействия, или трансформация?

б) во второй группе показателей цветом выделено 12 блоков, что из этого брать для анализа?

Все вместе под 200 переменных, это уже биоинформатика начнется. Там любят 9000 переменных на сотню молекул

Изначально речь шла что переменных 17-20?

2. Номер группы Вы зря объединили с номером больного, лучше это в разных колонках писать. Так ее придется резать для использования. (а понимаю, это метку для графиков так синтезировали?)

PS у Л10.2 очевидно в показателях давления затерялась опечатка?

Картинки:

_________________2012_09_17_20_59_13.png — (14.81)

d-r.s, 17.09.2012 21:07

Извините, что без пояснений (
СМАД-данные колонок C:BZ, уздг от CA:HN.
Голубая заливка - первая точка (начальная) (в заголовке последняя цифра 1), белый фон -после воздействия препарата (цифра3 - последняя в заголовках, т.к для других методов обследования есть 2). по уздг группы дополнительно делятся пополам на показатели слева и справа.
писала "группы по 17 обследуемых, для каждого - 26 данных по давлению и 72 - по кровотоку" По уздг - скорости и индексы по разным сосудам; смад - средние, максимальные, минимальные значения АД и их индексы за сутки.
данная таблица - объединенная для 4 групп; кроме номеров, группы (в данных по смад) различаются цветом шрифта

d-r.s, 17.09.2012 21:38

да, mn.дв.пр1 -Л10 надо 4136. огрех ручного ввода (

Nastja, 17.09.2012 22:28

PS2004R, Вы еще думаете, что все просто?

Тут на самом деле для каждого пациента по давлению не просто несколько параметров, а несколько меняющихся во времени параметров, для которых приведены характеристики их нормального распределения (насколько обоснованно?).

Мне кажется, тут надо начать с "человеческой" формулировки задачи - что именно надо посмотреть? Не пользуясь статистическими терминами, как можно сформулировать задачу?

d-r.s, 17.09.2012 23:04

Цитата моего научного руководителя: "Сделать сплошной корреляционный анализ всех показателей, как обычно это делается, а далее будем выбирать" Ищем связь показателей кровотока и давления. Рассуждая логически, можно не брать для корреляции параметры уздг после ET - это крайне изменчивые показатели по разным отделам позвоночных артерий, их корреляции с показателями АД, пожалуй, можно считать случайными. Можно ожидать (по аналогам) связь показателей "ср.сад" и "ср.пад" (ср.=средних,) , также данных в столбцах C,D и AO,AP, AM,AN и BY,BZ - с показателями столбцов CA:DV или CA:ET (параметры крупных сосудов шеи). Связь показателей чсс (пульс) с показателями уздг тоже маловероятна. И, пожалуйста, скажите доступным языком (для передачи научному руководителю ;-) ) почему такие массивы "сразу все вместе" не "коррелируют"

Nastja, 17.09.2012 23:40

d-r.s, научный руководитель этой фразой предложил Вам метод, причем не самый удачный (я так поняла, он имел в виду сравнение каждого с каждым?), а не поставил задачу. "Искать связь между кровотоком и давлением" - уже лучше, но у Вас тут еще дополнительные условия - 4 группы, прием препарата, так что, видимо, можно сформулировать конкретнее. У Вас есть обоснованные предположения о возможной связи, это очень хорошо. По поводу параметров, которые измерялись в течение суток - Вам доступны исходные данные?

Почему нельзя сравнить каждый с каждым? Доступным языком? Да про это даже картинка есть: http://www.explainxkcd.com/2011/04/06/significant/

PS2004R, 17.09.2012 23:59

(d-r.s @ 17.09.2012 21:07)

Извините, что без пояснений (
СМАД-данные колонок C:BZ, уздг от CA:HN.
Голубая заливка - первая точка (начальная) (в заголовке последняя цифра 1), белый фон -после воздействия препарата (цифра3 - последняя в заголовках, т.к для других методов обследования есть 2). по уздг группы дополнительно делятся пополам на показатели слева и справа.
писала "группы по 17 обследуемых, для каждого - 26 данных по давлению и 72 - по кровотоку" По уздг - скорости и индексы по разным сосудам; смад - средние, максимальные, минимальные значения АД и их индексы за сутки.
данная таблица - объединенная для 4 групп; кроме номеров, группы (в данных по смад) различаются цветом шрифта

давайте посмотрим насколько я понял:

1) данные давления 26 показателей измеренных дважды (до и после воздействия).

2) данные кровотока 72х2

CODE

> 26*2+72*2
[1] 196

очевидно есть еще переменные?

3) я "вижу" данные у себя в R вот так (221 переменная) лучше ссылаться по этим номерам и именам.

CODE

> names(data)
[1] "код.группы.и.б.го" "сад1" "дад1"
[4] "чсс1" "ср.сис1" "ср.диа1"
[7] "ср.сад1" "ср.пад1" "ср.чсс1"
[10] "ср.дв.пр1" "mx.сис1" "mx.диа1"
[13] "mx.сад1" "mx.пад1" "mx.чсс1"
[16] "mx.дв.пр1" "mn.сис1" "mn.диа1"
[19] "mn.сад1" "mn.пад1" "mn.чсс1"
[22] "mn.дв.пр1" "sd.сис1" "sd.диа1"
[25] "sd.сад1" "sd.пад1" "sd.чсс1"
[28] "sd.дв.пр1" "di.сис1" "di.диа1"
[31] "di.сад1" "hx.сис1" "hx.диа1"
[34] "hx.сад1" "ht.сис1" "ht.диа1"
[37] "ht.сад1" "суп_с1" "суп_д1"
[40] "сад3" "дад3" "чсс3"
[43] "ср.сис3" "ср.диа3" "ср.сад3"
[46] "ср.пад3" "ср.чсс3" "ср.дв.пр3"
[49] "mx.сис3" "mx.диа3" "mx.сад3"
[52] "mx.пад3" "mx.чсс3" "mx.дв.пр3"
[55] "mn.сис3" "mn.диа3" "mn.сад3"
[58] "mn.пад3" "mn.чсс3" "mn.дв.пр3"
[61] "sd.сис3" "sd.диа3" "sd.сад3"
[64] "sd.пад3" "sd.чсс3" "sd.дв.пр3"
[67] "di.сис3" "di.диа3" "di.сад3"
[70] "hx.сис3" "hx.диа3" "hx.сад3"
[73] "ht.сис3" "ht.диа3" "ht.сад3"
[76] "суп_с3" "суп_д3" "O.l.mx1"
[79] "O.l.mn1" "O.l.vav1" "O.l.ri1"
[82] "O.l.pi1" "O.l.id1" "O.r.mx1"
[85] "O.r.mn1" "O.r.vav1" "O.r.ri1"
[88] "O.r.pi1" "O.r.id1" "O.l.mx3"
[91] "O.l.mn3" "O.l.vav3" "O.l.ri3"
[94] "O.l.pi3" "O.l.id3" "O.r.mx3"
[97] "O.r.mn3" "O.r.vav3" "O.r.ri3"
[100] "O.r.pi3" "O.r.id3" "B.l.mx1"
[103] "B.l.mn1" "B.l.vav1" "B.l.ri1"
[106] "B.l.pi1" "B.l.id1" "B.r.mx1"
[109] "B.r.mn1" "B.r.vav1" "B.r.ri1"
[112] "B.r.pi1" "B.r.id1" "B.l.mx3"
[115] "B.l.mn3" "B.l.vav3" "B.l.ri3"
[118] "B.l.pi3" "B.l.id3" "B.r.mx3"
[121] "B.r.mn3" "B.r.vav3" "B.r.ri3"
[124] "B.r.pi3" "B.r.id3" "H.l.mx1"
[127] "H.l.mn1" "H.l.vav1" "H.l.ri1"
[130] "H.l.pi1" "H.l.id1" "H.r.mx1"
[133] "H.r.mn1" "H.r.vav1" "H.r.ri1"
[136] "H.r.pi1" "H.r.id1" "H.l.mx3"
[139] "H.l.mn3" "H.l.vav3" "H.l.ri3"
[142] "H.l.pi3" "H.l.id3" "H.r.mx3"
[145] "H.r.mn3" "H.r.vav3" "H.r.ri3"
[148] "H.r.pi3" "H.r.id3" "V3.l.mx1"
[151] "V3.l.mn1" "V3.l.vav1" "V3.l.ri1"
[154] "V3.l.pi1" "V3.l.id1" "V3.r.mx1"
[157] "V3.r.mn1" "V3.r.vav1" "V3.r.ri1"
[160] "V3.r.pi1" "V3.r.id1" "V3.l.mx3"
[163] "V3.l.mn3" "V3.l.vav3" "V3.l.ri3"
[166] "V3.l.pi3" "V3.l.id3" "V3.r.mx3"
[169] "V3.r.mn3" "V3.r.vav3" "V3.r.ri3"
[172] "V3.r.pi3" "V3.r.id3" "V3.2.l.mx1"
[175] "V3.2.l.mn1" "V3.2.l.vav1" "V3.2.l.ri1"
[178] "V3.2.l.pi1" "V3.2.l.id1" "V3.2.r.mx1"
[181] "V3.2.r.mn1" "V3.2.r.vav1" "V3.2.r.ri1"
[184] "V3.2.r.pi1" "V3.2.r.id1" "V3.2.l.mx3"
[187] "V3.2.l.mn3" "V3.2.l.vaV3.2" "V3.2.l.ri3"
[190] "V3.2.l.pi3" "V3.2.l.id3" "V3.2.r.mx3"
[193] "V3.2.r.mn3" "V3.2.r.vaV3.2" "V3.2.r.ri3"
[196] "V3.2.r.pi3" "V3.2.r.id3" "V4.l.mx1"
[199] "V4.l.mn1" "V4.l.vav1" "V4.l.ri1"
[202] "V4.l.pi1" "V4.l.id1" "V4.r.mx1"
[205] "V4.r.mn1" "V4.r.vav1" "V4.r.ri1"
[208] "V4.r.pi1" "V4.r.id1" "V4.l.mx3"
[211] "V4.l.mn3" "V4.l.vaV4" "V4.l.ri3"
[214] "V4.l.pi3" "V4.l.id3" "V4.r.mx3"
[217] "V4.r.mn3" "V4.r.vaV4" "V4.r.ri3"
[220] "V4.r.pi3" "V4.r.id3"

4. Нужно ли сохранить после редукции числа показателей понятия "до", "после" приема препарата, и "право", "лево"?

5. Предполагается ли сравнить группы пациентов между собой? Или нужен анализ только внутри групп?

PS2004R, 18.09.2012 00:04

(Nastja @ 17.09.2012 22:28)

PS2004R, Вы еще думаете, что все просто?

Тут на самом деле для каждого пациента по давлению не просто несколько параметров, а несколько меняющихся во времени параметров, для которых приведены характеристики их нормального распределения (насколько обоснованно?).

Мне кажется, тут надо начать с "человеческой" формулировки задачи - что именно надо посмотреть? Не пользуясь статистическими терминами, как можно сформулировать задачу?

ничего, прорвемся

PS по сравнению с тем что я сейчас решаю это "отдых ума"

я бы относительно некоторых (ни в коем случае не этого задания) заданий по анализу данных сказал бы так: если анализ данных искусство, то это в нем порнография

)

Nastja, 18.09.2012 00:20

PS2004R, но я бы не стала вот так просто рассматривать среднее, максимальное, минимальное, стандартное отклонение, дисперсию и еще две какие-то страшные характеристики гистограммы как отдельные показатели.

d-r.s, 18.09.2012 06:48

PS2004R, я поняла, что следует считать себя блондинкой ( количество данных "выдала" при подсчете автозополнением, не заметив, что многие ячейки в тот момент были объединены в области названия!!!! (для предоставления на форум их "расцепила"). их таки 220 "полезных"+1-код б-го
и данные смад (давления), и уздг(кровоток) измерены дважды - "до" и "после"
4."до", "после"- вероятно, нужно по отдельности, причем как для смад, так и для уздг - цель данного исследования - выяснить динамику показателей при воздействии препарата; "право", "лево" можно объединить.
5.внутри объединенной группы, и группы между собой (причем еще в группах, объединенных согласно дозе и виду препарата - в "код группы и б-го" : буква-вид препарата, 1я цифра-доза, 2-я -№ пациента. т.е группы еще объединяются к10+к20 против л10+л40, и к10+л10 против к20+л40) Так предполагалось, исходя из идеи "Сделать сплошной корреляционный анализ..", так как эти группы и их объединения (с такой разбивкой) была задача сравнить по динамике каждого показателя в %. если нет смысла, то и не надо, конкретно эта задача именно таким образом прописана не была.

для смад - не знаю, что можно объединить.
обозначения для смад подробней - (м.б поможет при объединении) сис. – систолическое АД, диа. – диастолическое ад, сад - среднее ад (НО! колонки C,D и AO,AP - сад -это систолическое ад!) пад - пульсовое ад, дв.произв - "двойное произведение=чсс*систолич ад"; ср. – усредненные показатели, sd – стандартное отклонение, di – суточный индекс (не дисперсия), hx – временной индекс, ht – индекс площади; суп – скорость утреннего подъёма АД. если надо - напишу конкретнее и формулы.

Nastja, 18.09.2012 07:26

d-r.s, так у Вас есть доступные исходные данные, до вычисления всяких индексов и отклонений?

PS2004R, 18.09.2012 09:23

(Nastja @ 18.09.2012 00:20)

PS2004R, но я бы не стала вот так просто рассматривать среднее, максимальное, минимальное, стандартное отклонение, дисперсию и еще две какие-то страшные характеристики гистограммы как отдельные показатели.

если задача различить группы между собой, то это задача ML. в ней принято гистограмму использовать как приведение вариационного ряда к стандартному сравнимому виду (конечному числу показателей).

вот например такая техника на примере http://forum.disser.ru/index.php?showtopic...indpost&p=12224 вот с этого сообщения изложено по шагам.

PS2004R, 18.09.2012 09:34

(d-r.s @ 18.09.2012 06:48)

и данные смад (давления), и уздг(кровоток) измерены дважды - "до" и "после"

4."до", "после"- вероятно, нужно по отдельности, причем как для смад, так и для уздг - цель данного исследования - выяснить динамику показателей при воздействии препарата; "право", "лево" можно объединить.

тогда по списку переменных который я указывал выше разбейте номера переменных на эти группы

давление --- группа "до", группа "после"
поток --- группа "до", группа "после"

сам я боюсь запутаться и зря потратить время, Вам как автору данных это будет сделать проще.

я предполагаю редуцировать данные "до" (попутно выяснив что остается достоверно в "сухом остатке"), затем трансформировать в такой же вид "после".

затем уже с небольшим числом компонент можно сделать cca (или даже обычный pca). подмеченные в ходе такой разведки особенности (если таковые будут) в данных можно будет уже посчитать обычной статистикой.

PS2004R, 18.09.2012 09:42

(Nastja @ 18.09.2012 07:26)

d-r.s, так у Вас есть доступные исходные данные, до вычисления всяких индексов и отклонений?

скорее всего они будут разного числа измерений не сводимых напрямую в плоскую таблицу

Nastja, 18.09.2012 09:54

PS2004R, так это не просто гистограммы - это некие показатели, меняющиеся со временем.

PS2004R, 18.09.2012 10:37

(Nastja @ 18.09.2012 09:54)

PS2004R, так это не просто гистограммы - это некие показатели, меняющиеся со временем.

ну хорошо. есть вариационный ряд до и вариационный ряд после. в чем проблема заменить их гистограммами на одинаковых интервалах группирования? или в чем проблема вместо самих вариационных рядов предоставить параметры некой функции подогнанной в эти ряды?

получить статистику введенного показателя и доказывать относительно его статгипотезы можно бутстрепом. или использовать как разведочный метод и выявленные эффекты доказывать параметрической статистикой на первичных показателях.

викепидист, 18.09.2012 10:38

(d-r.s @ 17.09.2012 23:04)

Цитата моего научного руководителя: "Сделать сплошной корреляционный анализ всех показателей, как обычно это делается

Проблема в том, что никто толком не знает «как это обычно это делается».

d-r.s, 18.09.2012 16:58

параметры давления до: 2-39, после: 40-77 (из этого смад: до: 5-37, после: 43-75); уздг до: 78-89, 102-113, 126-137, 150-161, 174-185, 198-209. после: 90-101, 114-125,138-149, 162-173, 186-197, 210-221.
Nastja, исходные данные для смад - систолическое+диастолическое давление+чсс измеренные с достаточно равными промежутками в течение суток, но количество измерений ~65-80 на 1 пациента (бывают внеочередные, бывают пропуски). те усредненные данные, ктр у меня в форме 1 строки на 1 пациента - аппарат выдает в виде массива 6*21 (неправильной формы), сразу вместе со всеми этими индексами, причем если пересчитывать индексы в xls - они немного не совпадают с "приборными" , аппарат их преобразует как-то ).
уздг - аппарат УЗИ считает и "выдает" и индексы по доступным формулам, поэтому для облегчения ввода в xls я их "автозаполняла"; так что их тоже можно считать первичными данными.

d-r.s, 18.09.2012 17:06

редуцировать уздг можно, как уже говорила, объединив данные с 2х сторон и, возможно, убрав значения 150-221. в давлении можно убрать все значения "чсс", и, возможно, "дв.произв". Если надо, пришлю таблицу, убрав их самостоятельно )

Nastja, 18.09.2012 17:16

PS2004R, не совсем так - есть зависимость некоей величины от времени до приема препарата и после приема препарата. Я бы не стала это так сразу сводить к двум вариационным рядам.

d-r.s, 18.09.2012 17:32

время от "до" до "после" - 3мес.

Nastja, 18.09.2012 17:47

d-r.s, я правильно понимаю, что динамика в течение суток совершенно несущественна?
Количество измерений на одного пациента хорошее, так что, пожалуй, и правда можно работать с параметрами распределений.

d-r.s, 18.09.2012 20:19

Nastja, не совсем поняла вопрос - параметры смад - объективное (более-менее) отражение динамики артериального давления за сутки. По всем другим исследованиям динамика в течении суток не учитывается.

PS2004R, 18.09.2012 21:11

(d-r.s @ 18.09.2012 16:58)

параметры давления до: 2-39, после: 40-77 (из этого смад: до: 5-37, после: 43-75); уздг до: 78-89, 102-113, 126-137, 150-161, 174-185, 198-209. после: 90-101, 114-125,138-149, 162-173, 186-197, 210-221.
Nastja, исходные данные для смад - систолическое+диастолическое давление+чсс измеренные с достаточно равными промежутками в течение суток, но количество измерений ~65-80 на 1 пациента (бывают внеочередные, бывают пропуски). те усредненные данные, ктр у меня в форме 1 строки на 1 пациента - аппарат выдает в виде массива 6*21 (неправильной формы), сразу вместе со всеми этими индексами, причем если пересчитывать индексы в xls - они немного не совпадают с "приборными" , аппарат их преобразует как-то ).
уздг - аппарат УЗИ считает и "выдает" и индексы по доступным формулам, поэтому для облегчения ввода в xls я их "автозаполняла"; так что их тоже можно считать первичными данными.

хорошо, я начал ковырять....

К10.8 нет ли ошибки в данных? в районе ht.диа1, ht.сад1 ?

дело в том что случаев действительно немного и опечатки сразу порождают лишние компоненты.
так что я по мере выявления в анализе подозрительных данных буду сразу спрашивать.

PS Красивые картинки рисует

весьма симметричненько

это после prcomp(data[,c(2:39,43:75)], scale.=FALSE, center=FALSE)

Картинки:

_________________2012_09_18_22_36_50.png — (32.11)

PS2004R, 18.09.2012 21:18

(Nastja @ 18.09.2012 17:16)

PS2004R, не совсем так - есть зависимость некоей величины от времени до приема препарата и после приема препарата. Я бы не стала это так сразу сводить к двум вариационным рядам.

я не пытаюсь сейчас доказывать гипотезы, я всего лишь пытаюсь свернуть всю дисперсию данных в обозримое число измерений. природа показателей которые дали дисперсию на этот процесс по моему повлиять не может.

d-r.s, 18.09.2012 22:49

PS2004R, в к10.8 ошибки нет (это при монотонно повышенном давлении такие цифры выдает, бывает и больше). алгоритм расчета нигде не нашла.
А симметричные картинки о чем говорят? для меня это китайская грамота (((

PS2004R, 18.09.2012 23:09

(d-r.s @ 18.09.2012 22:49)

PS2004R, в к10.8 ошибки нет (это при монотонно повышенном давлении такие цифры выдает, бывает и больше). алгоритм расчета нигде не нашла.
А симметричные картинки о чем говорят? для меня это китайская грамота (((

он довольно аномален по отношению к остальным случаям.

в данной картинке собственно и отражена ковариация между переменными давления. то что она такая симметричная позволяет сразу описать связь по "до" и "после".

например максимальное давление (mx?) до и после воздействия связано связью --- (на уровне наблюдаемых случаев) одно растет, второе убывает и наоборот. а минимальное давление (хотя и слабее такая связь) изменяется однонаправлено и практически независимо от максимального (скажем так с минимальной отрицательной корреляцией).

опишу зависимости, тут надо немного подумать над картинками, и прогнать тесты чему можно доверять в картинке. но данные в целом качественные.

d-r.s, 18.09.2012 23:20

(PS2004R @ 19.09.2012 00:09)

он довольно аномален по отношению к остальным случаям.

ну..бывает.

(PS2004R @ 19.09.2012 00:09)

опишу зависимости, тут надо немного подумать над картинками, и прогнать тесты чему можно доверять в картинке. но данные в целом качественные.

Спасибо Вам огромное !!!

PS2004R, 19.09.2012 09:21

Порция 1.

Определимся в какую размерность укладывается корреляционная картина по а) давлению и б) узи данным.

Для этого отлично подходит бутсртеп +рандомизация (подробнее http://p2004r.blogspot.com/2011/04/blog-post.html)

CODE

my.boot.pca <- function(data){

### получаем коррелированные перевыборки из исходной
data.boot<- replicate(100,
prcomp(data[sample(1:nrow(data),
size=nrow(data),
replace=T),],
center=T,
scale.=T)$sdev)

### получаем некоррелированные перевыборки из исходной
data.boot.random <- replicate(100,
prcomp(apply(data,2,
function(x) x[sample(1:length(x),
size=length(x),
replace=T)]),
center=T,
scale.=T)$sdev)

### объединяем оба набора собственных значений принципиальных компонент
data.boot<- cbind(data.boot, data.boot.random)

### преобразуем в "длинный" формат, для построения графика
library(reshape)
dimnames(data.boot)<-list(1:length(data.boot[,1]),
paste("v", 1:length(data.boot[1,]), sep=""))
data.melt<- melt.matrix(data.boot,
varnames=names(dimnames(data.boot)))

data.melt
}

# строим график всех перевыборок собственных значений для ад
data.melt.ad <- my.boot.pca(data[,c(2:39,43:75)])

library(ggplot2)
pcp<- ggplot(data.melt.ad,
aes(X1,
value,
group=X2))
pcp+geom_line(colour=alpha("black",1/12))

# для узи
data.melt.uz <- my.boot.pca(data[,c(78:89, 102:113, 126:137, 150:161, 174:185, 198:209, 90:101, 114:125,138:149, 162:173, 186:197, 210:221)])

library(ggplot2)
pcp<- ggplot(data.melt.uz,
aes(X1,
value,
group=X2))
pcp+geom_line(colour=alpha("black",1/12))

# вместе
data.melt <- my.boot.pca(data[,c(2:39,43:75, 78:89, 102:113, 126:137, 150:161, 174:185, 198:209, 90:101, 114:125,138:149, 162:173, 186:197, 210:221)])
library(ggplot2)
pcp<- ggplot(data.melt,
aes(X1,
value,
group=X2))
pcp+geom_line(colour=alpha("black",1/12))

по получившейся картине мы смело выделяем 6 компонент у давления и 7 у узи. вместе все помещается в 10 независимых компонент.

Картинки:

_________________2012_09_19_08_53_51.png — (45.89)

_________________2012_09_19_09_07_43.png — (48.66)

_________________2012_09_19_09_18_56.png — (49.94)

PS2004R, 19.09.2012 15:57

Порция 2.

CODE

pca.ad<-prcomp(data[,c(2:39,43:75)])

PC1 отражает некий общий фактор -- насколько давление велико

PC2 mx.дв.пр3 и mx.дв.пр1 находятся в "противофазе" вот крайние точки

CODE

> data[c(3,19),]$mx.дв.пр3
[1] 19350 10872
> data[c(3,19),]$mx.дв.пр1
[1] 12160 16464

sd у обоих дв.пр ведут себя аналогично mx, но эта взаимосвязь выраженна слабо

крайние случаи для sd

CODE

> data[c(24,20),]$sd.дв.пр3
[1] 3983 2388
> data[c(45,20),]$sd.дв.пр1
[1] 1892 3454

PC3 нагружена однонаправлено изменяющиемися mn.дв.пр
крайние случаи

CODE

> data[c(38,22),]$mn.дв.пр3
[1] 4183 5152
> data[c(38,22),]$mn.дв.пр1
[1] 5049 5152

средние давления изменяются однонаправлено с максимальными и минимальными

PC4 отражает тот факт, что sd у дв.пр ведут себя в противофазе с mn

крайние точки

CODE

> data[c(47,43),]$mn.дв.пр1
[1] 7869 5088
> data[c(47,43),]$sd.дв.пр1
[1] 1524 3106
> data[c(47,43),]$mn.дв.пр3
[1] 5141 7314
> data[c(47,43),]$sd.дв.пр3
[1] 3562 1673

PC5-6 отражают 1) тот факт что когда максимумы и минимумы растут у дв.пр.
одновременно sd и среднее уменьшаются. причем большой размах "до"
сопровождается тенденцией к большим значениям ср и sd после. а большой размах
"после" имеет место при высоком ср и sd "до".

2) ну и большой размах ведет к низкому среднему и sd.

Картинки:

_________________2012_09_19_15_22_20.png — (32.53)

_________________2012_09_19_15_54_33.png — (34.96)

_________________2012_09_19_15_55_26.png — (35.14)

PS2004R, 19.09.2012 16:44

Вот например компонента 2 и 3

CODE

plot(pca.ad$x[,3],
pca.ad$x[,2],
bg=c("grey50", "white")[factor(data$mx.дв.пр1<data$mx.дв.пр3)],
pch=21,
col=c("red","green")[factor((data$mn.дв.пр1+data$mn.дв.пр3>mean(data$mn.дв.пр1+data$mn.дв.пр3)))])

цветом мы показываем превышение суммы минимальных значений над средним.

заполненность отражает факт неравенства максимального давления "до" и "после".

Картинки:
картинка: _________________2012_09_19_16_21_35.png

_________________2012_09_19_16_21_35.png — (23.7)

d-r.s, 19.09.2012 19:59

PS2004R, спасибо!!!! огромную работу проделали!! скопировала, буду изучать )

Nastja, 20.09.2012 08:06

d-r.s, Вам в этом придется еще какой-то биологический смысл найти

> Все форумы > Тематические форумы > Биофизика и матметоды в биологии
[ Вход \| Регистрация ]	Помощь · Поиск · Участники · Календарь