Полная версия страницы  English  

кластерный анализ

moo, 03.10.2012 00:02
проводится кластерный анализ (complete linkage) 7 наблюдений по 5000 переменным.
они распадаются в 3 кластера (размером 3-2-2).
все замечательно.

теперь хочется уменьшить количество переменных (насколько получится, ну, скажем, до 100 штук), чтобы общая картинка и структура кластеров сохранилась. переменные должны быть именно исходными, а не новыми, представляющими из себя какую-то комбинацию исходных.

куда ковырять? можно использовать SPSS, XLSTAT, ну и наверное R.

спасибо.
PS2004R, 03.10.2012 19:31
(moo @ 03.10.2012 00:02)
Ссылка на исходное сообщение  проводится кластерный анализ (complete linkage) 7 наблюдений по 5000 переменным.
они распадаются в 3 кластера (размером 3-2-2).
все замечательно.

теперь хочется уменьшить количество переменных (насколько получится, ну, скажем, до 100 штук), чтобы общая картинка и структура кластеров сохранилась. переменные должны быть именно исходными, а не новыми, представляющими из себя какую-то комбинацию исходных.

куда ковырять? можно использовать SPSS, XLSTAT, ну и наверное R.

спасибо.


7 наблюдений лежит на одной линии уже в пространстве первых 7ми переменных smile.gif сколько сочетаний по 7 переменных можно сделать столько точно проходящих через точки прямых можно провести...

впрочем аналогичными задачами страдает биоинформатика и всякие лингвисты.

биоинформатики имея некую целевую переменную (может быть и фактор описывающий классификацию) проводят кучу тестов (с одной - двумя переменными одновременно) традиционной статистики, отбирая переменные значимо разделяющие... да покарает их святой бонфернони!
(не забудьте про поправку его имени).

что могу предложить я:

делайте бутстреп (этак 10000 перевыборок) на субсетах переменных (например 15-25 процентов от исходного числа, при 5000 исходных это 1000-1500) для кластерного анализа. Это ведь первая задача --- доказать что кластеры выделяются.
Nastja, 03.10.2012 22:13
У меня была аналогичная задача, но для нейронной сети, и я использовала программу Weka. Мне кажется, Вам тоже можно попробовать, я только не знаю, умеет ли она выделять переменные для unsupervised learning, но Вы в крайнем случае можете превратить в supervised, раз кластеры уже известны. Там присутствует несколько алгоритмов, все обычно дают разный результат. Не исключено что и в R что-то такое есть, но я не искала.
guest: 123 , 13.06.2022 08:02
Saxon Mullins 123VEGA says she once had PRAGMATIC PLAY romantic dreams of what her 'first time' would ICONIC GAMING be like. In none was หวยปิงปอง she paralysed by fear in a Sydney ปั่นสล็อต alleyway, aged 18, with a 123GOAL man she had met only minutes earlier. Ms 88KTC Mullins has always maintained FC SLOT this incident - in 2013 - was rape. It spurred AMB CASINO her to push for legal 11HILO reform in Australia, after a long court battle ended with a judge finding the man involved did not realise she hadn't consented to sex.
Это — лёгкая версия форума. Чтобы попасть на полную, щелкните здесь.
Invision Power Board © 2001-2024 Invision Power Services, Inc.