(moo @ 03.10.2012 00:02)
проводится кластерный анализ (complete linkage) 7 наблюдений по 5000 переменным.
они распадаются в 3 кластера (размером 3-2-2).
все замечательно.
теперь хочется уменьшить количество переменных (насколько получится, ну, скажем, до 100 штук), чтобы общая картинка и структура кластеров сохранилась. переменные должны быть именно исходными, а не новыми, представляющими из себя какую-то комбинацию исходных.
куда ковырять? можно использовать SPSS, XLSTAT, ну и наверное R.
спасибо.
7 наблюдений лежит на одной линии уже в пространстве первых 7ми переменных
сколько сочетаний по 7 переменных можно сделать столько точно проходящих через точки прямых можно провести...
впрочем аналогичными задачами страдает биоинформатика и всякие лингвисты.
биоинформатики имея некую целевую переменную (может быть и фактор описывающий классификацию) проводят кучу тестов (с одной - двумя переменными одновременно) традиционной статистики, отбирая переменные значимо разделяющие... да покарает их святой бонфернони!
(не забудьте про поправку его имени).
что могу предложить я:
делайте бутстреп (этак 10000 перевыборок) на субсетах переменных (например 15-25 процентов от исходного числа, при 5000 исходных это 1000-1500) для кластерного анализа. Это ведь первая задача --- доказать что кластеры выделяются.