2. 4.1. Общий протокол для
выполнения РАД
Zuur et al. (2010) A protocol for data exploration to avoid common
statistical problems. Methods in Ecology & Evolution 1: 3-14
3. Линейная регрессия и ANOVA-подобные методы
Обобщенные линейные модели (GLM)
Обобщенные аддитивные модели (GAM)
Деревья принятия решений
Анализ выживаемости
Нейронные сети
Кластерный анализ
Метод главных компонент (PCA)
Многомерное шкалирование (MDS)
Анализ временных рядов, etc.
Author: Sergey Mastitsky
4. Мусор на входе – мусор на выходе
В частности, исследователи часто игнорируют
математические допущения, лежащие в основе
тех или иных методов
Author: Sergey Mastitsky
5. Для всех Xi
Yi должны быть распределены нормально
дисперсия Yi должна быть однородной
Yi должны быть независимы (=отсутствие
временной или пространственной корреляции)
Отсутствие наблюдений-выборосов
Остатки должны распределяться нормально
iii XY 10
Author: Sergey Mastitsky
6. …анализу данных должно
предшествовать тщательное
изучение их свойств
Разведочный анализ данных (Exploratory data
analysis, EDA) может занимать более 50% всего
времени, затрачиваемого на анализ!
Author: Sergey Mastitsky
7. 1. Формулировка биологической гипотезы.
Выполнение исследования и сбор данных
2. Изучение свойст данных:
- Выбросы среди Y и X
- Однородность дисперсии Y
- Нормальность распределения Y и X
- Проблемы с нулевыми значениями Y
- Коллинеарность среди предикторов (X)
- Взаимодействия среди предикторов
- Независимость значений Y
3. Подгонка статистической модели
Author: Sergey Mastitsky
9. “…нет более мощного статистического
инструмента, чем хорошо подобранный
график” (Chambers et al., 1983)
Всегда начинайте анализ данных с их
визуалиции при помощи графиков, подходящих
ситуации
Chambers, J. M., Cleveland, W. S., Kleiner, B. and Tukey, P. A. (1983) Graphical Methods for Data
Analysis. Wadsworth & Brooks/Cole
Author: Sergey Mastitsky
11. 4.2. Основы создания
графиков в R: диаграммы
рассеяния
Подробнее см.:
http://r-analytics.blogspot.de/2011/10/r-plot.html
http://r-analytics.blogspot.de/2011/10/r_18.html
http://r-analytics.blogspot.de/2011/10/r_28.html
13. Функция общего назначения (generic
function)
Позволяет выполнять тонкую настройку
внешнего вида графиков => имеет очень
много аргументов
Мы коснемся только самых азов этой
огромной темы
Author: Sergey Mastitsky
15. attach() делает содержимое таблицы
данных видимым в т.н. поисковом
окружении R => нет необходимости в $
> attach(LWdata)
> plot(Weight ~ Length)
Author: Sergey Mastitsky
37. 4.3. Основы создания
графиков в R: гистограммы
и диаграммы плотности
вероятности
Подробнее см.:
http://r-analytics.blogspot.de/2011/11/r_06.html
38. Дают представление о форме
распределения данных
В R гистограммы строятся очень просто:
> hist(LWdata$Length)
> hist(LWdata$Weight)
Author: Sergey Mastitsky
41. Часто лучше гистограмм отображают
свойства данных
Кривые плотности рассчитываеются при
помощи функции density()
Эти кривые потом добавляются к графику
при помощи функции lines()
Author: Sergey Mastitsky
46. Позволяют проверить нормальность
распределения данных
Наблюдаемые значени vs. их ожидаемые
квантили => должна получаться
примерно прямая диагональная линия
В R:
> qqnorm(LWdata$Length)
> qqnorm(LWdata$Weight)
Author: Sergey Mastitsky
51. 4.6. Основы создания
графиков в R: столбиковые
диаграммы
Подробнее см.:
http://r-analytics.blogspot.de/2012/01/r_20.html
52. Обобщают информацию о качественных
переменных
Для создания служит функция barplot() (см.
?barlot)
Часто требуется кросс-табуляция при помощи
xtabs()для подготовки таблицы
сопряженности:
> xtabs(~ Treatment)
Treatment
Control A B C
90 89 90 92
Author: Sergey Mastitsky