ݺߣ

ݺߣShare a Scribd company logo
Тема 10
Сергей Мастицкий
БГУ, Минск, май 2014
 Регрессионный анализ, включающий как
количественные, так и качественные
предикторы (факторы), называется
ковариционным анализом (ANCOVA)
 Используется все та же функция lm(), но
имеются некоторые особенности
касательно интерпретации результатов
Author: Sergey Mastitsky
10.1. Графическое
представление данных,
подпадающих по случай
ANCOVA
> library(ISwR)
> data(hellung)
> head(hellung)
> help("hellung")
 Два типа культур: с глюкозой
(1) и без глюкозы (2) в
питательной среде
 Измерены концентрация
(conc) и диаметр (diameter)
 Оказывает ли наличие
глюкозы влияние на связь
diameter~conc?
Author: Sergey Mastitsky
> summary(hellung)
Распознана R как
количественная
переменная – не хорошо
Резко асимметричное
распределение
Author: Sergey Mastitsky
> hellung$glucose <-
factor(hellung$glucose, labels =
c("Yes", "No"))
> summary(hellung)
Author: Sergey Mastitsky
> attach(hellung)
> plot(conc, diameter,
pch = as.numeric(glucose))
0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 6e+05
19212325
conc
diameter
Author: Sergey Mastitsky
> legend(locator(), legend =
c("glucose","no glucose"),
pch = 1:2)
0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 6e+05
19212325
conc
diameter
glucose
no glucose
Author: Sergey Mastitsky
 Поскольку имеется выраженная
экспоненциальная зависимость
(обратная), имеет смысл log-
трансформировать данные (также
приводит к ~нормальному
распределению):
> plot(conc, diameter,
pch = as.numeric(glucose),
log = "xy")
Author: Sergey Mastitsky
1e+04 2e+04 5e+04 1e+05 2e+05 5e+05
1920212223242526
conc
diameter
Author: Sergey Mastitsky
> tethym.gluc <-
hellung[glucose == "Yes", ]
> tethym.nogluc <-
hellung[glucose == "No", ]
> lm.nogluc <- lm(log10(diameter)~
log10(conc), data = tethym.nogluc)
> lm.gluc <- lm(log10(diameter)~
log10(conc), data = tethym.gluc)
Author: Sergey Mastitsky
> abline(lm.nogluc)
> abline(lm.gluc)
1e+04 2e+04 5e+04 1e+05 2e+05 5e+05
192021222325
conc
diameter
Author: Sergey Mastitsky
 Линии примерно
параллельны, но не
«идеально»
 Различаются линии по
углам наклона
(=степени зависимости
размера клеток от
плотности популяции)?
 Различаются ли группы
по среднему размеру
клеток?
1e+04 5e+04 2e+05
1920212223242526
conc
diameter
Author: Sergey Mastitsky
10.2. Реализация ANCOVA в R
> AN1 <- lm(log10(diameter) ~
log10(conc)*glucose)
> summary(AN1)
Author: Sergey Mastitsky
При концентрации C, ожидаемое среднее значение
log-диаметра клеток будет суммой:
 Свободного члена уравнения (Intercept), 1.6313
 -0.0532log10C
 0.0034, но только в культуре без глюкозы
 -0.0065log10C, но только в культуре без глюкозы
Author: Sergey Mastitsky
Свободный член и
регрессионный
коэффициент для
культуры с глюкозой
Разница между
группами по
свободному члену и
регрессионому
коэффициенту
Author: Sergey Mastitsky
 Так, для культуры с глюкозой:
log10D = 1.6313 – 0.0532log10C
 Для культуры без глюкозы:
log10D = (1.6313+0.0034) – (0.0532+0.0064)log10C
Author: Sergey Mastitsky
Регрессионный коэффициент в культуре
без глюкозы статистически не отличается
от коэффициента в культуре с глюкозой =>
линии параллельны
Author: Sergey Mastitsky
> AN2 <- lm(log10(diameter) ~
log10(conc) + glucose)
> summary(AN2)
Author: Sergey Mastitsky
 Культура с глюкозой:
log10D = 1.6421 – 0.0554log10C
 Культура без глюкозы:
log10D = (1.6421-0.0282) – 0.0554log10C,
Таким образом, клетки в культуре без глюкозы в
среднем на 6.3% мельче (10-0.0282 = 0.937)
Author: Sergey Mastitsky
 ANCOVA предполагает одинаковые групповые
дисперсии
 Это условие можно проверить так:
> var.test(lm.gluc, lm.nogluc)
Author: Sergey Mastitsky
> anova(AN2)
Author: Sergey Mastitsky

More Related Content

Ковариационный анализ (ANСOVA) в системе R

  • 2.  Регрессионный анализ, включающий как количественные, так и качественные предикторы (факторы), называется ковариционным анализом (ANCOVA)  Используется все та же функция lm(), но имеются некоторые особенности касательно интерпретации результатов Author: Sergey Mastitsky
  • 4. > library(ISwR) > data(hellung) > head(hellung) > help("hellung")  Два типа культур: с глюкозой (1) и без глюкозы (2) в питательной среде  Измерены концентрация (conc) и диаметр (diameter)  Оказывает ли наличие глюкозы влияние на связь diameter~conc? Author: Sergey Mastitsky
  • 5. > summary(hellung) Распознана R как количественная переменная – не хорошо Резко асимметричное распределение Author: Sergey Mastitsky
  • 6. > hellung$glucose <- factor(hellung$glucose, labels = c("Yes", "No")) > summary(hellung) Author: Sergey Mastitsky
  • 7. > attach(hellung) > plot(conc, diameter, pch = as.numeric(glucose)) 0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 6e+05 19212325 conc diameter Author: Sergey Mastitsky
  • 8. > legend(locator(), legend = c("glucose","no glucose"), pch = 1:2) 0e+00 1e+05 2e+05 3e+05 4e+05 5e+05 6e+05 19212325 conc diameter glucose no glucose Author: Sergey Mastitsky
  • 9.  Поскольку имеется выраженная экспоненциальная зависимость (обратная), имеет смысл log- трансформировать данные (также приводит к ~нормальному распределению): > plot(conc, diameter, pch = as.numeric(glucose), log = "xy") Author: Sergey Mastitsky
  • 10. 1e+04 2e+04 5e+04 1e+05 2e+05 5e+05 1920212223242526 conc diameter Author: Sergey Mastitsky
  • 11. > tethym.gluc <- hellung[glucose == "Yes", ] > tethym.nogluc <- hellung[glucose == "No", ] > lm.nogluc <- lm(log10(diameter)~ log10(conc), data = tethym.nogluc) > lm.gluc <- lm(log10(diameter)~ log10(conc), data = tethym.gluc) Author: Sergey Mastitsky
  • 12. > abline(lm.nogluc) > abline(lm.gluc) 1e+04 2e+04 5e+04 1e+05 2e+05 5e+05 192021222325 conc diameter Author: Sergey Mastitsky
  • 13.  Линии примерно параллельны, но не «идеально»  Различаются линии по углам наклона (=степени зависимости размера клеток от плотности популяции)?  Различаются ли группы по среднему размеру клеток? 1e+04 5e+04 2e+05 1920212223242526 conc diameter Author: Sergey Mastitsky
  • 15. > AN1 <- lm(log10(diameter) ~ log10(conc)*glucose) > summary(AN1) Author: Sergey Mastitsky
  • 16. При концентрации C, ожидаемое среднее значение log-диаметра клеток будет суммой:  Свободного члена уравнения (Intercept), 1.6313  -0.0532log10C  0.0034, но только в культуре без глюкозы  -0.0065log10C, но только в культуре без глюкозы Author: Sergey Mastitsky
  • 17. Свободный член и регрессионный коэффициент для культуры с глюкозой Разница между группами по свободному члену и регрессионому коэффициенту Author: Sergey Mastitsky
  • 18.  Так, для культуры с глюкозой: log10D = 1.6313 – 0.0532log10C  Для культуры без глюкозы: log10D = (1.6313+0.0034) – (0.0532+0.0064)log10C Author: Sergey Mastitsky
  • 19. Регрессионный коэффициент в культуре без глюкозы статистически не отличается от коэффициента в культуре с глюкозой => линии параллельны Author: Sergey Mastitsky
  • 20. > AN2 <- lm(log10(diameter) ~ log10(conc) + glucose) > summary(AN2) Author: Sergey Mastitsky
  • 21.  Культура с глюкозой: log10D = 1.6421 – 0.0554log10C  Культура без глюкозы: log10D = (1.6421-0.0282) – 0.0554log10C, Таким образом, клетки в культуре без глюкозы в среднем на 6.3% мельче (10-0.0282 = 0.937) Author: Sergey Mastitsky
  • 22.  ANCOVA предполагает одинаковые групповые дисперсии  Это условие можно проверить так: > var.test(lm.gluc, lm.nogluc) Author: Sergey Mastitsky