狠狠撸

狠狠撸Share a Scribd company logo
如何选择数据分析方法 ? 吴喜之
数据和目的相结合的出发点 1.  相关分析及回归类模型 ( 相关 、 简单的回归、 Logistic 回归、对数线性模型 、 方差分析和一般线性模型 ) 2.  经典多元分析内容 ( 主成分分析、因子分析 、 聚类分析 、 判别分析 、 对应分析 )
主要涉及的相关问题 什么是相关? 列联表中定性变量的相关 (Fisher &  ? 2 检验 ) 定量变量的相关 (Pearson 相关系数 (r) , Kendall’s  ? 、 Spearman’  ? )
基本统计书中的估计和假设检验所涉及的仅仅是对一些互相没有关系的变量的描述。但是现实世界的问题都是相互联系的。不讨论变量之间的关系,就无从谈起任何有深度的应用;而没有应用,前面讲过的那些基本概念就仅仅是摆设而已。
变量间的关系 人们每时每刻都在关心事物之间的关系。 比如, 职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。 这些都是 二元 的关系。 还有更复杂的 诸多变量之间的相互关系 , 比如 公司的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系是不能用简单的一些二元关系所描述的。
例 1 广告投入和销售之间的关系 (数据 ads.sav )
这是什么关系? 这两个变量是否有关系?显然,它们有关系;这从散点图就很容易看出。 基本上销售额是随着广告投入的递增而递增。 如果有关系,它们的关系 是否显著? 这也可以从散点图得到。当广告投入在 6 万元以下,销售额增长很快;但大于这个投入时,销售额增长就不明显了。因此, 这两个变量的关系是由强变弱。  这些关系是什么关系, 是否可以用数学模型来描述? 本例看上去是可以拟合一个回归模型(后面会介绍),但绝不是线性的(用一条直线可以描述的)。具体细节需要进一步的分析
这是什么关系? 这个关系是否带有普遍性? 也就是说,仅仅这一个样本有这样的关系,还是对于其他公司也有类似的规律。这里的数据还不足以回答这个问题。可能需要考虑更多的变量和收集更多的数据。一般来说,人们希望能够从一些特殊的样本,得到普遍的结论,以利于预测。  这个关系是不是因果关系? 在本问题中,看来 似乎 有因果关系。这类似于一种试验;而试验时是容易找到因果关系的。但是,一般来说,变量之间有关系但绝不意味着存在因果关系。 这里充满了危险和未知! ?
定性变量间的关系 (对于某项政策调查所得结果 : table7.sav ) 大致可以看出女性赞成的多,低收入赞成的多(还有吗?)  ? 观点:赞成 观点:不赞成 ? 低收入 中等收入 高收入 低收入 中等收入 高收入 男 20 10 5 5 8 10 女 25 15 7 2 7 9
? 观点:赞成 (1) 观点 : 不赞成 (0) ? 低收 入 (1) 中等收入 (2) 高收入 (3) 低收入 (1) 中等收入 (2) 高收入 (3) 男 1 20 10 5 5 8 10 女 0 25 15 7 2 7 9
列联表 (contingency table). 前面就是一个所谓的三维 列联表 这些变量中 每个都有两个或更多的可能取值 。这些取值也称为 水平 ;比如收入有三个水平,观点有两个水平,性别有两个水平等。 该表为 3×2×2 列联表 在 SPSS 数据中,表就不和课本印的一样,收入的“低”、“中”、“高”用代码 1 、 2 、 3 代表;性别的“女”、“男”用代码 0 、 1 代表;观点“赞成”和“不赞成”用 1 、 0 代表。有些计算机数据对于这些代码的形式不限( 可以是数字,也可以是字符串 )。
Table7.sav  数据
列联表 列联表的中间各个变量不同水平的交汇处,就是这种水平组合出现的频数或 计数 ( count )。 列联表可以有很多维。维数多的叫做 高维列联表。 注意前面这个列联表的变量都是定性变量 ; 但列联表也会带有 定量变量作为协变量。
二维列联表的检验   研究列联表的一个主要目的是看这些变量是否相关。比如 前面例子中的 收入和观点 是否相关 。 这需要形式上的检验
二维列联表的检验 对于上面那样的二维表。我们检验的零假设和备选假设为 H 0 : 观点和收入这两个变量不相关 ; H 1 : 这两个变量相关。 这里的检验统计量在零假设下有(大样本时) 近似的 ? 2 分布。 当该统计量很大时或 p - 值很小时,就可以拒绝零假设,认为两个变量相关。 实际上有不止一个 ? 2 检验统计量。包括 Pearson   ? 2 统计量 和 似然比 ( likelihood ratio ) ? 2 统计量 ;它们都有渐近的 ? 2 分布。 根据计算可以得到(对于这两个统计量均有) p - 值小于 0.001 。因此可以说,收入高低的确影响观点。
Pearson   ? 2 统计量 似然比 ? 2 统计量 O i 代表第 i 个格子的计数, E i 代表按照零假设 (行列无关) 对第 i 格子的计数的期望值
二维列联表的检验 刚才说,这些 ? 2 统计量是近似的,那么 有没有精确的统计量呢? 当然有。这个检验称为 Fisher 精确检验 ;它不是 ? 2 分布,而是 超几何分布 。 对本问题 , 计算 Fisher 统计量得到的 p - 值也小于 0.001 。 既然有精确检验 为什么 还用近似的 ? 2 检验? 这是因为当数目很大时,超几何分布计算相当缓慢(比近似计算会差很多倍的时间);而且在计算机速度不快时,根本无法计算。因此人们多用大样本近似的 ? 2 统计量。而列联表的有关检验也和 ? 2 检验联系起来了。
Fisher 精确检验
SPSS: Weight-Describ-crosstab-exact…
下面为 SPSS 对于 table7.savs 数据产生的 下面二维列联表 相关分析的输出
两个定量变量的相关  如果两个定量变量没有关系,就谈不上建立模型或进行回归。 但怎样才能确定两个变量有没有关系呢 ? 最简单的办法就是画出它们的散点图。
例 1  有 50 个从初中升到高中的学生 . 为了比较初三的成绩是否和高中的成绩相关 , 得到了他们在初三和高一的各科平均成绩 ( 数据 :highschool.sav) 从这张图可以看出什么呢 ?
问题是 怎么判断这两个变量是否相关 ? 如何相关 ? 相关的度量是什么 ? 进一步的问题是能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。
四组数据 ( 每个有两个变量的样本 ) 的散点图
几种相关的度量 Pearson 相关系数 , 又叫相关系数或线性相关系数。它一般用字母 r 表示 . Kendall  ?   相关系数 ( Kendall’s  ? ) 这里的度量原理是把所有的样本点配对 , 看每一对中的 x 和 y 是否都增加来判断总体模式 . Spearman  秩相关系数 , 它和 Pearson 相关系数定义有些类似 , 只不过在 定义中把点的坐标换成各自样本的秩 . 它们各自都有以不相关为零假设的检验 , 即 p- 值小则相关 . 但 各自的相关含义不尽相同 . 现在再来看例 1 的数据 (highschool.sav). 对于初三和高一成绩的相关系数的结果是 Pearson 相关系数, Kendall  ?   和 Spearman  秩相关系数分别为 0.795, 0.595 和 0.758 。
SPSS 的 相关分析 相关分析 (hischool.sav ) 利用 SPSS 选项: Analize - Correlate - Bivariate 再把两个有关的变量 ( 这里为 j3 和 s1) 选入,选择 Pearson , Spearman 和 Kendall 就可以得出这三个相关系数和有关的检验结果了 ( 零假设均为不相关 ) 。
例子 x=-20:20 y=x^2
例子 x=-20:20 y=x^2
例子 x=1:41 y=x^5
例子 x=1:41 y=x^5
多个(定性或定量)变量间的关系  比如 对于高等学校的数据的一些指标包括 : 定量变量 ( 在校生人数、研究生比例 ,  教师人数、教师占雇员的比例、教师学生比例、 SCI 和 SSCI 文章数目和引用数目、科研项目数和科研总经费) 和定性变量( 所属于分类、所在地区分类 ) 等
在许多变量之中 比如,可得 任何一个变量和其余变量 (无论定量还是定性 )之间的定量关系 (回归或线性模型) 或者 多个 (定量) 变量之间的定量关系 ( 因而可以建立模型,进行预测和各种推断 ) (典型相关分析、对应分析) 也可以利用其中一些 (定量) 变量把 各个高等学校分类 ( 聚类分析、判别分析 ) 还可以 把众多的变量用少数几个 (定量) 变量代替以利于分析和理解 (主成分分析、因子分析) 可以 作为高校排名的根据之一 。所有这些都是未来章节的内容。  (主成分分析、因子分析)

More Related Content

Viewers also liked (17)

Bay JS Linked In PP
Bay JS Linked In PPBay JS Linked In PP
Bay JS Linked In PP
raygalvin
?
Describing People
Describing PeopleDescribing People
Describing People
Pacho Ochoa
?
Watson analytics - predict and explore
Watson analytics - predict and exploreWatson analytics - predict and explore
Watson analytics - predict and explore
Optimum - Strategic IT Consulting
?
Life with gene
Life with geneLife with gene
Life with gene
Diane Wallace
?
my goals presentation
my goals presentationmy goals presentation
my goals presentation
Manuel Rubio
?
Meals on Wheels
Meals on WheelsMeals on Wheels
Meals on Wheels
beajx3
?
The Gift Of Life.
The Gift Of  Life.The Gift Of  Life.
The Gift Of Life.
Dea Dea
?
Pay it forward
Pay it forwardPay it forward
Pay it forward
viniciopintos
?
VIVIANA BELTRANVIVIANA BELTRAN
VIVIANA BELTRAN
savivi31
?
My biography
My biographyMy biography
My biography
viniciopintos
?
A common word
A common wordA common word
A common word
Anisa Taha
?
Principales monedasPrincipales monedas
Principales monedas
Cesar Enrique
?
Pre projetoPre projeto
Pre projeto
Jennifer Gon?alves
?
Media Placement Portfolio Lindsay Krupa
Media Placement Portfolio  Lindsay KrupaMedia Placement Portfolio  Lindsay Krupa
Media Placement Portfolio Lindsay Krupa
Lindsay Krupa
?
???????????????????
??????????????????????????????????????
???????????????????
Calvinlok
?
Institute biz&financ plan Q410
Institute biz&financ plan Q410Institute biz&financ plan Q410
Institute biz&financ plan Q410
Ana Soric
?
Bay JS Linked In PP
Bay JS Linked In PPBay JS Linked In PP
Bay JS Linked In PP
raygalvin
?
my goals presentation
my goals presentationmy goals presentation
my goals presentation
Manuel Rubio
?
Meals on Wheels
Meals on WheelsMeals on Wheels
Meals on Wheels
beajx3
?
The Gift Of Life.
The Gift Of  Life.The Gift Of  Life.
The Gift Of Life.
Dea Dea
?
VIVIANA BELTRANVIVIANA BELTRAN
VIVIANA BELTRAN
savivi31
?
Principales monedasPrincipales monedas
Principales monedas
Cesar Enrique
?
Pre projetoPre projeto
Pre projeto
Jennifer Gon?alves
?
Media Placement Portfolio Lindsay Krupa
Media Placement Portfolio  Lindsay KrupaMedia Placement Portfolio  Lindsay Krupa
Media Placement Portfolio Lindsay Krupa
Lindsay Krupa
?
???????????????????
??????????????????????????????????????
???????????????????
Calvinlok
?
Institute biz&financ plan Q410
Institute biz&financ plan Q410Institute biz&financ plan Q410
Institute biz&financ plan Q410
Ana Soric
?

Similar to 如何选择数据分析方法 (6)

卡方考验
卡方考验卡方考验
卡方考验
guest04f780
?
2012.3人教五年下教材分析(蓝色)(1)
2012.3人教五年下教材分析(蓝色)(1)2012.3人教五年下教材分析(蓝色)(1)
2012.3人教五年下教材分析(蓝色)(1)
nrgnrg1982
?
心理与市调资料的厂辫蝉蝉?补尘辞蝉使用手册
心理与市调资料的厂辫蝉蝉?补尘辞蝉使用手册心理与市调资料的厂辫蝉蝉?补尘辞蝉使用手册
心理与市调资料的厂辫蝉蝉?补尘辞蝉使用手册
Charles
?
Education Statistics
Education StatisticsEducation Statistics
Education Statistics
clinic
?
16 2 2_sem適配度指標的潛藏問題:最佳模式難求17-30
16 2 2_sem適配度指標的潛藏問題:最佳模式難求17-3016 2 2_sem適配度指標的潛藏問題:最佳模式難求17-30
16 2 2_sem適配度指標的潛藏問題:最佳模式難求17-30
Jet_Peng
?
2012.3人教五年下教材分析(蓝色)(1)
2012.3人教五年下教材分析(蓝色)(1)2012.3人教五年下教材分析(蓝色)(1)
2012.3人教五年下教材分析(蓝色)(1)
nrgnrg1982
?
心理与市调资料的厂辫蝉蝉?补尘辞蝉使用手册
心理与市调资料的厂辫蝉蝉?补尘辞蝉使用手册心理与市调资料的厂辫蝉蝉?补尘辞蝉使用手册
心理与市调资料的厂辫蝉蝉?补尘辞蝉使用手册
Charles
?
Education Statistics
Education StatisticsEducation Statistics
Education Statistics
clinic
?
16 2 2_sem適配度指標的潛藏問題:最佳模式難求17-30
16 2 2_sem適配度指標的潛藏問題:最佳模式難求17-3016 2 2_sem適配度指標的潛藏問題:最佳模式難求17-30
16 2 2_sem適配度指標的潛藏問題:最佳模式難求17-30
Jet_Peng
?

如何选择数据分析方法