湖北省巴东一中高二数学教案 必修三:变量间的相关系

§ 2.3 变量间的相关关系 § 2.3.1 变量之间的相关关系 § 2.3.2 两个变量的线性相关 一、教材分析 变量之间的关系是人们感兴趣的问题. 教科书通过思考栏目 “物理成绩与数学成绩之间的 关系”, 引导学生考察变量之间的关系. 在教师的引导下, 可使学生认识到在现实世界中存在不能 用函数模型描述的变量关系, 从而体会研究变量之间的相关关系的重要性. 随后, 通过探究人体 脂肪百分比和年龄之间的关系, 引入描述两个变量之间关系的线性回归方程(模型). 教科书在 探索用多种方法确定线性回归直线的过程中, 向学生展示创造性思维的过程, 帮助学生理解最 小二乘法的思想. 通过气温与饮料销售量的例子及随后的思考, 使学生了解利用线性回归方程 解决实际问题的全过程, 体会线性回归方程作出的预测结果的随机性, 并且可能犯的错误. 进一 步, 教师可以利用计算机模拟和多媒体技术, 直观形象地展示预测结果的随机性和规律性. 二、教学目标 1. 通过收集现实问题中两个有关联变量的数据认识变量间的相关关系. 2. 明确事物间的相互联系. 认识现实生活中变量间除了存在确定的关系外, 仍存在大量的非 确定性的相关关系, 并利用散点图直观体会这种相关关系. 3. 经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想, 能根据给 出的线性回归方程的系数公式建立线性回归方程. 三、重点难点 教学重点:通过收集现实问题中两个有关联变量的数据直观认识变量间的相关关系;利 用散点图直观认识两个变量之间的线性关系;根据给出的线性回归方程的系数公式建立线性 回归方程. 教学难点:变量之间相关关系的理解;作散点图和理解两个变量的正相关和负相关;理 解最小二乘法的思想. 四、课时安排 2 课时 五、教学设计 第 1 课时 (一)导入新课 思路 1 在学校里, 老师对学生经常这样说:“如果你的数学成绩好,那么你的物理学习就不会有什 么大问题.”按照这种说法, 似乎学生的物理成绩与数学成绩之间存在着一种相关关系. 这种说法 有没有根据呢? 请同学们如实填写下表(在空格中打“√” ): 好 你的数学成绩 你的物理成绩 学生讨论:我们可以发现自己的数学成绩和物理成绩存在某种关系. (似乎就是数学好的, 物理也好;数学差的, 物理也差, 但又不全对. )物理成绩和数学成绩是两个变量, 从经验看, 由于 物理学习要用到比较多的数学知识和数学方法. 数学成绩的高低对物理成绩的高低是有一定影 响的. 但决非唯一因素, 还有其他因素, 如是否喜欢物理, 用在物理学习上的时间等等. (总结:不 能通过一个人的数学成绩是多少就准确地断定他的物理成绩能达到多少. 但这两个变量是有一 定关系的, 它们之间是一种不确定性的关系. 如何通过数学成绩的结果对物理成绩进行合理估 计有非常重要的现实意义. )为很好地说明上述问题, 我们开始学习变量之间的相关关系和两个 中 差

-1-

变量的线性相关.(教师板书课题) 思路 2 某地区的环境条件适合天鹅栖息繁衍,有人经统计发现了一个有趣的现象,如果村庄附 近栖息的天鹅多,那么这个村庄的婴儿出生率也高,天鹅少的地方婴儿的出生率低,于是, 他就得出一个结论:天鹅能够带来孩子. 你认为这样得到的结论可靠吗?如何证明这个结论的 可靠性? (二)推进新课、新知探究、提出问题 (1)粮食产量与施肥量有关系吗?“名师出高徒”可以解释为教师的水平越高, 学生的水平也越 高. 教师的水平与学生的水平有什么关系?你能举出更多的描述生活中两个变量的相关关系的 成语吗? (2)两个变量间的相关关系是什么?有几种? (3)两个变量间的相关关系的判断. 讨论结果: (1)粮食产量与施肥量有关系, 一般是在标准范围内, 施肥越多, 粮食产量越高;教师的水平与 学生的水平是相关的, 如水滴石穿, 三人行必有我师等. 我们还可以举出现实生活中存在的许多相关关系的问题. 例如: 商品销售收入与广告支出经费之间的关系. 商品销售收入与广告支出经费有着密切的联系, 但商品销售收入不仅与广告支出多少有关, 还与商品质量、居民收入等因素有关. 粮食产量与施肥量之间的关系. 在一定范围内, 施肥量越大, 粮食产量就越高. 但是, 施肥量并 不是决定粮食产量的唯一因素. 因为粮食产量还要受到土壤质量、降雨量、田间管理水平等因 素的影响. 人体内的脂肪含量与年龄之间的关系. 在一定年龄段内, 随着年龄的增长, 人体内的脂肪含 量会增加, 但人体内的脂肪含量还与饮食习惯、 体育锻炼等有关, 可能还与个人的先天体质有关. 应当说, 对于上述各种问题中的两个变量之间的相关关系, 我们都可以根据自己的生活、学 习经验作出相应的判断, 因为 “经验当中有规律”. 但是, 不管你的经验多么丰富, 如果只凭经验办 事, 还是很容易出错的. 因此, 在分析两个变量之间的相关关系时, 我们需要一些有说服力的方法. 在寻找变量之间相关关系的过程中, 统计同样发挥着非常重要的作用. 因为上面提到的这 种关系, 并不像匀速直线运动中时间与路程的关系那样是完全确定的, 而是带有不确定性. 这就 需要通过收集大量的数据(有时通过调查, 有时通过实验), 在对数据进行统计分析的基础上, 发现 其中的规律, 才能对它们之间的关系作出判断. (2)相关关系的概念:自变量取值一定时, 因变量的取值带有一定随机性的两个变量之间的关系, 叫做相关关系. 两个变量之间的关系分两类: ①确定性的函数关系, 例如我们以前学习过的一次函数、二次函数等; ②带有随机性的变量间的相关关系, 例如“ 身高者, 体重也重 ”, 我们就说身高与体重这两个变量 具有相关关系. 相关关系是一种非确定性关系. 如商品销售收入与广告支出经费之间的关系. (还与商品质量、居民收入、生活环境等有关) (3)两个变量间的相关关系的判断:①散点图. ②根据散点图中变量的对应点的离散程度, 可以准 确地判断两个变量是否具有相关关系. ③正相关、负相关的概念. ①教学散点图 出示例题:在一次对人体脂肪含量和年龄关系的研究中, 研究人员获得了一组样本数据: 年龄 脂肪 年龄 23 9.5 53 27 17.8 54 38 21.2 56 41 25.9 57 45 27.5 58 49 26.3 60 50 28.2 61

-2-

29.6 30.2 31.4 30.8 33.5 35.2 34.6 分析数据: 大体上来看, 随着年龄的增加, 人体中脂肪的百分比也在增加. 我们可以作散点图 来进一步分析. ②散点图的概念:将各数据在平面直角坐标系中的对应点画出来, 得到表示两个变量的一组数 据的图形, 这样的图形叫做散点图,如下图.

脂肪

从散点图我们可以看出,年龄越大,体内脂肪含量越高. 图中点的趋势表明两个变量之间 确实存在一定的关系, 这个图支持了我们从数据表中得出的结论. (a. 如果所有的样本点都落在某一函数曲线上, 就用该函数来描述变量之间的关系, 即变量之间 具有函数关系. b. 如果所有的样本点都落在某一函数曲线附近, 变量之间就有相关关系.c. 如果所 有的样本点都落在某一直线附近, 变量之间就有线性相关关系) ③正相关与负相关的概念:如果散点图中的点散布在从左下角到右上角的区域内, 称为正相关. 如果散点图中的点散布在从左上角到右下角的区域内, 称为负相关. (注:散点图的点如果几乎 没有什么规则, 则这两个变量之间不具有相关关系) (三)应用示例 思路 1 例 1 下列关系中, 带有随机性相关关系的是_____________. ①正方形的边长与面积之间的关系 ②水稻产量与施肥量之间的关系 ③人的身高与年龄之间的关系 ④降雪量与交通事故的发生率之间的关系 解析:两变量之间的关系有两种:函数关系与带有随机性的相关关系. ①正方形的边长与 面积之间的关系是函数关系. ②水稻产量与施肥量之间的关系不是严格的函数关系, 但是具有 相关性, 因而是相关关系. ③人的身高与年龄之间的关系既不是函数关系, 也不是相关关系, 因为 人的年龄达到一定时期身高就不发生明显变化了, 因而他们不具备相关关系. ④降雪量与交通 事故的发生率之间具有相关关系, 因此填②④. 答案:②④ 例 2 有关法律规定, 香烟盒上必须印上“吸烟有害健康”的警示语. 吸烟是否一定会引起健康问

题?你认为“健康问题不一定是由吸烟引起的, 所以可以吸烟”的说法对吗? 分析:学生思考, 然后讨论交流, 教师及时评价. 解:从已经掌握的知识来看, 吸烟会损害身体的健康, 但是除了吸烟之外, 还有许多其他的随 机因素影响身体健康, 人体健康是很多因素共同作用的结果. 我们可以找到长寿的吸烟者, 也更 容易发现由于吸烟而引发的患病者, 所以吸烟不一定引起健康问题. 但吸烟引起健康问题的可 能性大. 因此“健康问题不一定是由吸烟引起的, 所以可以吸烟”的说法是不对的. 点评:在探究研究的过程中, 如果能够从两个变量的观察数据之间发现相关关系是极为有

-3-

意义的, 由此可以进一步研究二者之间是否蕴涵因果关系, 从而发现引起这种相关关系的本质 原因是什么. 本题的意义在于引导学生重视对统计结果的解释, 从中发现进一步研究的问题. 思路 2 有时候, 一些东西吃起来口味越好, 对我们的身体越有害. 下表给出了不同类型的某种食品

例1

的数据. 第二列表示此种食品所含热量的百分比, 第三列数据表示由一些美食家以百分制给出 的对此种食品口味的评价: 品牌 A B C D E F G H I J (1)作出这些数据的散点图. 所含热量的百分比 25 34 20 19 26 20 19 24 19 13 口味记录 89 89 80 78 75 71 65 62 60 52

(2)关于两个变量之间的关系, 你能得出什么结论? 解: (1)散点图如下:

(2)基本成正相关关系, 即食品所含热量越高, 口味越好. 例 2 案例分析: 一般说来, 一个人的身高越高, 他的右手一拃长就越长, 因此, 人的身高与右手一拃长之间存在着 一定的关系. 为了对这个问题进行调查, 我们收集了北京市某中学 2003 年高三年级 96 名学生的 身高与右手一拃长的数据如下表. 性别 女 女 女 女 女 女 女 身高/cm 152 156 158 160 160 160 160 右手一拃长/cm 18.5 16.0 17.3 15.0 17.5 19.0 19.0
-4-

性别 女 女 女 女 女 女 女

身高/cm 153 157 159 160 160 160 160

右手一拃长/cm 16.0 20.0 20.0 16.0 17.5 19.0 19.5

女 女 女 女 女 女 女 女 女 女 女 女 女 女 女 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男

161 162 163 164 164 165 165 166 167 168 170 170 171 172 173 164 168 169 170 170 171 171 172 173 173 174 175 175 175 176 176 177 178 178 179 180 181 182 182 185 191

16.1 18.2 20.0 17.0 19.0 15.0 17.5 19.0 19.0 19.0 21.0 21.0 20.0 18.5 22.0 19.0 18.0 17.0 20.0 21.5 21.5 22.3 23.0 20.0 20.0 22.0 16.0 21.0 22.0 19.0 22.0 21.0 21.0 24.0 21.5 22.5 21.5 18.5 24.0 25.0 21.0

女 女 女 女 女 女 女 女 女 女 女 女 女 女 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男 男

161 162 163 164 164 165 165 167 168 168 170 171 171 173 162 165 168 169 170 170 171 172 173 173 173 174 175 175 176 176 176 178 178 179 179 181 181 182 183 186 191

18.0 18.5 21.5 18.5 20.0 16.0 19.5 19.0 16.0 19.5 21.0 19.0 21.5 18.0 19.0 21.0 19.0 20.0 21.0 22.0 21.5 21.5 20.0 20.0 21.0 22.0 20.0 21.2 16.0 20.0 22.0 21.0 22.5 21.5 23.0 21.1 23.0 21.5 21.2 22.0 23.0

(1)根据上表中的数据, 制成散点图. 你能从散点图中发现身高与右手一拃长之间的近似关系 吗?

-5-

(2)如果近似成线性关系, 请画出一条直线来近似地表示这种线性关系. (3)如果一个学生的身高是 188 cm, 你能估计他的一拃大概有多长吗? 解:根据上表中的数据, 制成的散点图如下.

从散点图上可以发现, 身高与右手一拃长之间的总体趋势是成一直线, 也就是说, 它们之间 是线性相关的. 那么, 怎样确定这条直线呢? 同学 1:选择能反映直线变化的两个点, 例如(153,16), (191,23)两点确定一条直线. 同学 2:在图中放上一根细绳, 使得上面和下面点的个数相同或基本相同. 同学 3:多取几组点对, 确定几条直线方程. 再分别算出各个直线方程斜率、截距的算术平均值, 作为所求直线的斜率、截距. 同学 4:从左端点开始, 取两条直线, 如下图. 再取这两条直线的“中间位置”作一条直线.

同学 5: 先求出相同身高同学右手一拃长的平均值, 画出散点图, 如下图, 再画出近似的直线, 使得 在直线两侧的点数尽可能一样多.

同学 6:先将所有的点分成两部分, 一部分是身高在 170 cm 以下的, 一部分是身高在 170 cm 以 上的;然后, 每部分的点求一个 “平均点”——身高的平均值作为平均身高、右手一拃的平均值 作为平均右手一拃长, 即(164,19), (177,21) ;最后, 将这两点连接成一条直线. 同学 7:先将所有的点按从小到大的顺序进行排列, 尽可能地平均分成三等份;每部分的点按 照同学 3 的方法求一个“平均点”, 最小的点为(161.3,18.2), 中间的点为(170.5,20.1), 最大的 点为(179.2,21.3). 求出这三个点的“平均点”为(170.3,19.9). 我再用直尺连接最大点与最小点, 然后平行地推, 画出过点(170.3,19.9)的直线.

-6-

同学 8:取一条直线, 使得在它附近的点比较多. 在这里需要强调的是, 身高和右手一拃长之间没有函数关系. 我们得到的直线方程, 只是对其变 化趋势的一个近似描述. 对一个给定身高的人, 人们可以用这个方程来估计这个人的右手一拃 长,这是十分有意义的. (四)知能训练 一个车间为了规定工时定额, 需要确定加工零件所花费的时间, 为此进行了 10 次试验, 收集 数据如下: 零件数 x(个) 加工时间 y(min) 10 62 20 68 30 75 40 81 50 89 60 95 70 102 80 108 90 115 100 122

画出散点图; 关于加工零件的个数与加工时间, 你能得出什么结论? 答案: (1)散点图如下:

(2)加工零件的个数与所花费的时间呈正线性相关关系. (五)拓展提升 以下是某地搜集到的新房屋的销售价格 y 和房屋的面积 x 的数据: 房屋面积(m ) 销售价格(万元)
2

115

110 21.6

80 18.4

135 29.2

105 22

24.8 (1)画出数据对应的散点图; (2)指出是正相关还是负相关;

(3)关于销售价格 y 和房屋的面积 x, 你能得出什么结论? 解: (1)数据对应的散点图如下图所示:

-7-

(2)散点图中的点散分布在从左下角到右上角的区域内, 所以是正相关. (3)关于销售价格 y 和房屋的面积 x, 房屋的面积越大, 价格越高, 它们呈正线性相关的关系. (六)课堂小结 通过收集现实问题中两个有关联变量的数据作出散点图, 并利用散点图直观认识变量间的 相关关系. (七)作业 习题 2.3A 组 3、4(1).

第 2 课时 (一)导入新课 思路 1 客观事物是相互联系的, 过去研究的大多数是因果关系, 但实际上更多存在的是一种非因 果关系. 比如说:某某同学的数学成绩与物理成绩, 彼此是互相联系的, 但不能认为数学是“因 ”, 物理是“果”, 或者反过来说. 事实上数学和物理成绩都是“果”, 而真正的“因”是学生的理科学习能 力和努力程度. 所以说, 函数关系存在着一种确定性关系, 但还存在着另一种非确定性关系—— 相关关系. 为表示这种相关关系, 我们接着学习两个变量的线性相关——回归直线及其方程. 思路 2 某小卖部为了了解热茶销售量与气温之间的关系, 随机统计并制作了某 6 天卖出热茶的杯 数与当天气温的对照表: 气温/℃ 杯数 26 18 13 10 4 -1 20 24 34 38 50 64 如果某天的气温是-5 ℃, 你能根据这些数据预测这天小卖部卖出热茶的杯数吗?为解决这 个问题我们接着学习两个变量的线性相关——回归直线及其方程. (二)推进新课、新知探究、提出问题 (1)作散点图的步骤和方法?

-8-

(2)正、负相关的概念? (3)什么是线性相关? (4)看人体的脂肪百分比和年龄的散点图, 当人的年龄增加时, 体内脂肪含量到底是以什么方 式增加的呢? (5)什么叫做回归直线? (6)如何求回归直线的方程?什么是最小二乘法?它有什么样的思想? (7)利用计算机如何求回归直线的方程? (8)利用计算器如何求回归直线的方程? 活动:学生回顾, 再思考或讨论, 教师及时提示指导. 讨论结果: (1)建立相应的平面直角坐标系, 将各数据在平面直角坐标中的对应点画出来, 得到表示两个变量的一组数据的图形, 这样的图形叫做散点图. (a. 如果所有的样本点都落在某 一函数曲线上, 就用该函数来描述变量之间的关系, 即变量之间具有函数关系.b. 如果所有的样 本点都落在某一函数曲线附近, 变量之间就有相关关系.c. 如果所有的样本点都落在某一直线附 近, 变量之间就有线性相关关系) (2)如果散点图中的点散布在从左下角到右上角的区域内, 称为正相关. 如果散点图中的点散 布在从左上角到右下角的区域内, 称为负相关. (3)如果所有的样本点都落在某一直线附近, 变量之间就有线性相关的关系. (4)大体上来看, 随着年龄的增加, 人体中脂肪的百分比也在增加, 呈正相关的趋势, 我们可以从 散点图上来进一步分析. (5)如下图:

从散点图上可以看出, 这些点大致分布在通过散点图中心的一条直线附近. 如果散点图中 点的分布从整体上看大致在一条直线附近, 我们就称这两个变量之间具有线性相关关系, 这条 直线叫做回归直线(regression line). 如果能够求出这条回归直线的方程(简称回归方程), 那么我 们就可以比较清楚地了解年龄与体内脂肪含量的相关性. 就像平均数可以作为一个变量的数据 的代表一样, 这条直线可以作为两个变量具有线性相关关系的代表. (6)从散点图上可以发现, 人体的脂肪百分比和年龄的散点图, 大致分布在通过散点图中心的 一条直线. 那么, 我们应当如何具体求出这个回归方程呢? 有的同学可能会想, 我可以采用测量的方法, 先画出一条直线, 测量出各点与它的距离, 然后 移动直线, 到达一个使距离的和最小的位置, 测量出此时的斜率和截距, 就可得到回归方程了. 但 是, 这样做可靠吗? 有的同学可能还会想, 在图中选择这样的两点画直线, 使得直线两侧的点的个数基本相同. 同样地, 这样做能保证各点与此直线在整体上是最接近的吗? 还有的同学会想, 在散点图中多取几组点, 确定出几条直线的方程, 再分别求出各条直线的 斜率、截距的平均数, 将这两个平均数当成回归方程的斜率和截距. 同学们不妨去实践一下, 看看这些方法是不是真的可行?

-9-

(学生讨论:1. 选择能反映直线变化的两个点.2. 在图中放上一根细绳, 使得上面和下面点的个 数相同或基本相同.3. 多取几组点对, 确定几条直线方程. 再分别算出各个直线方程斜率、截距的 算术平均值, 作为所求直线的斜率、截距. )教师:分别分析各方法的可靠性. 如下图:

上面这些方法虽然有一定的道理, 但总让人感到可靠性不强. 实际上, 求回归方程的关键是如何用数学的方法来刻画 “从整体上看, 各点与此直线的距离 最小”. 人们经过长期的实践与研究, 已经得出了计算回归方程的斜率与截距的一般公式
n ? ( xi ? x )( yi ? y ) ? ? i ?1 ?b ? ? ? n 2 ? ( xi ? x ) ? ? i ?1 ? ? ?a ? y ? bx.

?x y
i ?1 n i

n

i

? nx y , ? nx
2

?x
i ?1

(1)

2 i

其中,b 是回归方程的斜率,a 是截距. 推导公式①的计算比较复杂,这里不作推导. 但是, 我们可以解释一下得出它的原理. 假设我们已经得到两个具有线性相关关系的变量的一组数据(x1 ,y1),(x2 ,y2 ),…,(xn ,yn), 且所求回归方程是 y =bx+a, 其中 a、b 是待定参数. 当变量 x 取 xi (i=1,2,…,n) 时可以得到 y =bxi +a(i=1,2,…,n),
^ ^

- 10 -

它与实际收集到的 yi 之间的偏差是 yi- y =yi -(bxi +a)(i=1,2,…,n).

^

这样,用这 n 个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的. 由于(yi - y )可正 可负,为了避免相互抵消,可以考虑用
2

^

?| y
i ?1
2

n

i

? y i | 来代替,但由于它含有绝对值,运算不太
2

^

方便,所以改用 Q=(y1 -bx1 -a) +(y2-bx2 -a) +…+(yn -bxn-a) 来刻画 n 个点与回归直线在整体上的偏差.



这样, 问题就归结为:当 a,b 取什么值时 Q 最小, 即总体偏差最小. 经过数学上求最小值的运算, a,b 的值由公式①给出. 通过求②式的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离 的平方和最小,这一方法叫做最小二乘法(method of least square). (7)利用计算机求回归直线的方程. 根据最小二乘法的思想和公式①,利用计算器或计算机,可以方便地求出回归方程. 以 Excel 软件为例, 用散点图来建立表示人体的脂肪含量与年龄的相关关系的线性回归方 程, 具体步骤如下: ①在 Excel 中选定表示人体的脂肪含量与年龄的相关关系的散点图 (如下图) , 在菜单中选定“图 表”中的“添加趋势线”选项, 弹出“添加趋势线”对话框. ②单击“ 类型” 标签, 选定 “趋势预测/回归分析类型” 中的“ 线性 ”选项, 单击 “确定 ”按钮, 得到回归 直线. ③双击回归直线, 弹出“趋势线格式”对话框. 单击 “选项 ”标签, 选定“ 显示公式”, 最后单击“ 确定” 按钮, 得到回归直线的回归方程 y =0.577x-0.448.
^

(8)利用计算器求回归直线的方程. 用计算器求这个回归方程的过程如下:

- 11 -

所以回归方程为 y =0.577x-0.448. 正像本节开头所说的,我们从人体脂肪含量与年龄这两个变量的一组随机样本数据中,找到 了它们之间关系的一个规律,这个规律是由回归直线来反映的. 直线回归方程的应用: ①描述两变量之间的依存关系;利用直线回归方程即可定量描述两个变量间依存的数量关系. ②利用回归方程进行预测;把预报因子(即自变量 x)代入回归方程对预报量(即因变量 Y) 进行估计, 即可得到个体 Y 值的容许区间. ③利用回归方程进行统计控制规定 Y 值的变化, 通过控制 x 的范围来实现统计控制的目标. 如已 经得到了空气中 NO2 的浓度和汽车流量间的回归方程, 即可通过控制汽车流量来控制空气中 NO2 的浓度. (三)应用示例 例1 思路 1 有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一 -5 0 4 7 12 15 19 23 27 93 31 76 36 54

^

个卖出的热饮杯数与当天气温的对比表: 摄氏温度/℃ 热饮杯数 156 150 132 128 130 116 104 89 (1)画出散点图; (2)从散点图中发现气温与热饮销售杯数之间关系的一般规律; (3)求回归方程; (4)如果某天的气温是 2 ℃,预测这天卖出的热饮杯数. 解: (1)散点图如下图所示:

- 12 -

(2)从上图看到,各点散布在从左上角到右下角的区域里,因此,气温与热饮销售杯数之间 呈负相关,即气温越高,卖出去的热饮杯数越少. (3)从散点图可以看出,这些点大致分布在一条直线的附近,因此,可用公式①求出回归方 程的系数. 利用计算器容易求得回归方程 y =-2.352x+147.767. (4)当 x=2 时, y =143.063. 因此,某天的气温为 2 ℃时,这天大约可以卖出 143 杯热饮. 思考 气温为 2 ℃时,小卖部一定能够卖出 143 杯左右热饮吗?为什么? 这里的答案是小卖部不一定能够卖出 143 杯左右热饮,原因如下: 1. 线性回归方程中的截距和斜率都是通过样本估计出来的,存在随机误差,这种误差可以导致 预测结果的偏差. 2. 即使截距和斜率的估计没有误差,也不可能百分之百地保证对应于 x 的预报值,能够与实际 值 y 很接近. 我们不能保证点(x,y)落在回归直线上,甚至不能百分之百地保证它落在回归直 线的附近,事实上,y=bx+a+e= y +e. 这里 e 是随机变量,预报值 y 与实际值 y 的接近程度由随机变量 e 的标准差所决定. 一些学生可能会提出问题: 既然不一定能够卖出 143 杯左右热饮, 那么为什么我们还以“这 天大约可以卖出 143 杯热饮”作为结论呢?这是因为这个结论出现的可能性最大. 具体地说, 假 如我们规定可以选择连续的 3 个非负整数作为可能的预测结果,则我们选择 142,143 和 144 能够保证预测成功(即实际卖出的杯数是这 3 个数之一)的概率最大. 例2 下表为某地近几年机动车辆数与交通事故数的统计资料. 95 6.2 110 7.5 112 7.7 120 8.5 129 8.7 135 9.8 150 10.2 180 13
^ ^ ^ ^

机动车辆数 x/千台 交通事故数 y/千件

(1)请判断机动车辆数与交通事故数之间是否有线性相关关系, 如果不具有线性相关关系, 说明 理由; (2)如果具有线性相关关系, 求出线性回归方程. 解: (1)在直角坐标系中画出数据的散点图, 如下图.

- 13 -

直观判断散点在一条直线附近, 故具有线性相关关系. (2)计算相应的数据之和:

? xi =1 031, ? y i =71.6,
i ?1 8 i ?1

8

8

? xi2 =137 835, ? xi yi =9 611.7.
i ?1 i ?1

8

将它们代入公式计算得 b≈0.077 4,a=-1.024 1, 所以, 所求线性回归方程为=0.077 4x-1.024 1. 思路 2 给出施化肥量对水稻产量影响的试验数据: 15 20 25 365 30 405 35 445 40 450 45 455

例1

施化肥量 x 水稻产量 y

330 345 (1)画出上表的散点图; (2)求出回归直线的方程. 解: (1)散点图如下图.

(2)表中的数据进行具体计算, 列成以下表格: i xi yi xi yi 1 15 330 4 950 2 20 345 6 900
7

3 25 365 9 125
7

4 30 405 12 150

5 35 445 15 575
7

6 40 450 18 000

7 45 455 20 475

x ? 30, y ? 399.3, ? xi2 ? 7000 , ? yi2 ? 1132725 , ? xi yi ? 87175
i ?1 i ?1 i ?1

故可得到 b=

87175 ? 7 ? 30 ? 399 .3 ≈4.75, 7000 ? 7 ? 30 2

a=399.3-4.75×30≈257.
- 14 -

从而得回归直线方程是 y =4.75x+257. 例 2 一个车间为了规定工时定额, 需要确定加工零件所花费的时间.为此进行了 10 次试验, 测得数据如下: 零件个数 x(个) 加工时间 y(分) 10 62 20 68 30 75 40 81 50 89 60 95 70 102 80 108 90 115 100 122

^

请判断 y 与 x 是否具有线性相关关系, 如果 y 与 x 具有线性相关关系, 求线性回归方程. 解:在直角坐标系中画出数据的散点图, 如下图.

直观判断散点在一条直线附近, 故具有线性相关关系.由测得的数据表可知:

x ? 55, y ? 91.7, ? xi2 =38 500, ? yi2 =87 777, ? xi y i =55 950.
i ?1 i ?1 i ?1

10

10

10

?x y
b=
i ?1 10 i

10

i

? 10x y ? ? 10x 2

?x
i ?1

2 i

55950? 10 ? 55 ? 91.7 ≈0.668. 38500? 10 ? 552

a= y ? bx =91.7-0.668×55≈54.96. 因此, 所求线性回归方程为 y =bx+a=0.668x+54.96. 例 3 已知 10 条狗的血球体积及红血球数的测量值如下: 血球体积 x(mL) 45 42 46 48 42 35 红血球数 y(百万) 6.53 (1)画出上表的散点图; (2)求出回归直线的方程. 解: (1)散点图如下. 6.30 9.52 7.50 6.99 5.90
^

58 9.49

40 6.20

39 6.55

50 8.72

- 15 -

(2) x ?

1 (45+42+46+48+42+35+58+40+39+50)=44.50, 10

y?

1 (6.53+6.30+9.52+7.50+6.99+5.90+9.49+6.20+6.55+8.72)=7.37. 10
^

设回归直线方程为 y =bx+a, 则 b=

?x y
i ?1 10 i

10

i

? 10x y
=0.175,a= y ? bx =-0.418,

?x
i ?1

2 i

? 10x

2

所以所求回归直线的方程为 y =0.175x-0.148. 点评:对一组数据进行线性回归分析时, 应先画出其散点图, 看其是否呈直线形, 再依系数 a,b 的计算公式, 算出 a,b. 由于计算量较大, 所以在计算时应借助技术手段, 认真细致, 谨防计算中 产生错误, 求线性回归方程的步骤:计算平均数 x , y ;计算 xi 与 yi 的积, 求∑xi yi ;计算∑xi2 ;将 结果代入公式求 b;用 a= y ? bx 求 a;写出回归直线方程.

^

(四)知能训练 1. 下列两个变量之间的关系哪个不是函数关系( A. 角度和它的余弦值 C. 正n边形的边数和它的内角和 答案:D 2.三点(3,10),(7,20),(11,24) 的线性回归方程是( A. y =5.75-1.75x C. y =1.75-5.75x 答案:D
^ ^ ^



B. 正方形边长和面积 D. 人的年龄和身高



B. y =1.75+5.75x D. y =5.75+1.75x
^

3.已知关于某设备的使用年限 x 与所支出的维修费用 y(万元), 有如下统计资料: 使用年限 x 2 3 4 5 6 维修费用 y 2.2 3.8 设 y 对 x 呈线性相关关系.试求: (1)线性回归方程 y =bx+a 的回归系数 a,b; (2)估计使用年限为 10 年时, 维修费用是多少? 答案: (1)b=1.23,a=0.08; (2)12.38. 4.我们考虑两个表示变量 x 与 y 之间的关系的模型,δ 为误差项, 模型如下: 模型 1:y=6+4x;模型 2:y=6+4x+e. (1)如果 x=3,e=1, 分别求两个模型中 y 的值; (2)分别说明以上两个模型是确定性模型还是随机模型. 解: (1)模型 1:y=6+4x=6+4× 3=18;
^

5.5

6.5

7.0

- 16 -

模型 2:y=6+4x+e=6+4× 3+1=19. (2)模型 1 中相同的 x 值一定得到相同的 y 值, 所以是确定性模型;模型 2 中相同的 x 值, 因 δ 的不同, 所得 y 值不一定相同, 且 δ 为误差项是随机的, 所以模型 2 是随机性模型. 5.以下是收集到的新房屋销售价格 y 与房屋大小 x 的数据: 房屋大小 x(m2 ) 销售价格 y (万元) 80 18.4 105 22 110 21.6 115 24.8 135 29.2

(1)画出数据的散点图; (2)用最小二乘法估计求线性回归方程. 解: (1)散点图如下图.

(2)n=5,

? xi =545, x =109, ? y i =116, y =23.2,
i ?1 i ?1

5

5

?x
i ?1

5

2 i

=60 952,

?x y
i ?1 i

5

i

=12 952,

b=

5 ? 12952 ? 545 ? 116 ≈0.199,a=23.2-0.199×109≈1.509, 5 ? 60952 ? 545 2

所以, 线性回归方程为 y=0.199x+1.509. (五)拓展提升 某调查者从调查中获知某公司近年来科研费用支出(Xi )与公司所获得利润(Yi )的统计 资料如下表: 科研费用支出(Xi )与利润(Yi )统计表 年份 科研费用支出 1998 1999 2000 2001 2002 2003 合计
^

单位:万元 利润 31 40 30 34 25 20 180

5 11 4 5 3 2 30
^ ^

要求估计利润(Yi )对科研费用支出(Xi )的线性回归模型. 解:设线性回归模型直线方程为:Y i ? ? 0 ? ? 1 X i ,

- 17 -

因为: x ?

?X
n
Xi 5 11 4 5 3 2

i

?

30 =5, Y ? 6
Yi 31 40 30 34 25 20

?Y
n

i

?

180 =30, 6
Xi 2 25 121 16 25 9 4 200 Xi - X 0 6 -1 0 -2 -3 0 Yi - Y 1 10 0 4 -5 -10 0 (Xi - X )2 (Xi - X )(Yi - Y ) 0 0 36 60 1 0 4 9 50 0 0 10 30 100

根据资料列表计算如下表: 年份 1998 1999 2000 2001 2002 2003 合计 Xi Yi 155 440 120 170 75 40

30 180 1 000 现求解参数 β0 、β1 的估计值:
^

方法一: ? 1 ?
^ ^

n? X ? (? X i )
2 i

n? X i Yi ? ? Yi

2

?

6 ? 1000 ? 30 ? 180 6000 ? 5400 600 =2, ? ? 1200 ? 900 300 6 ? 200 ? 30 2

? 0 ? Y ? ? 1 x =30-2×5=20.
方法二: ? 1 ?
^ ^

^

? X Y ? nx Y ? X ? n( x )
i i 2 i

2

?

1000 ? 6 ? 5 ? 30 100 =2, ? 50 200 ? 6 ? 5 2

? 0 ? Y ? ? 1 x =30-2×5=20.
方法三: ? 1 ?
^ ^

^

? ( X ? x )(Y ? Y ) ? 100 =2, 50 ? ( X ? x)
i i 2 i
^

? 0 ? Y ? ? 1 x =30-2×5=20.
所以利润(Yi )对科研费用支出(Xi )的线性回归模型直线方程为: Y i =20+2Xi . (六)课堂小结 1.求线性回归方程的步骤: (1)计算平均数 x , y ; (2)计算 xi 与 yi 的积,求∑xi yi ; (3)计算∑xi ,∑yi ,
n ? ( xi ? x )( y i ? y ) ? ? i ?1 ? ? ?b ? n (4)将上述有关结果代入公式 ? 2 ( xi ? x ) ? ? i ?1 ? ? ?a ? y ? bx
2 2

?x y
i ?1 n i

n

i

? nx y , ? nx
2

?x
i ?1

2 i

求 b,a, 写出回归直线方程. 2. 经历用不同估算方法描述两个变量线性相关的过程. 知道最小二乘法的思想, 能根据给出的线

- 18 -

性回归方程系数公式建立线性回归方程. (七)作业 习题 2.3A 组 3、4,B 组 1、2.

- 19 -


相关文档

湖北省巴东一中高二数学教案 必修三:算法案例.
湖北省巴东一中高二数学教案 必修三:随机抽样
湖北省巴东一中高二数学教案 必修三:算法案例解读
湖北省巴东一中高二数学教案 必修二:直线、圆的位置关系
湖北省巴东一中高二数学教案 必修三:基本算法语句
湖北省巴东一中高二数学教案必修二直线的方程
湖北省巴东一中高二数学教案 必修二:直线的方程
湖北省巴东一中高二数学教案 必修四:任意角与弧度制
湖北省巴东一中高二数学教案 必修四:平面向量的数量积
湖北省巴东一中高二数学教案 必修二:空间直角坐标系
学霸百科
新词新语
电脑版 | 学霸百科