佛山科学技术学院 上 机 报 告 课程名称 数学建模 上机项目 牙膏销售量模型 专业班级 姓 名 学 号 一、问题提出 根据牙膏销售量与价格、广告费等表格1中的数据,建立三个模型,要求: 1)画出散点图:y对x1的散点图1;y对x2的散点图2; 2)确定回归模型系数,求解出教程中模型(3); 3)对模型进行改进,确定回归模型系数,求解出教程中模型(5); 4)对模型进一步改进,求解出教程中模型(10)。 二、问题分析 由于牙膏是生活必需品,对大多数顾客来说,在购买同类产品的牙膏时更多地会在意不同品牌之间的价格差异,而不是它们的价格本身。因此,在研究各个因素对销售量的影响时,用价格差代替公司销售价格和其他厂家平均价格更为合适。 三、模型假设 记牙膏销售量为y,其他厂家平均价格和公司销售价格之差(价格差)为x1,公司投入的广告费用为x2,其他厂家平均价格和公司销售价格分别为x3和x4,x1x3x4。基于上面的分析,我们仅利用x1和x2来建立y的预测模型。 四、模型建立 (显示模型函数的构造过程) 1)、为了大致地分析y与x1和x2的关系,首先利用表1的数据分别作出y对x1和x2的散点图。 建立程序如下: y=[ ]; x1=[ 0 0 ]; x2=[ ]; a=polyfit(x1,y,1); y1=polyval(a,x1); b=polyfit(x2,y,2); x3=::; y2=polyval(b,x3); subplot(2,1,1);plot(x1,y,'*',x1,y1,'b');title('ͼ1 y¶Ôx1µÄÉ¢µãͼ'); subplot(2,1,2);plot(x2,y,'o',x3,y2,'b');title('ͼ2 y¶Ôx2µÄÉ¢µãͼ') 从图1可以发现,随着x1的增加,y的值有比较明显的线性增长趋势,图中的直线是用线性模型 y01x1(1) 拟合的(其中是随机变量)。而在图2中,当x2增大时,y有向上弯曲增加的趋势,图中的曲线是用二次函数模型 2y01x22x2(2) 拟合的。 综合上面的分析,结合模型(1)和(2)建立如下的回归模型 2y01x12x23x2(3) 2(3)式右端x1和x2称为回归变量(自变量),01x12x23x2是给定价差x1,广告费用x2时,牙膏销售量y的平均值,其中的参数0,1,2,3称为回归系数,由表1的数据估计,影响y的其他因素作用都包含在随机误差中。如果模型选择合适,应该大致服从均值为0的正态分布。 五、模型求解 (显示模型的求解方法、步骤及运算程序、结果) 2)、确定回归模型系数,求解出教程中模型(3): 建立程序如下: x1=[ 0 0 ]'; x2=[ ]'; X=[ones(30,1) x1 x2 x2.^2]; Y=[ ]'; [b,bint,r,rint,stats]=regress(Y,X); b,bint,stats 结果如下: b = bint = stats = 表2模型(3)的计算结果 参数 参数估计值 参数置信区间 [,] [,] [,] [,] 0 1 2 3 R2= F= p< s2= 结果分析:表2显示,R=指因变量y(销售量)的%可由模型确定,F值远远超过F检验的临界值,p远小于,因而模型(3)从整体来看是可用的。 表22的回归系数给出了模型(3)中0,1,2,3的估计值,即017.3244,11.3070,23.6956,30.3486。检查他们的置信区间发现,只有2的置信区间包含零点(但区间右端点距零点很近),表明回归变量x2(对因变量y的影响)不是太显著,但由于x2是显著的,我们仍将变量x2保留在模型中。 2六、模型改进 3)对模型进行改进,确定回归模型系数,求解出教程中模型(5): 模型(3)中回归变量x1和x2对因变量y的影响是相互独立的,即牙膏销售量y的均值与广告费用x2的二次关系由回归系数2和3确定,而不依赖于价格差x1,同样,y的均值与x1的线性关系由回归系数1确定,而不依赖于x2。根据直觉和经验可以猜想,x1和x2之间的交互作用会对y有影响,不妨简单地用x1,x2的乘积代表它们的相互作用,于是将模型(3)增加一项,得到 2y01x12x23x24x1x2(5) 2在这个模型中,y的均值与x2的二次关系为(24x1)x23x2,由系数2,3,4确定,并依赖于价格x1。 建立程序如下: x1=[ 0 0 ]'; x2=[ ]'; X=[ones(30,1) x1 x2 x2.^2 x1.*x2]; Y=[ ]'; [b,bint,r,rint,stats]=regress(Y,X); b,bint,stats 结果如下: b = bint = stats = 表3模型(5)的计算结果 参数 参数估计值 参数置信区间 [,] [,] [,] [,] [,] 0 1 2 3 4 R2=0.9209 F= p< s2= 表3与表2的结果相比,R有所提高,说明模型(5)比模型(3)有所进步。并且,所有参数的置信区间,特别是x1,x2的交互作用项x1x2的系数4的置信区间不包含零点,所以有理由相信模型(5)比模型(3)更符合实际。 4)对模型进一步改进,求解出教程中模型(10) 模型的进一步改进如下: 完全二次多项式模型:与x1和x2的完全二次多项式模型 2y01x13x1x24x125x22(10) 相比,模型(5)只少x2项,我们不妨增加这一项,建立模型(10)。这样做的好处之一是MATELAB2统计工具箱中有直接的命令rstool求解,并且以交互式画面给出y的估计值y和预测区间。 建立程序如下: x1=[ 0 0 ]'; x2=[ ]'; y=[ ]'; x=[x1,x2]; rstool(x,y,'quadratic') 结果如下: 从上表得到模型(10)的回归系数的估计值为 (0,1,2,3,4,5)(32.0984,14.7436,-8.6367,-2.1038,1.1074,0.7594) 故回归模型为: 22 y=32.0984+14.7436x1-8.6367x2-2.1038x1x2+1.1074x1+0.7594x2 剩余标准差为,说明此回归模型的显著性比较好。