搜索引擎论文

您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文 >

搜索引擎优化方法回归分析

来源:学术堂 作者:姚老师
发布于:2016-09-29 共4549字
  本篇论文快速导航:

展开更多

  5.5 回归分析。

  回归分析是确定两种或两种以上变量间线性关系或非线性关系的分析方法。

  参与回归分析的自变量只有一个则是一元回归分析,如果自变量有多个,则是多元回归分析。本文主要进行的是多元回归分析,设法找出变量之间相互的关系,判定模型中的假设是否成立。为了保证回归模型的准确性,进行多元回归分析考察多个自变量与因变量之间的关系时,要先对自变量进行多重共线性分析。所谓多重共线性是指线性回归模型中的自变量之间存在一定的相关性。本文利用方差膨胀因子(VIF)和容忍度(Tolerance)两种常用检验方法来衡量。在采用逐步回归法(Stepwise)和强制进入法(Enter)进行多元回归时,当自变量的方差膨胀因子小于 10,容忍度大于 0.1,表明变量间不存在较强的多重共线性。

  5.5.1 搜索引擎优化方法与百度收录数的回归分析。

  为了检验搜索引擎优化方法对百度收录数的影响,以搜索引擎优化方法的八个变量的一次项为自变量,以百度收录数为因变量,进行多元回归分析。自变量之间不存在严重的多重共线性问题,符合线性回归的假设条件。自变量的容忍度最小的为 0.183,大于 0.1;VIF 最大的为 5.452,小于 10,综合这两方面的考虑,该模型的共线性问题不是很严重,模型可取。

  以关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、内部链接、导入链接、404 错误页面、页面打开速度八个变量的一次项为自变量,百度收录数为因变量,在显着性水平为 0.000 时,该模型的 F 值为 15.160,说明模型拟合良好。错误页面、页面打开速度的 sig 值分别为 0.150 和 0.207,均大于 0.05,没有通过显着性检验,这两个变量对百度收录数没有显着性影响,H7、H8 假设不成立。在回归模型中,内部链接对应的显着性 sig 为 0.000,小于 0.05,Beta标准化回归系数为 0.308,说明内部链接对百度收录数具有正向影响,假设 H5成立。内部链接的 t 值是 3.803,达到 0.05 的显着性水平。在回归模型中,导入链接对应的显着性 sig 为 0.000,小于 0.05,Beta 标准化回归系数为 0.505,说明导入链接对百度收录数具有正向影响,假设 H6 成立。导入链接的 t 值是 7.015,达到 0.05 的显着性水平。调整后的 R2为 0.498,说明搜索引擎优化相关方法能够解释百度收录数变量的 49.8%,方程的拟合度较好。

  假设关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数与百度收录数是倒 U 关系,为了验证这一关系,分别将关键词密度的平方项、长尾关键词平方项、Title 中关键词个数的平方项、Meta 描述中关键词个数的平方项依次加入模型中,得到的回归分析结果,只记录能验证假设的数据。

  关键词密度平方项的 sig 值为 0.217,大于 0.05,没有通过显着性检验,关键词密度与百度收录数的倒 U 关系不显着,H1 假设不成立。关键词密度 t 值为 3.180,sig 值为 0.002,Beta 标准化回归系数为0.272,说明关键词密度对百度收录数具有正向影响。

  长尾关键词平方项的 sig 值为 0.427,大于 0.05,没有通过显着性检验,长尾关键词与百度收录数的倒 U 关系不显着,H2 假设不成立。

  Title 中关键词个数平方项的 sig 值为 0.390,大于 0.05,没有通过显着性检验,Title 中关键词的个数与百度收录数的倒 U 关系不显着,H3 假设不成立。

  Meta 描述中关键词个数平方项的 sig 值为 0.761,大于 0.05,没有通过显着性检验,Meta 描述中关键词的个数与百度收录数的倒 U 关系不显着,H4 假设不成立。

  5.5.2 搜索引擎优化方法与百度自然排名的回归分析。

  为了检验搜索引擎优化方法对自然排名的影响,以搜索引擎优化方法的八个变量的一次项为自变量,以百度自然排名为因变量,进行多元回归分析。

  自变量之间不存在严重的多重共线性问题,符合线性回归的假设条件。自变量的容忍度最小的为 0.928,大于 0.1;VIF 最大的为 1.078,远小于 10,综合这两方面的考虑,该模型的共线性问题不是很严重,模型可取。

  以关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、内部链接、导入链接、404 错误页面、页面打开速度八个变量的一次项为自变量,百度自然排名为因变量,在显着性水平为 0.000 时,该模型的 F 值为8.397,回归方程整体通过显着性检验。

  内部链接、页面打开速度的 sig 值分别为 0.199 和 0.485,均大于 0.05,没有通过显着性检验,这两个变量对百度自然排名没有显着性影响,H13、H16 假设没有得到支持。在回归模型中,导入链接对应的显着性 sig 为 0.002,小于 0.05.

  Beta 标准化回归系数为-0.276,说明导入链接对百度自然排名具有负向影响,假设 H14 得到了支持。在回归模型中,404 错误页面对应的显着性 sig 为 0.032,小于 0.05.Beta 标准化回归系数为-0.194,说明客制化 404 错误页面对百度自然排名具有负向影响,假设 H15 得到了支持。调整后的 R2为 0.115,说明导入链接和 404 错误页面能够解释百度自然排名变量的 11.5%,可以认为导入链接和 404错误页面对百度自然排名产生了一定的影响。

  假设关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数与百度自然排名是正 U 关系,为了验证这一关系,分别将关键词密度的平方项、长尾关键词平方项、Title 中关键词个数的平方项、Meta 描述中关键词个数的平方项依次加入模型中,得到的回归分析结果如表 5-12,只记录能验证假设的数据。

  关键词密度平方项的 sig 值为 0.285,大于 0.05,没有通过显着性检验,关键词密度与百度自然排名的正 U 关系不显着,H9 假设不支持。

  长尾关键词平方项的 sig 值为 0.091,大于 0.05,没有通过显着性检验,长尾关键词与百度自然排名的正 U 关系不显着,H10 假设不支持。

  Title 中关键词个数平方项的 sig 值为 0.575,远大于 0.05,没有通过显着性检验,Title 中关键词的个数与百度自然排名的正 U 关系不显着,H11 假设不支持。

  Meta 描述中关键词个数平方项的 sig 值为 0.135,大于 0.05,没有通过显着性检验,Meta 描述中关键词的个数与百度自然排名的正 U 关系不显着,H12 假15.5.3 搜索引擎优化方法与日均 IP 访问量的回归分析。

  为了检验搜索引擎优化方法对日均 IP 访问量的影响,以搜索引擎优化方法的八个变量的一次项为自变量,以日均 IP 访问量为因变量,进行多元回归分析。

  自变量之间不存在严重的多重共线性问题,符合线性回归的假设条件。自变量的容忍度最小的为 0.183,大于 0.1;VIF 最大的为 5.452,远小于 10,综合这两方面的考虑,该模型的共线性问题不是很严重,模型可取。

  以关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、内部链接、导入链接、404 错误页面、页面打开速度八个变量的一次项为自变量,以日均 IP 访问量为因变量,在显着性水平为 0.000 时,该模型的 F 值为 7.403,回归方程整体通过显着性检验。404 错误页面、页面打开速度的显着性水平分别为 0.795 和 0.059,均大于0.05,没有通过显着性检验,这两个变量对日均 IP 访问量没有显着性影响,H23、H24 假设不成立。在回归模型中,内部链接对应的显着性 sig 为 0.048,小于 0.05.

  Beta 标准化回归系数为 0.190,说明内部链接对日均 IP 访问量具有正向影响,假设 H21 成立。内部链接的 t 值是 2.004,达到 0.05 的显着性水平。在回归模型中,导入链接对应的显着性 sig 为 0.000,小于 0.05.Beta 标准化回归系数为 0.440,说明导入链接对日均 IP 访问量具有正向影响,假设 H22 得到了验证。导入链接的 t 值是 5.206,达到 0.05 的显着性水平。调整后的 R2为 0.310,说明内部链接和外部链接这两个变量能够解释日均 IP 访问量的 31.0%,可以认为内部链接和外部链接对日均 IP 访问量产生了一定的影响。

  假设关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数与百度自然排名是倒 U 关系,为了验证这一关系,分别将关键词密度的平方项、长尾关键词平方项、Title 中关键词个数的平方项、Meta 描述中关键词个数的平方项依次加入模型中,得到的回归分析结果如表 5-14,只记录能验证假设的数据。

  关键词密度平方项的 sig 值为 0.077,大于 0.05,没有通过显着性检验,关键词密度与日均 IP 访问量的倒 U 关系不显着,H17 假设不成立。

  长尾关键词平方项的 sig 值为 0.141,大于 0.05,没有通过显着性检验,长尾关键词与日均 IP 访问量的倒 U 关系不显着,H18 假设不成立。

  Title 中关键词个数平方项的 sig 值为 0.233,大于 0.05,没有通过显着性检验,Title 中关键词的个数与日均 IP 访问量的倒 U 关系不显着,H19 不成立。

  Meta 描述中关键词个数平方项的 sig 值为 0.246,大于 0.05,没有通过显着性检验,Meta 描述中关键词的个数与日均 IP 访问量的倒 U 关系不显着,H20 假设不成立。

  5.6 研究结果小结。

  本章先在确定搜索关键词、界定企业的基础上收集数据,接下来就是对收集的数据进行实证分析。首先对数据进行了描述性统计分析、因子分析和相关分析,最核心的部分是进行了回归分析。具体回归分析的检验结果。

  本文提出的 24 个假设只有假设 H5、H6、H14、H15、H21、H22 得到了支持,以往学者认为有效的搜索引擎优化方法只有一部分得到了验证,对以上分析结果,可以从以下几个方面进行总结。

  (1)假设 H1-H8 的实证检验结果表明,内部链接和导入链接对百度收录数有正向影响,关键词密度与百度收录数不是倒 U 关系,而是关键词密度正向影响百度收录数(β=0.272,sig=0.002)。由回归系数可以看出,导入链接对百度收录数的影响最大(β=0.505),然后是内部链接对百度收录数的影响(β=0.308),最后是关键词密度对百度收录数的影响(β=0.272)。这一结论说明,导入链接是最重要的,这与预期相符。其次,内部链接的数量和关键词密度也会影响百度对网页的收录数量,企业应该注意这一点。企业在提高百度收录数量时,应该注重关键词密度、内部链接和导入链接的优化。在描述性统计分析中,关键词密度的均值为 2.558%,内部链接为约为 187 个,导入链接约为 59 个,企业可以参考这几个数值,根据自己企业实际的情况,进行适当地改进。可以考虑增加导入链接的数量,根据网站内容和优化重点,合理地调整关键词密度和内部链接数量。

  (2)假设 H9-H16 的实证检验结果表明,导入链接和客制化的 404 错误页面对百度自然排名有显着负向影响。其中,导入链接对百度自然排名的影响(β=-0.276)大于客制化 404 错误页面的影响(β=-0.194),导入链接优化的重要性非常明显。企业为了提高百度自然排名,应该增加导入链接的数量,达到均值水平 59 个,同时要设计更加人性化的特别设计的 404 错误页面,不仅告知用户页面出错的原因,还有相关提示链接引导用户继续浏览其他页面。

  (3)假设 H17-H24 的实证检验结果表明,内部链接和导入链接对日均 IP访问量有显着正向影响。内部链接做的好,搜索引擎蜘蛛会爬行索引更多的网页,进入索引库的网页数越多,呈现给用户的可能性就更大,用户访问量就会增加。用户在浏览一个网站,看到友情链接网站,认为两者很相似,点击进来继续查看所需要信息的概率非常大。

  (4)长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、页面打开速度对搜索引擎优化没有显着影响。

  总体来看,搜索引擎优化方法的使用会影响网站对搜索引擎的友好性[59](Leonard-Wilkinson T.A,2002),即影响网站在搜索引擎中的收录数量或排名[60](Nursel Yal??n,2010),也会影响网站对用户的友好性,即影响网站的日均IP 访问量。

返回本篇论文导航
相关内容推荐
相关标签:
返回:搜索引擎论文