5.5 回归分析。
回归分析是确定两种或两种以上变量间线性关系或非线性关系的分析方法。
参与回归分析的自变量只有一个则是一元回归分析,如果自变量有多个,则是多元回归分析。本文主要进行的是多元回归分析,设法找出变量之间相互的关系,判定模型中的假设是否成立。为了保证回归模型的准确性,进行多元回归分析考察多个自变量与因变量之间的关系时,要先对自变量进行多重共线性分析。所谓多重共线性是指线性回归模型中的自变量之间存在一定的相关性。本文利用方差膨胀因子(VIF)和容忍度(Tolerance)两种常用检验方法来衡量。在采用逐步回归法(Stepwise)和强制进入法(Enter)进行多元回归时,当自变量的方差膨胀因子小于 10,容忍度大于 0.1,表明变量间不存在较强的多重共线性。
5.5.1 搜索引擎优化方法与百度收录数的回归分析。
为了检验搜索引擎优化方法对百度收录数的影响,以搜索引擎优化方法的八个变量的一次项为自变量,以百度收录数为因变量,进行多元回归分析。自变量之间不存在严重的多重共线性问题,符合线性回归的假设条件。自变量的容忍度最小的为 0.183,大于 0.1;VIF 最大的为 5.452,小于 10,综合这两方面的考虑,该模型的共线性问题不是很严重,模型可取。
以关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、内部链接、导入链接、404 错误页面、页面打开速度八个变量的一次项为自变量,百度收录数为因变量,在显着性水平为 0.000 时,该模型的 F 值为 15.160,说明模型拟合良好。错误页面、页面打开速度的 sig 值分别为 0.150 和 0.207,均大于 0.05,没有通过显着性检验,这两个变量对百度收录数没有显着性影响,H7、H8 假设不成立。在回归模型中,内部链接对应的显着性 sig 为 0.000,小于 0.05,Beta标准化回归系数为 0.308,说明内部链接对百度收录数具有正向影响,假设 H5成立。内部链接的 t 值是 3.803,达到 0.05 的显着性水平。在回归模型中,导入链接对应的显着性 sig 为 0.000,小于 0.05,Beta 标准化回归系数为 0.505,说明导入链接对百度收录数具有正向影响,假设 H6 成立。导入链接的 t 值是 7.015,达到 0.05 的显着性水平。调整后的 R2为 0.498,说明搜索引擎优化相关方法能够解释百度收录数变量的 49.8%,方程的拟合度较好。
假设关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数与百度收录数是倒 U 关系,为了验证这一关系,分别将关键词密度的平方项、长尾关键词平方项、Title 中关键词个数的平方项、Meta 描述中关键词个数的平方项依次加入模型中,得到的回归分析结果,只记录能验证假设的数据。
关键词密度平方项的 sig 值为 0.217,大于 0.05,没有通过显着性检验,关键词密度与百度收录数的倒 U 关系不显着,H1 假设不成立。关键词密度 t 值为 3.180,sig 值为 0.002,Beta 标准化回归系数为0.272,说明关键词密度对百度收录数具有正向影响。
长尾关键词平方项的 sig 值为 0.427,大于 0.05,没有通过显着性检验,长尾关键词与百度收录数的倒 U 关系不显着,H2 假设不成立。
Title 中关键词个数平方项的 sig 值为 0.390,大于 0.05,没有通过显着性检验,Title 中关键词的个数与百度收录数的倒 U 关系不显着,H3 假设不成立。
Meta 描述中关键词个数平方项的 sig 值为 0.761,大于 0.05,没有通过显着性检验,Meta 描述中关键词的个数与百度收录数的倒 U 关系不显着,H4 假设不成立。
5.5.2 搜索引擎优化方法与百度自然排名的回归分析。
为了检验搜索引擎优化方法对自然排名的影响,以搜索引擎优化方法的八个变量的一次项为自变量,以百度自然排名为因变量,进行多元回归分析。
自变量之间不存在严重的多重共线性问题,符合线性回归的假设条件。自变量的容忍度最小的为 0.928,大于 0.1;VIF 最大的为 1.078,远小于 10,综合这两方面的考虑,该模型的共线性问题不是很严重,模型可取。
以关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、内部链接、导入链接、404 错误页面、页面打开速度八个变量的一次项为自变量,百度自然排名为因变量,在显着性水平为 0.000 时,该模型的 F 值为8.397,回归方程整体通过显着性检验。
内部链接、页面打开速度的 sig 值分别为 0.199 和 0.485,均大于 0.05,没有通过显着性检验,这两个变量对百度自然排名没有显着性影响,H13、H16 假设没有得到支持。在回归模型中,导入链接对应的显着性 sig 为 0.002,小于 0.05.
Beta 标准化回归系数为-0.276,说明导入链接对百度自然排名具有负向影响,假设 H14 得到了支持。在回归模型中,404 错误页面对应的显着性 sig 为 0.032,小于 0.05.Beta 标准化回归系数为-0.194,说明客制化 404 错误页面对百度自然排名具有负向影响,假设 H15 得到了支持。调整后的 R2为 0.115,说明导入链接和 404 错误页面能够解释百度自然排名变量的 11.5%,可以认为导入链接和 404错误页面对百度自然排名产生了一定的影响。
假设关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数与百度自然排名是正 U 关系,为了验证这一关系,分别将关键词密度的平方项、长尾关键词平方项、Title 中关键词个数的平方项、Meta 描述中关键词个数的平方项依次加入模型中,得到的回归分析结果如表 5-12,只记录能验证假设的数据。
关键词密度平方项的 sig 值为 0.285,大于 0.05,没有通过显着性检验,关键词密度与百度自然排名的正 U 关系不显着,H9 假设不支持。
长尾关键词平方项的 sig 值为 0.091,大于 0.05,没有通过显着性检验,长尾关键词与百度自然排名的正 U 关系不显着,H10 假设不支持。
Title 中关键词个数平方项的 sig 值为 0.575,远大于 0.05,没有通过显着性检验,Title 中关键词的个数与百度自然排名的正 U 关系不显着,H11 假设不支持。
Meta 描述中关键词个数平方项的 sig 值为 0.135,大于 0.05,没有通过显着性检验,Meta 描述中关键词的个数与百度自然排名的正 U 关系不显着,H12 假15.5.3 搜索引擎优化方法与日均 IP 访问量的回归分析。
为了检验搜索引擎优化方法对日均 IP 访问量的影响,以搜索引擎优化方法的八个变量的一次项为自变量,以日均 IP 访问量为因变量,进行多元回归分析。
自变量之间不存在严重的多重共线性问题,符合线性回归的假设条件。自变量的容忍度最小的为 0.183,大于 0.1;VIF 最大的为 5.452,远小于 10,综合这两方面的考虑,该模型的共线性问题不是很严重,模型可取。
以关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、内部链接、导入链接、404 错误页面、页面打开速度八个变量的一次项为自变量,以日均 IP 访问量为因变量,在显着性水平为 0.000 时,该模型的 F 值为 7.403,回归方程整体通过显着性检验。404 错误页面、页面打开速度的显着性水平分别为 0.795 和 0.059,均大于0.05,没有通过显着性检验,这两个变量对日均 IP 访问量没有显着性影响,H23、H24 假设不成立。在回归模型中,内部链接对应的显着性 sig 为 0.048,小于 0.05.
Beta 标准化回归系数为 0.190,说明内部链接对日均 IP 访问量具有正向影响,假设 H21 成立。内部链接的 t 值是 2.004,达到 0.05 的显着性水平。在回归模型中,导入链接对应的显着性 sig 为 0.000,小于 0.05.Beta 标准化回归系数为 0.440,说明导入链接对日均 IP 访问量具有正向影响,假设 H22 得到了验证。导入链接的 t 值是 5.206,达到 0.05 的显着性水平。调整后的 R2为 0.310,说明内部链接和外部链接这两个变量能够解释日均 IP 访问量的 31.0%,可以认为内部链接和外部链接对日均 IP 访问量产生了一定的影响。
假设关键词密度、长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数与百度自然排名是倒 U 关系,为了验证这一关系,分别将关键词密度的平方项、长尾关键词平方项、Title 中关键词个数的平方项、Meta 描述中关键词个数的平方项依次加入模型中,得到的回归分析结果如表 5-14,只记录能验证假设的数据。
关键词密度平方项的 sig 值为 0.077,大于 0.05,没有通过显着性检验,关键词密度与日均 IP 访问量的倒 U 关系不显着,H17 假设不成立。
长尾关键词平方项的 sig 值为 0.141,大于 0.05,没有通过显着性检验,长尾关键词与日均 IP 访问量的倒 U 关系不显着,H18 假设不成立。
Title 中关键词个数平方项的 sig 值为 0.233,大于 0.05,没有通过显着性检验,Title 中关键词的个数与日均 IP 访问量的倒 U 关系不显着,H19 不成立。
Meta 描述中关键词个数平方项的 sig 值为 0.246,大于 0.05,没有通过显着性检验,Meta 描述中关键词的个数与日均 IP 访问量的倒 U 关系不显着,H20 假设不成立。
5.6 研究结果小结。
本章先在确定搜索关键词、界定企业的基础上收集数据,接下来就是对收集的数据进行实证分析。首先对数据进行了描述性统计分析、因子分析和相关分析,最核心的部分是进行了回归分析。具体回归分析的检验结果。
本文提出的 24 个假设只有假设 H5、H6、H14、H15、H21、H22 得到了支持,以往学者认为有效的搜索引擎优化方法只有一部分得到了验证,对以上分析结果,可以从以下几个方面进行总结。
(1)假设 H1-H8 的实证检验结果表明,内部链接和导入链接对百度收录数有正向影响,关键词密度与百度收录数不是倒 U 关系,而是关键词密度正向影响百度收录数(β=0.272,sig=0.002)。由回归系数可以看出,导入链接对百度收录数的影响最大(β=0.505),然后是内部链接对百度收录数的影响(β=0.308),最后是关键词密度对百度收录数的影响(β=0.272)。这一结论说明,导入链接是最重要的,这与预期相符。其次,内部链接的数量和关键词密度也会影响百度对网页的收录数量,企业应该注意这一点。企业在提高百度收录数量时,应该注重关键词密度、内部链接和导入链接的优化。在描述性统计分析中,关键词密度的均值为 2.558%,内部链接为约为 187 个,导入链接约为 59 个,企业可以参考这几个数值,根据自己企业实际的情况,进行适当地改进。可以考虑增加导入链接的数量,根据网站内容和优化重点,合理地调整关键词密度和内部链接数量。
(2)假设 H9-H16 的实证检验结果表明,导入链接和客制化的 404 错误页面对百度自然排名有显着负向影响。其中,导入链接对百度自然排名的影响(β=-0.276)大于客制化 404 错误页面的影响(β=-0.194),导入链接优化的重要性非常明显。企业为了提高百度自然排名,应该增加导入链接的数量,达到均值水平 59 个,同时要设计更加人性化的特别设计的 404 错误页面,不仅告知用户页面出错的原因,还有相关提示链接引导用户继续浏览其他页面。
(3)假设 H17-H24 的实证检验结果表明,内部链接和导入链接对日均 IP访问量有显着正向影响。内部链接做的好,搜索引擎蜘蛛会爬行索引更多的网页,进入索引库的网页数越多,呈现给用户的可能性就更大,用户访问量就会增加。用户在浏览一个网站,看到友情链接网站,认为两者很相似,点击进来继续查看所需要信息的概率非常大。
(4)长尾关键词、Title 中关键词的个数、Meta 描述中关键词的个数、页面打开速度对搜索引擎优化没有显着影响。
总体来看,搜索引擎优化方法的使用会影响网站对搜索引擎的友好性[59](Leonard-Wilkinson T.A,2002),即影响网站在搜索引擎中的收录数量或排名[60](Nursel Yal??n,2010),也会影响网站对用户的友好性,即影响网站的日均IP 访问量。
【摘要】从知识管理、知识服务和科研教育三个不同角度分析机构知识库的应用环境,考虑技术互操作、语义互操作、管理互操作和多个相关利益方需求,构建相应的互操作应用需求框架,系统分析已有和正在制定的基础互操作规范、扩展互操作规范和管理互操...
经过3~5年的飞速发展,目前桌面搜索和移动搜索几乎各占半壁江山,移动搜索大有赶超桌面搜索,成为主要搜索途径之势。2013~2014年中国搜索引擎行业竞争持续升级,百度独领风骚的同时,几大追随者毫不懈怠,持续练就内功,同时借助外力,以期对百度构成威胁...
本文从卷烟企业对信息数据检索的需求出发,论述了基于Solr开发出符合自身企业的搜索引擎的可行性,介绍了有关搜索引擎及Solr的相关知识。...
0引言信息检索系统主要为互联网用户提供对资源的检索服务,用户通过输入自己想要寻找的资源信息(诸如资源的部分名称,资源内容中相关关键词等),信息检索系统根据用户提供的检索需求进行资源匹配和资源定位,并按照一定的顺序将匹配的资源反馈给用户。搜...
1语音信息及其特点自然界存在着各种各样的声音,对声音进行数字化处理得到的结果称为音频,是一种重要的计算机多媒体信息。20Hz~20kHz是正常的人耳能够感知合理频率范围。音频信息中的一种重要类型为语音,具有以下重要特征:(1)由高度抽象的概念交流...
1引言互联网的深入发展带来了各种类型信息资源数量的快速膨胀。截至2014年6月,我国拥有273万个网站,3.3亿个IPv4地址[1].面对浩瀚巨量的网络资源,用户通过搜索引擎快速获取所需信息尤为重要。目前,我国搜索引擎用户达4.9亿;网民平均使用...
1引言在线社交网络是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。在线社交网络可分为4类:1)即时消息类应用,是一种提供在线实时通信的平台,如QQ、微信等;2)在线社交类应用,是一种提供在线社交关系的平台,如Facebook...
1、引言近年来,随着数字化教育浪潮的不断推进,我国在教育资源建设方面已经取得了巨大的成就,各类教育资源的数量巨大且呈现几何级数增长。随着搜索引擎技术的发展,通用搜索引擎的功能变得日益强大,取得了很大的成功,但其仍有局限性,如搜索的深度不够,...
上世纪中页,传播学家麦克卢汉曾在《理解媒介:论人的延伸》中提出:媒介是人感觉能力的延伸或扩展。这一经典概念的重要意义,在于将人的单一感官和媒体的传播特征进行了对应。例如,从视角延伸到印刷媒介,从听觉延伸到广播以及视、听觉共同延伸到电视。而...
大数据的理论及特征胡春明:大数据在今天已经不是一个新鲜的词汇。不管以前是不是叫大数据,人们都是在用数据看世界。数据分析方法往往采用了统计学上的采样法。只要采样方法在一些情况下足够好,样本数据就能足够反应真实世界的特点。从得到的样本数据...