第 3 章 搜索引擎优化的相关理论
本章查阅了百度搜索引擎优化相关的官方文件,梳理以往文献阐述了搜索引擎优化的相关理论,了解企业采用各种优化方法的缘由,为变量选取和模型构建提供了理论基础。
3.1 百度搜索引擎的工作原理。
搜索引擎优化的一个主要任务是提高网站对搜索引擎的友好性(吴泽欣,2014),对搜索引擎友好就是要遵循搜索引擎的抓取索引特点,从而有针对性地提出搜索引擎优化方法。很多优化方法就是根据搜索引擎的工作过程被提出来的,因此了解搜索引擎的基本工作原理是前提条件。
随着网络技术的不断发展,一个简单的关键词搜索可以产生成百上千个网页(A. S. Hussien,2014)[44],用户如何快速有效的获取信息是各大搜索引擎工作的首要环节。搜索引擎按其工作方式可分为全文搜索引擎、目录索引类搜索引擎和元搜索引擎。本文研究的是全文搜索引擎中的百度搜索引擎。百度搜索引擎工作原理非常复杂,基本的工作原理分为爬行和抓取、建立索引数据库、排名三个步骤。
(1)爬行和抓取。搜索引擎蜘蛛从已知网页的 URL 开始出发,跟踪页面链接不断的抓取[45],不同网站有不同抓取频次,蜘蛛将抓取到的页面放入搜索引擎数据库里。爬行过程中会记录新的网址,等待下次来抓取。百度搜索引擎蜘蛛在网页上爬行并不断抓取网页,被抓取回来得网页并非实时信息,所以称为百度快照。
搜索引擎蜘蛛会跟踪网页链接,发现新的网址。如果一个网站有导入链接,搜索引擎蜘蛛往往会沿着导入链接来爬行和抓取该网站的相关页面。因此网站在优化时候要重视导入链接,即反向链接。其他网站有指向自己的网站的链接,那么被搜索引擎蜘蛛抓取的可能性会加大,被索引的概率也会增加。导入链接所在的网站质量比较高,那么自己的网站被当成高质量网站的可能性也越高,因此企业网站进行搜索引擎优化时要特别重视导入链接的数量和质量。
据百度官方文件显示,搜索引擎蜘蛛对网站页面进行抓取时,对所有站点并非一视同仁,会综合考虑网站实际情况来确定抓取频次,每天定量抓取站点内容。
百度搜索引擎确定一个网站的抓取频次参考的四个主要指标,分别是网站更新频率、网站更新质量、连通度和站点评价。因此要重视网站更新内容和网站更新频率,此外还有服务器的稳定性,404 错误页面等。若出现 404 错误,搜索引擎蜘蛛会认为网页已经失效,通常会将其清理,同时短期内如果蜘蛛再次发现这条URL 也不会抓取,因此企业要定期检查网站的页面显示情况,不能允许页面长时间处于 404 错误状态。
(2)建立索引数据库。搜索引擎蜘蛛抓取到的原始网页要先经过预处理,再进行排名。预处理是在后台提前完成的,主要工作包括提取文字、中文分词、去停止词、消除噪声、去重等,搜索引擎得到的就是能反映页面主体内容的、以词为单位的字符串。接下来搜索引擎索引程序就可以从这些字符串里提取关键词,并用这些关键词建立正向索引文件并存储到索引库,得到以页面为主索引的一个页面对应多个关键词的关系表(周鑫,2014)。
用户在搜索的时候是直接输入关键词的,所以以页面为主体的正向索引不利于搜索引擎将结果快速反馈给用户。于是搜索引擎索引程序建立了以关键词为主索引的一个关键词对应多个页面的关系表,即倒排索引,在倒排索引中关键词是主体。当用户输入关键词进行搜索时,排序程序在倒排索引中定位到该搜索关键词,并立即找出所有包含这个关键词的页面,快速有效地反馈给用户,从搜索引擎建立索引数据库的过程,可以看出关键词在其中的重要影响。在进行搜索引擎优化时候,不仅要关心关键词的选择,关键词的密度,还有关键词的分布位置。从用户角度选择关键词,合理地控制关键词密度,将关键词均匀的分布于网站的特殊位置,提高搜索引擎进行索引的效率,增加关键词排名的精准。
(3)排序。用户在搜索引擎界面输入关键词时,搜索引擎反馈给用户所要的搜索结果简单看来仅需要一两秒就可以完成,实际上这个过程非常复杂。搜索引擎先要对用户输入的搜索词进行处理,如分词、去停止词、拼写错误矫正等,然后与倒排索引中的文件进行匹配,根据排名算法计算出各个网页排名的先后顺序,最后将搜索结果页面呈现给用户。搜索引擎结果页面主要包含 Title 标签、Meta 描述标签和 URL 信息等信息,因此要对这些方面进行适当的优化,以吸引用户前来访问。
3.2 百度搜索引擎优化指南。
百度站长平台发布的优化建站指南,能够指导站长以合理、科学的方式增加自己网站在搜索引擎中的收录数,从而提升流量。本文研究的前提是网站已经建成,只是在其基础上优化,所以只选取一些合适的优化方法。阅读百度搜索引擎优化相关规则,总结得出主要可以从以下几个方面来开展搜索引擎优化:
(1)关键词。要从潜在用户的搜索习惯上确定要优化的关键词,并关注长尾关键词,借助百度指数来确保关键词有搜索量和转化率。网页或者文章的标题往往是由多个单关键词组成的,搜索引擎会自动找到最重要的那个关键词,因此企业要了解百度搜索引擎是如何分词的,并重点优化百度选定的关键词,使该关键词所在的网页能出现在搜索结果列表靠前的位置。
(2)网站内容。网站内容不可大量重复,不能用与站点无关的热词引流,制作低质静态站内搜索结果页或 TAG 标签页是网站内容创作的大忌,要提高网页的整体质量。百度搜索引擎会依据网页的不同,来判断网页内容的价值,首页、下载页、搜索结果页等页面的内容价值判断标准各不相同。对那些内容清晰、完整、丰富、信息真实有效、安全无毒、对用户友好的网页对,百度搜索引擎会增加该网页展现给用户的机会。
(3)标题。将标题字数控制在 60 个字节内,太长会被截取掉,要优化的关键词应该放在标题靠前的位置。如果关键词不能在标题完整显示,即用户看不到重点优化的关键词,那么访客的点击率会受到影响。标题上的关键词选择也很重要,要选择与网站内容相关、用户常用的关键词或长尾关键词。百度建议根据网站不同的页面,相应地标题内容也应该有所区别。因为搜索引擎排序程序对相关网页进行排序,会综合考虑网页标题的内容。一般搜索结果页内通常会有 10 个结果,用户往往是通过网页标题和 Meta 描述来决定要点击哪个结果,如果标题和描述中含有用户输入的核心关键词,那么他们点击进入网站的概率大大增加,将潜在用户转化为真正的顾客也是会实现的。
(4)Meta 描述。Meta 描述不影响网页权值,不参与权值计算,只会用来辅助用户进行选择搜索结果页面。它能影响用户的体验,通过描述可以帮助用户判断网页内容是否和自己的需求相关。每个页面的描述都应该不一样,要根据网页的内容来进行描述优化,适当地加入要优化的关键词,但要控制关键词的个数,同时描述长度要合理。
(5)链接策略。首页、频道页、节点页或普通页面之间的链接要互相连通,且链接时候要有描述恰当的锚文本,告诉搜索引擎链接的主题内容。应该完善图片的 Alt 属性,方便搜索引擎蜘蛛抓取。网站重要页面与首页的点击距离要尽量近些,以更好受到百度重视。随着搜索引擎优化技术的不断发展,百度对超链接数据的依赖程度有所降低,超链接主要起到吸引搜索引擎蜘蛛前来抓取的目的。
但是百度对优质链接、正常链接、垃圾链接和作弊链接的辨识力度却没有下降,企业要建立优质链接,杜绝垃圾链接和作弊链接。
(6)主动访问用户数。搜索引擎在对各个网站进行评级时,会综合考虑网站主动访问用户数的多少。主动访问用户也可以称为忠诚用户、自有用户,指自然而然就想到某网站的用户或经常在网站上浏览的用户。主动访问用户占比很重要,可以用来与其它网站进行横向比较,主动访问用户占比越大,在搜索引擎排序时胜算越大。同时,主动访问用户数变化趋势也很重要,可以用来与网站自身进行纵向比较,主动访问用户比例越来越大,是证明网站健康发展的重要论据之一。
规则中提到设计网页时候,主要考虑的是用户,而非搜索引擎,要关心用户的体验。提高用户体验的一项重要措施是选择服务稳定、反应速度快的服务器或者空间等。搜索引擎暂时无法识别和搜索 Flash、图片、Javascript 中的内容,因此建议网站进行搜索引擎优化时候尽量使用文字来显示重要内容或链接。
昝辉(2015)进行的百度排名调查结果显示,关键词、网站内容、页面链接、全站链接等因素会影响网站排名。此外,还提到网站出现在豆瓣、新浪微博、微信等社会化媒体中会影响网站的排名,用户直接搜索域名的次数、网站页面平均跳出率、网站用户平均浏览时间等都是重要的排名因素。
3.3 长尾理论与长尾关键词。
长尾理论是 ChrisAnderson 于 2004 年在美国《连线》杂志上提出的,它是随网络时代兴起的一种新理论。长尾理论的基本原理是,当商品存储流通的渠道足够大,商品生产成本和销售成本够低,以前需求小的商品也会有人买。需求和销售都很小的产品由于数量庞大而共同占据的市场份额,可以与销量大数量少的产品所占据的市场份额相比较甚至更大。
长尾关键词就来源于长尾理论的启示,搜索引擎优化中逐渐使用长尾关键词。热门词虽然搜索量大,但转化率低。长尾关键词搜索量小,但转化率高。特别是大型网站,使用长尾关键词索获得流量可以与热门词带来的流量相匹敌甚至更高。长尾关键词就是较长的、搜索次数比较低但转化率高、针对性强的关键词。
使用长尾关键词的用户需求明确,点击率高,成交的可能性大。V.Prasath 等(2014)提到长尾关键词虽然搜索次数少,但从长远来看是值得付出的[46].
长尾关键词一般是在热搜关键词的基础上,加上各种修饰词组成的,如地域、品牌、产品特性、盈利模式等。通过百度挖掘长尾关键词,可以借助百度搜索框的下拉搜索、百度底部的相关搜索、百度指数、百度百科、百度知道、百度搜索风云榜等途径来实现。
要合理的使用长尾关键词,增加长尾关键词的权重。长尾关键词在网站的不同位置,权重往往也不一样[47](周玉涛,2013)。具有最高权重的位置是首页,依次是页面标题和页面内容。因此,要将重点优化的长尾关键词植入首页,页面标题中也要添加长尾关键词。在保持页面整体性的前提下,在合理的限度内,页面内容中要尽可能多的添加长尾关键词。此外,增加长尾关键词权重的方法还有,提高长尾关键词的原创性以及与网站的匹配性,适当提高长尾关键词的密度,通过内部链接将长尾关键词页面链接到网站的其他相关页面,在进行外部链接时候将要优化的长尾关键词加到锚文本中。
长尾关键词对于搜索引擎优化来说很重要,要从用户的角度挖掘与自己的产品或服务相关的长尾关键词。适当增加长尾关键词的权重,锁定目标用户的需求,提高用户的转化率,搜索引擎参考用户数据,会提高在搜索引擎中自然排名的机率。
3.4 本章小结。
本章主要阐述了搜索引擎优化的相关理论,主要包括三个部分。第一部分是百度搜索引擎的工作原理。百度的工作流程包括爬行和抓取、建立索引数据库、排名三个步骤。第二部分是百度搜索引擎优化指南,这是对百度官方文件的总结归纳,主要包括关键词、网站内容、标题、Meta Description、链接、主动访问用户数。第三部分是长尾理论与长尾关键词,阐述了长尾理论的概念、长尾关键词的定义、构成方法、权重等。本章从理论角度上,分析了企业采用搜索引擎优化相关方法的原因,又进一步为变量选取和模型构建提供了理论依据。
【摘要】从知识管理、知识服务和科研教育三个不同角度分析机构知识库的应用环境,考虑技术互操作、语义互操作、管理互操作和多个相关利益方需求,构建相应的互操作应用需求框架,系统分析已有和正在制定的基础互操作规范、扩展互操作规范和管理互操...
经过3~5年的飞速发展,目前桌面搜索和移动搜索几乎各占半壁江山,移动搜索大有赶超桌面搜索,成为主要搜索途径之势。2013~2014年中国搜索引擎行业竞争持续升级,百度独领风骚的同时,几大追随者毫不懈怠,持续练就内功,同时借助外力,以期对百度构成威胁...
本文从卷烟企业对信息数据检索的需求出发,论述了基于Solr开发出符合自身企业的搜索引擎的可行性,介绍了有关搜索引擎及Solr的相关知识。...
0引言信息检索系统主要为互联网用户提供对资源的检索服务,用户通过输入自己想要寻找的资源信息(诸如资源的部分名称,资源内容中相关关键词等),信息检索系统根据用户提供的检索需求进行资源匹配和资源定位,并按照一定的顺序将匹配的资源反馈给用户。搜...
1语音信息及其特点自然界存在着各种各样的声音,对声音进行数字化处理得到的结果称为音频,是一种重要的计算机多媒体信息。20Hz~20kHz是正常的人耳能够感知合理频率范围。音频信息中的一种重要类型为语音,具有以下重要特征:(1)由高度抽象的概念交流...
1引言互联网的深入发展带来了各种类型信息资源数量的快速膨胀。截至2014年6月,我国拥有273万个网站,3.3亿个IPv4地址[1].面对浩瀚巨量的网络资源,用户通过搜索引擎快速获取所需信息尤为重要。目前,我国搜索引擎用户达4.9亿;网民平均使用...
1引言在线社交网络是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。在线社交网络可分为4类:1)即时消息类应用,是一种提供在线实时通信的平台,如QQ、微信等;2)在线社交类应用,是一种提供在线社交关系的平台,如Facebook...
1、引言近年来,随着数字化教育浪潮的不断推进,我国在教育资源建设方面已经取得了巨大的成就,各类教育资源的数量巨大且呈现几何级数增长。随着搜索引擎技术的发展,通用搜索引擎的功能变得日益强大,取得了很大的成功,但其仍有局限性,如搜索的深度不够,...
上世纪中页,传播学家麦克卢汉曾在《理解媒介:论人的延伸》中提出:媒介是人感觉能力的延伸或扩展。这一经典概念的重要意义,在于将人的单一感官和媒体的传播特征进行了对应。例如,从视角延伸到印刷媒介,从听觉延伸到广播以及视、听觉共同延伸到电视。而...
大数据的理论及特征胡春明:大数据在今天已经不是一个新鲜的词汇。不管以前是不是叫大数据,人们都是在用数据看世界。数据分析方法往往采用了统计学上的采样法。只要采样方法在一些情况下足够好,样本数据就能足够反应真实世界的特点。从得到的样本数据...