多语言展示
当前在线:333今日阅读:31今日分享:25

跟我学SEO之理解搜索引擎的工作原理

通过上一章的学习,我们已经了解了SEO的一些基本理论知识,本章将深入地分析搜索引擎的工作原理,这对SEO非常重要,一些SEO从业者总是喜欢将眼光放得非常高,认为这些基本理论没有什么研究价值,成天幻想着获得SEO的秘籍,让网站一夜成名。这是不现实的,也脱离了SEO的本质。
方法/步骤
1

2.1 蜘蛛spider并非是动物读书总结:你之前听过爬虫、蜘蛛吗?搜索引擎的蜘蛛Spider是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。搜索引擎是通过网页中的链接地址来寻找其他链接地址。

2

2.1.1 蜘蛛spider的分类读书总结:按照抓取内容的不同可以将搜索引擎蜘蛛分为以下几类。1、全文索引:搜索引擎定期会主动派出蜘蛛程序进行对一定ip地址范围内的网站进行检索。一旦发现新站,它会自动提取网站的信息和网址加入自己的数据库。通常根据网页中的关键词的匹配程度、出现的位置、频次、链接质量、计算出各网页的相关度及排名等级。2、目录索引:目录索引完全依赖手工提交,用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套评判标准,决定是否收录你的网站。3、元搜索:元搜索接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。

3

2.1.2 蜘蛛spider的抓取方式读书总结:搜索引擎一般有2种策略:广度优先和深度优先。广度优先:是指搜索引擎蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中一个链接网页,继续抓取在此网页中的所有链接的所有页面。这是最常用的方式,因为这个方法可以让蜘蛛并行处理,提高其抓取速度。深度优先:是指搜索引擎会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是搜索引擎蜘蛛在设计的时候比较容易。

7

2.3 内容处理和索引读书总结:搜索引擎抓取网页后,会经过以下步骤对内容进行处理:1、提取文字:过滤掉html标签只提取文字2、中文分词:基于词典与统计分词3、去除停止词:过滤掉如啊、哈、的、以等无词的字4、消除噪声:去掉对页面主题没有贡献的词如:版权声明文字5、去除重复:如果你的网站内容都是别人网站copy过来的,搜索引擎根据情况也会去除的。6、正向索引:网页被处理好后,会被搜索引擎记录在案7、倒排索引8、链接关系计算9、特殊文件处理:目前搜索引擎还不能处理图片、视频等内容

8

2.4 搜索引擎怎样计算内容的相关性读书总结:很多搜索引擎屏弊的网站都是内容不相关导致搜索引擎信任度下降造成的。影响内容相关性的主要因素:1、关键词常用程度:越常用的词对搜索词的意义越小,越不常用的词对搜索词的意义贡献越大。2、词频及密度:一般情况我们认为,在没有关键词堆积的时候,搜索词在页面中出现次数多,说明密度越高。3、关键词位置及形式:关键词出现在比较重要的位置:如:title标签、H1-6标签、strong标签等位置。4、关键词距离5、链接分析及页面权重

9

2.5 搜索引擎如何判断低质量内容读书总结:原创内容对于网站的权重的提升是很有好处的。搜索引擎进入网站后,首先看的是网站的内容质量,其次才会看网站内容是否是原创。一个成熟的SEO者往往会研究大量的长尾关键词,并根据这些关键词为网站写内容,这种方法能给网站带来精准用户。

推荐信息