搜索引擎的具体优化规则是什么？怎么做？

1年前发布

000

1、搜索引擎的具体优化规则是什么？

这种问题其实很宽泛，相当于问“ SEO怎么做？” 这里我用图片简单说明一下爬取规则

搜索引擎从用户搜索到最终搜索结果呈现的步骤是（以百度为例）：

爬行网站seo搜索引擎优化，百度连你的网站都不认识，你怎么能排名呢？所以要让百度认识你，首先要经过爬取这一步；

过滤，过滤掉低质量的页面内容；

索引，只存储符合条件的页面；

处理，对搜索词进行处理网站seo搜索引擎优化，比如中文特有的分词处理、去除停用词、判断是否启动整合搜索、判断是否有拼写错误或错别字等。

排名，向用户展示优质页面；

蜘蛛（）：

搜索引擎发送的用于发现和抓取互联网上新网页的程序称为蜘蛛。它从一个已知的数据库开始，像普通用户的浏览器一样访问这些网页网站seo搜索引擎优化，并沿着网页中的链接访问更多的网页。，这个过程称为爬行；

网站的蜘蛛爬行策略有两种：深度优先和广度优先。

爬取的基本流程：

根据爬取目标和范围，可以分为

批量爬虫：明确爬取目标和范围，达到即停止；

增量爬虫：针对网页不断更新的状态，爬虫需要及时响应，一般商业引擎一般都是这种类型；

垂直爬虫：仅针对特定领域的爬虫，根据主题进行过滤；

百度官方的抓取策略

1、爬取友好性，一段时间内同一网站的爬取频率和爬取流量不同，即错开正常用户访问峰值并不断调整，避免捕获的网站访问行为对正常用户造成过大影响。

2、常用的捕获返回码，如503、404、403、301等；

3、各种url重定向的识别，比如http 30x、meta重定向和js重定向，标签也可以看作是变相的重定向；

4、爬虫优先级分配，如深度优先遍历策略、广度优先遍历策略、PR优先策略、反链策略、大站优先策略等；

5、重复url过滤，包括url规范化识别，例如某个url包含大量无效参数，但实际上是同一个页面；

6、暗网数据的获取，搜索引擎暂时无法捕获的数据，例如网络数据库中存在的数据，或者由于网络环境、网站本身不符合规定、孤岛等问题而无法捕获的数据.、比如百度的“阿拉丁”计划；

7、爬虫和反作弊。在爬虫的过程中，我们经常会遇到所谓的爬虫黑洞或者大量低质量页面的困扰。这就要求爬虫系统也需要设计一套完整的爬虫和反作弊系统。如分析url特征、分析页面大小和内容、分析爬取规模对应的网站规模等；

感兴趣的页面分为 3 类：

1. 以前从未抓取过的新页面。

2. 已被抓取但内容发生变化的页面。

3. 已抓取但现已删除的页面。

蜘蛛不能/不喜欢抓取的内容：

1. 页面被机器人屏蔽；

2、图片、视频、Flash等内容；

3.js、框架、表格嵌套；

4、蜘蛛被服务器拦截；

5. 孤岛页面（无任何导入链接）；

6、登录后才能获取的内容；

四种类型的近似重复页面：

1、完全重复页面：内容和布局格式没有区别；

2、内容重复的页面：内容相同，但布局格式不同；

3、布局重复页面：一些重要内容相同，布局格式相同；

4、部分重复页面重要内容相同，但布局格式不同；

典型网页去重算法：特征提取、文档指纹生成、相似度计算

低质量的内容页面：

1、多个URL地址指向同一个网页和镜像站点，如带www和不带www的同时解析到一个网站；

2. 网页内容重复或近似重复，例如采集内容、错误文字或垃圾信息；

没有丰富的内容，例如纯图片页面或搜索引擎无法识别的页面内容；

过滤 – 如何处理重复文档：

1.低质量内容将被删除

2.高质量重复文档优先展示（重复度高表示受欢迎）

关注我的头条（常州江东）了解我的其他文章：

常见客户SEO问题解答：搜索引擎优化的规则是什么

常见客户SEO问题解答：网站标题如何写

常见客户SEO问题解答：网站的关键词布局到底是怎样的？

常见客户SEO问题解答：如何优化网站关键词？

常见客户SEO问题解答：网站降级了怎么办？

除非注明，否则均为未来可期SEO原创文章，转载必须以链接形式标明本文链接

本文链接：https://www.szsinotech.com/seo_5768.html

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

SEO网站优化
# 网站seo搜索引擎优化

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交