1、搜索引擎的具体优化规则是什么?
这种问题其实很宽泛,相当于问“ SEO怎么做?” 这里我用图片简单说明一下爬取规则
搜索引擎从用户搜索到最终搜索结果呈现的步骤是(以百度为例):
爬行网站seo搜索引擎优化,百度连你的网站都不认识,你怎么能排名呢? 所以要让百度认识你,首先要经过爬取这一步;
过滤,过滤掉低质量的页面内容;
索引,只存储符合条件的页面;
处理,对搜索词进行处理网站seo搜索引擎优化,比如中文特有的分词处理、去除停用词、判断是否启动整合搜索、判断是否有拼写错误或错别字等。
排名,向用户展示优质页面;
蜘蛛():
搜索引擎发送的用于发现和抓取互联网上新网页的程序称为蜘蛛。 它从一个已知的数据库开始,像普通用户的浏览器一样访问这些网页网站seo搜索引擎优化,并沿着网页中的链接访问更多的网页。 ,这个过程称为爬行;
网站的蜘蛛爬行策略有两种:深度优先和广度优先。
爬取的基本流程:
根据爬取目标和范围,可以分为
批量爬虫:明确爬取目标和范围,达到即停止;
增量爬虫:针对网页不断更新的状态,爬虫需要及时响应,一般商业引擎一般都是这种类型;
垂直爬虫:仅针对特定领域的爬虫,根据主题进行过滤;
百度官方的抓取策略
1、爬取友好性,一段时间内同一网站的爬取频率和爬取流量不同,即错开正常用户访问峰值并不断调整,避免捕获的网站访问行为对正常用户造成过大影响。
2、常用的捕获返回码,如503、404、403、301等;
3、各种url重定向的识别,比如http 30x、meta重定向和js重定向,标签也可以看作是变相的重定向;
4、爬虫优先级分配,如深度优先遍历策略、广度优先遍历策略、PR优先策略、反链策略、大站优先策略等;
5、重复url过滤,包括url规范化识别,例如某个url包含大量无效参数,但实际上是同一个页面;
6、暗网数据的获取,搜索引擎暂时无法捕获的数据,例如网络数据库中存在的数据,或者由于网络环境、网站本身不符合规定、孤岛等问题而无法捕获的数据.、比如百度的“阿拉丁”计划;
7、爬虫和反作弊。 在爬虫的过程中,我们经常会遇到所谓的爬虫黑洞或者大量低质量页面的困扰。 这就要求爬虫系统也需要设计一套完整的爬虫和反作弊系统。 如分析url特征、分析页面大小和内容、分析爬取规模对应的网站规模等;
感兴趣的页面分为 3 类:
1. 以前从未抓取过的新页面。
2. 已被抓取但内容发生变化的页面。
3. 已抓取但现已删除的页面。
蜘蛛不能/不喜欢抓取的内容:
1. 页面被机器人屏蔽;
2、图片、视频、Flash等内容;
3.js、框架、表格嵌套;
4、蜘蛛被服务器拦截;
5. 孤岛页面(无任何导入链接);
6、登录后才能获取的内容;
四种类型的近似重复页面:
1、完全重复页面:内容和布局格式没有区别;
2、内容重复的页面:内容相同,但布局格式不同;
3、布局重复页面:一些重要内容相同,布局格式相同;
4、部分重复页面重要内容相同,但布局格式不同;
典型网页去重算法:特征提取、文档指纹生成、相似度计算
低质量的内容页面:
1、多个URL地址指向同一个网页和镜像站点,如带www和不带www的同时解析到一个网站;
2. 网页内容重复或近似重复,例如采集内容、错误文字或垃圾信息;
没有丰富的内容,例如纯图片页面或搜索引擎无法识别的页面内容;
过滤 – 如何处理重复文档:
1.低质量内容将被删除
2.高质量重复文档优先展示(重复度高表示受欢迎)
关注我的头条(常州江东)了解我的其他文章:
常见客户SEO问题解答:搜索引擎优化的规则是什么
常见客户SEO问题解答:网站标题如何写
常见客户SEO问题解答:网站的关键词布局到底是怎样的?
常见客户SEO问题解答:如何优化网站关键词?
常见客户SEO问题解答:网站降级了怎么办?
除非注明,否则均为未来可期SEO原创文章,转载必须以链接形式标明本文链接