当下,随着互联网的崛起,且互联网的崛起使许多线下的传统行业越来越吃力,所以许多传统行业的老板们,都纷纷开始向互联网转变,慢慢的,这种形式也被人们称为“网络营销”,而网络营销的方式大部分老板们都选择了SEO,但一些老板也想通过自己的学习,将SEO研究明白,而本期云南丰聚网络,将讲解SEO如何研究排名的规律方法,一起来看看。
搜索引擎爬取全网海量页面 → 进行基本的质量评分 → 过滤出小部分质量较佳的网页 → 创建倒排索引(能够通过关键词查询文档)。
2.召回
用户发起搜索请求 → 搜索引擎先对关键词进行纠错处理 → 拆成多个词项 → 去索引中查找能够命中这些词项的文档,可能就是这个数
3.粗排
但是文档的实在数量太多了,一股脑的都推给用户显然很二逼,用户不可能都看完,只会看其中極小的一部分,另外也没法保证质量。
所以要从海量召回的文档中,删除其中内容高度重复的文档,并筛选与搜索词比较相关的760个文档,展现给用户。
这个环节属于海选,需要大量计算,为了不让用户等待过长,一般用快捷优先且相对简单的处理方式,比如BM25、TF-IDF、LDA,具体还有啥咱也不知道。
4.精排
之后就是对760篇文档排序的过程,它的目的是让排序结果的比较大概率符合用户预期的结果,这样用户才更有可能点进去了解详情,从而提升搜索的业务价值。
这部分比海选要复杂的多,涉及一大堆数据挖掘、机器学习、用户行为分析、用户意图识别等算法,大概包括:
4.1通过用户搜索词和前N次搜索词,结合历史日志中其他搜索该词的用户浏览行为,来揣测用户可能的搜索意图
4.2文档的更新时间
4.3文档的历史点击率
4.4文档浏览后终结搜索的比例
4.5用户的网络维度特征(IP、网络类型、地域....)
4.6与搜索词文本匹配度非常高的TopN条文档
....太多了咱也不知道
上述过程,对应着搜索引擎中,爬取、索引、召回、粗排、精排的几个阶段,属于搜索引擎系统入门级的常识。
5.重排
现在精排后面,还有重排,根据用户的搜索场景(网络、设备、近期点击行为等)和媒体热点,实时调整排序,比如:
你用wifi跟手机网络,搜索结果可能有所不同
今天上午点击的某个结果,下午再次搜索时排名就上去了。
了解完这些之后,那研究排名如何的吧。
1.研究收录 vs 研究排名
在16年以前,丰聚觉得研究「排名」是比较难的,后来搞了一堆单页站群、泛站群、资讯站群和少数几个单站,大概前后10万域名出头,发现「搞定收录」其实比「搞定排名」麻烦的多,甚至应付广告主没事总tm扣量、跑路不结算、域名被停止解析....,这个丰聚觉得都比研究排名麻烦。
2.研究大站 vs 研究小站
所以,丰聚觉得,大站与小站,研究排名,是两种路线:
大站研究的是,做的词怎样上首页。
小站研究的是,做哪些词能上首页。
3.长尾关键词
long long time ago,在做站群的时候,当时开发的还不是泛解析程序,能承载无限个关键词的。是库里有多少词,这个程序就生成多少对应数量的页面,或二级域名。
这意味着,如果库里面塞了一堆根本不可能排在首页的关键词,这是浪费系统资源的,毕竟新域名收录有限,自然希望收录的页面,都是大概率能上排名的页面。
一个流量词呢,在搜索结果表现,有4种特征:
Top.10结果爱站权重很高(平均权重>7);
Top.10结果爱站权重很低(平均权重<2);
搜索结果数很低(搜索结果数<1000);
有高有低(平均权重2-4);
第.一种可能这个词竞争度很大,或者本身是比较敏感的词,比如医疗养生类的,所以百度特意分流给了一些信任度高的大站。
第二种可能这个词是违禁的,但百度有没来得发现,也可能这个词还没被很多人发现。这个可以根据搜索结果的标题,是否完全命中关键词来判断,能命中是前者,不能命中是后者。
第三种是这个词是违禁的,且已经被百度发现删除。
第四种是正常的词,比如不算热门的小说、漫画名啥的。
已排名优先的清洗关键词措施,是找出第1种和第3种词,然后删除掉。
所以当时找词,比如从爱站导出来的竞品网站关键词,会先按如上方法洗词,洗完之后在上线。同等域名数量的情况下,能多出25%的流量。
以上是研究长尾词能够大概率上首页的问题。
首先,先从搜索引擎的基本概念开始了解吧:
一、搜索引擎基本概念:
1.爬取、索引搜索引擎爬取全网海量页面 → 进行基本的质量评分 → 过滤出小部分质量较佳的网页 → 创建倒排索引(能够通过关键词查询文档)。
2.召回
用户发起搜索请求 → 搜索引擎先对关键词进行纠错处理 → 拆成多个词项 → 去索引中查找能够命中这些词项的文档,可能就是这个数
3.粗排
但是文档的实在数量太多了,一股脑的都推给用户显然很二逼,用户不可能都看完,只会看其中極小的一部分,另外也没法保证质量。
所以要从海量召回的文档中,删除其中内容高度重复的文档,并筛选与搜索词比较相关的760个文档,展现给用户。
这个环节属于海选,需要大量计算,为了不让用户等待过长,一般用快捷优先且相对简单的处理方式,比如BM25、TF-IDF、LDA,具体还有啥咱也不知道。
4.精排
之后就是对760篇文档排序的过程,它的目的是让排序结果的比较大概率符合用户预期的结果,这样用户才更有可能点进去了解详情,从而提升搜索的业务价值。
这部分比海选要复杂的多,涉及一大堆数据挖掘、机器学习、用户行为分析、用户意图识别等算法,大概包括:
4.1通过用户搜索词和前N次搜索词,结合历史日志中其他搜索该词的用户浏览行为,来揣测用户可能的搜索意图
4.2文档的更新时间
4.3文档的历史点击率
4.4文档浏览后终结搜索的比例
4.5用户的网络维度特征(IP、网络类型、地域....)
4.6与搜索词文本匹配度非常高的TopN条文档
....太多了咱也不知道
上述过程,对应着搜索引擎中,爬取、索引、召回、粗排、精排的几个阶段,属于搜索引擎系统入门级的常识。
5.重排
现在精排后面,还有重排,根据用户的搜索场景(网络、设备、近期点击行为等)和媒体热点,实时调整排序,比如:
你用wifi跟手机网络,搜索结果可能有所不同
今天上午点击的某个结果,下午再次搜索时排名就上去了。
了解完这些之后,那研究排名如何的吧。
二、如何研究排名
这里我们就只用一家来看看。1.研究收录 vs 研究排名
在16年以前,丰聚觉得研究「排名」是比较难的,后来搞了一堆单页站群、泛站群、资讯站群和少数几个单站,大概前后10万域名出头,发现「搞定收录」其实比「搞定排名」麻烦的多,甚至应付广告主没事总tm扣量、跑路不结算、域名被停止解析....,这个丰聚觉得都比研究排名麻烦。
2.研究大站 vs 研究小站
所以,丰聚觉得,大站与小站,研究排名,是两种路线:
大站研究的是,做的词怎样上首页。
小站研究的是,做哪些词能上首页。
3.长尾关键词
long long time ago,在做站群的时候,当时开发的还不是泛解析程序,能承载无限个关键词的。是库里有多少词,这个程序就生成多少对应数量的页面,或二级域名。
这意味着,如果库里面塞了一堆根本不可能排在首页的关键词,这是浪费系统资源的,毕竟新域名收录有限,自然希望收录的页面,都是大概率能上排名的页面。
一个流量词呢,在搜索结果表现,有4种特征:
Top.10结果爱站权重很高(平均权重>7);
Top.10结果爱站权重很低(平均权重<2);
搜索结果数很低(搜索结果数<1000);
有高有低(平均权重2-4);
第.一种可能这个词竞争度很大,或者本身是比较敏感的词,比如医疗养生类的,所以百度特意分流给了一些信任度高的大站。
第二种可能这个词是违禁的,但百度有没来得发现,也可能这个词还没被很多人发现。这个可以根据搜索结果的标题,是否完全命中关键词来判断,能命中是前者,不能命中是后者。
第三种是这个词是违禁的,且已经被百度发现删除。
第四种是正常的词,比如不算热门的小说、漫画名啥的。
已排名优先的清洗关键词措施,是找出第1种和第3种词,然后删除掉。
所以当时找词,比如从爱站导出来的竞品网站关键词,会先按如上方法洗词,洗完之后在上线。同等域名数量的情况下,能多出25%的流量。
以上是研究长尾词能够大概率上首页的问题。