账号注册找回密码
  微信登录

奇瑰网社区

百度分词技术研究与猜测

[复制链接]

0

主题

0

帖子

-161

积分

限制会员

G币
2
信用
0
体力
-44
发表于 2020-7-22 20:52:40 | 显示全部楼层 |阅读模式
百度分词技术研究与猜测百度搜索引擎在中文领域市场占有率第一的地位,严格来说是他有了一套非常好的分词技术。当然高深的分词技术我们是无法探知的。但我们可以从一些表面的一些“管”来窥其里面的“豹”。今天杭州SEO就为大家谈一谈关于百度分词的一点点基本的猜测。  首先我们要了解百度分词的条件,并不是所有的词都会有分词产生,例如我们搜索“大学生”,返回的结果,我们会看到精准匹配,那么百度就对这个词没有进行了分词处理,看下图:
  

  而我们搜索“电影下载”,百度就会将这些词拆分为“电影”、“下载”和“电影下载”,如下图:
  

  于是有朋友猜测会不会百度以三个中文字为限,开始实施分词呢?大家可以多次测试一下,这种说法是相当有市场的,但是后面我又搜索关键词的时候发现一个问题,如果一个词已经被百度词库收为一个单独的词,那么不管他多么长,百度也会先推荐精准匹配网页,然后推荐分词匹配网页。
  例如大家搜索“不管你们信不信”,一般来说这样的句子肯定是要被分词处理的,但是因为去年动车事件,这个句子已经成为大家常用的词语,百度也已经对这个词比较认可了,将他收入词库中,那么它就可以实现精准匹配。如下图,网页标题中都是精准匹配,未见分词匹配:
  

  结论猜测:用户搜索某个关键词,百度会根据自己词库先进行精准匹配,如果这个词是很常用的词,在自己词库中已经建立词条的词,那么百度就会调用相关的网页结果,如果词库中不存在就进行分词处理,得出的搜索结果也会产生一些分词处理情况,至于结果排名影响因素比较多,比如网站的权重会影响到搜索的结果排名,具体的需要深入分析,这里就不班门弄斧了。




上一篇:分享站长常用免费SEO工具
下一篇:站长创业为何失败?
使用高级回帖 (可批量传图、插入视频等)

发表回复

您需要登录后才可以回帖 登录 | 账号注册   微信登录

本版积分规则   Ctrl + Enter 快速发布  

发帖时请遵守我国法律,网站会将有关你发帖内容、时间以及发帖IP地址等记录保留,只要接到合法请求,即会将信息提供给有关政府机构。
关闭

网站最新推荐 上一条 /1 下一条

Powered by Discuz! X3.4 ( 粤ICP备20013252号-1  
Copyright © 2014-2020 奇瑰网 All Rights Reserved.
快速回复 返回顶部 返回列表