当前位置
首页/ 官方博客/ 开发札记/ 主流中文分词技术方案(Jieba, SnowNLP, PkuSeg, THULAC, HanLP)对比

主流中文分词技术方案(Jieba, SnowNLP, PkuSeg, THULAC, HanLP)对比

中文分词技术介绍

熊猫关键词工具旗下的中文分词工具(https://www.5guanjianci.com/tools/fenci/)上线以来获得了不少用户的认可。

会有很多朋友想知道当前主流的分词技术方案有哪些,本文将带您了解主流中文分词技术(Jieba, SnowNLP, PkuSeg, THULAC, HanLP)

各维度的对比。

中文分词技术


<一> 结巴分词

Github:https://github.com/fxsjy/jieba

结巴分词是国内最广泛使用的分词技术,该项目可以完全满足中文分词的需要。

结巴分词有如下功能特点:

  • 支持三种分词模式:

  • 精确模式,试图将句子最精确地切开,适合文本分析;

  • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

  • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

  • 支持繁体分词

  • 支持自定义词典


<二> SnowNLP

Github:https://github.com/isnowfy/snownlp

该项目功能齐全,有如下功能特点:

  • 中文分词(Character-Based Generative Model)

  • 词性标注(TnT 3-gram 隐马)

  • 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)

  • 文本分类(Naive Bayes)

  • 转换成拼音(Trie树实现的最大匹配)

  • 繁体转简体(Trie树实现的最大匹配)

  • 提取文本关键词(TextRank算法)

  • 提取文本摘要(TextRank算法)

  • tf,idf

  • Tokenization(分割成句子)

  • 文本相似(BM25)

  • 支持python3(感谢erning)


<三> PkuSeg

Github:https://github.com/lancopku/pkuseg-python

pkuseg 是基于论文[Luo et. al, 2019]的工具包。其简单易用,支持细分领域分词,有效提升了分词准确度。

  • 多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点

  • ,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型。

  • 在使用中,如果用户明确待分词的领域,可加载对应的模型进行分词。如果用户无法确定具体领域,推荐使用在混合领域上训练的通用模型。

  • 更高的分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。

  • 支持用户自训练模型。支持用户使用全新的标注数据进行训练。

  • 支持词性标注。


<四> THULAC

Github:https://github.com/thunlp/THULAC-Python

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。

THULAC具有如下几个特点:

  • 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。

  • 准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。

  • 速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。


<五> HanLP

Github:https://github.com/hankcs/pyhanlp

功能特点:

  • 自定义词典

  • 极速词典分词

  • 索引分词

  • CRF分词

  • 感知机词法分析

  • 臺灣正體、香港繁體

  • 关键词提取、自动摘要

  • 文本分类、情感分析


文章标签

相关推荐

熊猫中文分词助手1.1.0.0发布

熊猫中文分词助手1.1.0.0发布,本次更新内容:新增源文档编码设置功能,优化文本多行分词逻辑

熊猫中文分词助手1.1.0.0发布
熊猫中文分词助手如何使用自定义词典

熊猫中文分词助手如何使用自定义词典

熊猫中文分词助手如何使用自定义词典
熊猫中文分词助手各个分词模式的区别

熊猫中文分词助手各个分词模式(精确模式,全模式,搜索引擎模式)的区别

熊猫中文分词助手各个分词模式的区别
熊猫中文分词助手词性标记对照表

熊猫中文分词助手词性标记对照表

熊猫中文分词助手词性标记对照表
批量中文分词工具获取方式

本文提供我们官方开发的批量中文分词工具获取方式

批量中文分词工具获取方式
干货:利用分词算法来分析关键词

百度关键词算法之分词算法,利用分词算法来分析关键词,这样做可以让我们的关键词确定的更 为准确,让我们的seo优化工作更快见效

干货:利用分词算法来分析关键词