熊猫中文分词助手如何使用自定义词典?
熊猫中文分词助手支持自定义词典功能,具体使用帮助如下:
用户可以指定自定义的词典,以便包含在词库里没有的词。虽然软件有新词识别能力,
但是自行添加新词可以保证更高的正确率
词典格式与主词典格式相同,即一行包含:词、词频(可省略)、词性(可省略),用空格隔开
词频省略时,分词器将使用自动计算出的词频保证该词被分出
自定义词典内容举例:
创新办 3 i 云计算 5 凱特琳 nz 台中 机器学习 3
请注意一行一个
当然,如果您不需要词性标注功能,可以仅添加新词列表即可:如
抖音
微信
(一行一个)
最后在分词前,选择该txt文件路径即可:
如图