`
h_rain
  • 浏览: 120624 次
  • 性别: Icon_minigender_1
  • 来自: 哈尔滨
文章分类
社区版块
存档分类
最新评论

关于一些中文分词器

阅读更多
    找了一些,列出来,备忘.部分内容来自http://lihaiyan.iteye.com/blog/127674

    1 计算所汉语词法分析系统 ICTCLAS
    中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6

由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。

(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载

(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine

    2 海量智能分词研究版

    海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8


    3 CSW中文智能分词组件

    运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。

简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

下载页面: http://www.vgoogle.net/

    4 C# 写的中文分词组件

据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。

下载页面: http://www.rainsts.net/article.asp?id=48

    5 (C) scws-1.0.0 正式发布 (含php扩展及2文本词典) http://www.hightman.cn/


    6 MMSeg Java开源实现http://www.solol.org/projects/mmseg/


    7 小麻雀搜索引擎http://www.sqlet.com/

    8 (C#) 开源 ShootSearch 分词组件 1.0 bate 070312 (支持dotlucene)http://www.shootsoft.net/home/show.aspx?id=38&cid=8

    9 (Java) Paoding Analysis(庖丁解牛)http://code.google.com/p/paoding/

    10 (Java) lucene开源中文分词器 IKAnalyzer2.0.2 共享及源码发布http://linliangyi2007.iteye.com/blog/165287

    11 (ruby) RMMSeg 作者,一些介绍
根据作者自己博客上面的测试,中文分词的准确率可以达到98%以上.应该是MMSEG的Ruby实现.
  
    12 (C) MMSEGhttp://technology.chtsai.org/mmseg/

    13 (C++)FirteX 是一个功能强大、高性能、灵活的全文索引和检索平台http://www.firtex.org/


    其他:
    搜索引擎资料收集(转)http://wind-bell.iteye.com/blog/81504
    几个免费的中文分词模块http://lihaiyan.iteye.com/blog/127674
    开源研究,中文分词http://www.j-kanban.com/bbs/thread-1806-1-1.html
分享到:
评论

相关推荐

    庖丁解牛,一种中文分词器

    一款比较好的中文分词器,可以很方便地集成到lucene中,集成到lucene3.0中的时候需要做一些修改,具体修改方法可以百度之

    中文分词及其在基于Lucene的全文检索中的应用

    本文构造出一种适应中英文信息处理的Lucene语言分析器,该分析器的核心模块——分词器所使用的分词算法是一种基于词典的中文分词算法,该算法具体实现上采用了基于词前缀哈希技术来进行逐字匹配,采用基于规则统计...

    中文分词十年回顾

    中文分词十年回顾中藐视了中文分词的一些规则及方法,包括,词是否有清晰的界定?;理解和分词孰先孰后;未登录词对分词精度的影响;基于字的分词方法;

    中文分词的一些文章

    博文链接:https://mikesu.iteye.com/blog/51457

    中文分词java实现

    所需要抽取的文本进行分词和词性的标注,将中文划分为独立存在的词, 并且辨别这些词的词性,将每一个词的词性标注在每一个词的后面。这样做可以方便我们对一些需要的词的抽取,并且能更加方便的进行词频统计。

    开源_易语言中文分词_非网页调用

    ' 此文件算法根据织梦中文分词php版本的简化版本修改而来,如果用于商业请自行考虑版权问题 '关键字自动获取php源码 这个文件夹里面的就是原来的php文件,应该是老版本的织梦cms里面提取出来的....这是一个简化版本的...

    SCWS繁体中文分词辞典txt格式

    它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的 切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间 用空格分开,所以如何准确快速的分词一直是中文分词的...

    中文分词原代码(C++版)

    一个基于又又C++的中文分词原代码,写得比较复杂,里面一些注释,不过比较少,总的看还是比较简单的,可以供需要的人参考一下!(注:版权归原作者所有)

    简单中文分词系统 v1.0

    分词算法上并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名, 数字年代等规则识别来达到基本分词,经小范围测试准确率在 90% ~ 95% 之间, 基本上能满足一些小型搜索引擎、关键字...

    PHP中文分词代码 v1.0 UTF-8.rar

    分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与 一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。...

    中文自动分词控件演示

    自动分词的实现,对于拉丁语系来说并不困难,其语言文字的形成结构中,词与词之间本身就有着明显的间隔符(如:空格、标点符号等),但对于中文来说,就是一个至今仍未能得以很好解决的技术难题,中文词与词之间...

    基于中文的Shuzhen分词器1.1.4提供下载

    分词时完全按照标准分词来进行,这样保证了在和一些高亮显示组件如highlighter一起使用时,能准确无误的将命中进行高亮显示,避免了Google高亮显示的 Bug;配置文件的存放支持相对路径,这样更灵活,更方便应用在一些...

    搜集的一些中文分词方法

    我也没用过,希望对大家有用。 资源分定高了点儿。 主要是我没分了。 好多资料需要下呀。

    中文分词的研究

    关于中文的分词技术的一些研究和概述

    论文研究-搜索引擎中文分词策略的研究 .pdf

    搜索引擎中文分词策略的研究,王靖,徐向阳,本文首先介绍了什么是中文分词,分析了搜索引擎进行中文分词的必要性,然后根据搜索引擎的评价标准,提出了一些适合于搜索引擎的

    中文分词word库1.3.1

    word主要用于中文分词,支持多种分词算法和一些其它的高级功能。

    一个简单的中文分词算法,可用于网游脏词过滤、搜索引擎文档解析、自然语言处理等需要中文分词的场合

    洋文单词以空格天然分词,相比较而言因为一句中文是由连贯的字组成的,分词就麻烦一些。最困难的情况是对二义性句子的分割问题。比如“搜索引擎”这四个字,可以拆成“搜索”和“引擎”,但“索引”也是一个中文词汇...

Global site tag (gtag.js) - Google Analytics