`
lzj0470
  • 浏览: 1238294 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

中科院的分词系统使用的词性标注标准

    博客分类:
  • java
阅读更多
汉语文本词性标注标记集

Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。

a 形容词 取英语形容词adjective的第1个字母。

ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。

an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。

b 区别词 取汉字“别”的声母。

c 连词 取英语连词conjunction的第1个字母。

Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。

d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。

e 叹词 取英语叹词exclamation的第1个字母。

f 方位词 取汉字“方”

g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。

h 前接成分 取英语head的第1个字母。

i 成语 取英语成语idiom的第1个字母。

j 简称略语 取汉字“简”的声母。

k 后接成分
 
l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。

m 数词 取英语numeral的第3个字母,n,u已有他用。

Ng 名语素 名词性语素。名词代码为n,语素代码g前面置以N。

n 名词 取英语名词noun的第1个字母。

nr 人名 名词代码n和“人(ren)”的声母并在一起。

ns 地名 名词代码n和处所词代码s并在一起。

nt 机构团体 “团”的声母为t,名词代码n和t并在一起。

nz 其他专名 “专”的声母的第1个字母为z,名词代码n和z并在一起。

o 拟声词 取英语拟声词onomatopoeia的第1个字母。

p 介词 取英语介词prepositional的第1个字母。

q 量词 取英语quantit的第1个字母。

r 代词 取英语代词pronoun的第2个字母,因p已用于介词。

s 处所词 取英语space的第1个字母。

Tg 时语素 时间词性语素。时间词代码为t,在语素的代码g前面置以T。

t 时间词 取英语time的第1个字母。

u 助词 取英语助词auxiliary

Vg 动语素 动词性语素。动词代码为v。在语素的代码g前面置以V。

v 动词 取英语动词verb的第一个字母。

vd 副动词 直接作状语的动词。动词和副词的代码并在一起。

vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。

w 标点符号
 
x 非语素字 非语素字只是一个符号,字母x通常用于代表未知数、符号。

y 语气词 取汉字“语”的声母。

z 状态词 取汉字“状”的声母的前一个字母。
-------------------------------------------------------------------------------
a:        形容词
b:        区别词
c:        连词
d:        副词
e:        叹词
g:        语素字
h:        前接成分
i:        习用语
j:        简称
k:        后接成分
m:        数词
n:        普通名词
nd:        方位名词
nh:        人名
ni:        机构名
nl:        处所名词
ns:        地名
nt:        时间词
nz:        其他专名
o:        拟声词
p:        介词
q:        量词
r:        代词
u:        助词
v:        动词
wp:        标点符号
ws:        字符串
x:        非语素字
更加详细内容:http://ictclas.org/ictclas_docs_003.html
分享到:
评论

相关推荐

    计算所汉语词法分析系统ICTCLAS

    为此,中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;...

    中科院中文分词系统及各种调用示例

    这个分词系统需要注册才可使用,不建议大家下载,因为事先不清楚.抱歉!需要的话,可以下载我上传的其它版本. 计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态...开发者在分词和词性标注的基础上继续上层开发。

    中科院分词系统

    基于多层隐马尔科夫模型的汉语词法分析系统(Institute of Computing Technology, Chinese Lexical Analysis System),它包括了中文分词,词性标注和未登录词识别等。

    中科院分词系统_易语言调用模块

    词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。本模块是方便易语言码农直接调用中科院分词系统,本文件只含模块内容,其他分词系统需到官网下载

    分词软件中科院编写

    分词软件,词性标注,可用于文本挖掘,和情感分析领域

    中科院分词软件2013版基础包

    这是一个中科院中文词法分析器,能对输入的文本进行分词,词性标注,2013基础版的

    ICTCLAS2009版中文分词系统

    中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...

    中科院FreeICTCLAS中文分词工具C++源码

    词性标注;未登录词识别。 // 分词正确率高达97.58%(973专家评测结果), // 未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%; // 处理速度为31.5Kbytes/s。 //著作权: Copyright?2002-2005中科院...

    中科院ICTCLAS分词源代码

    这是中科院的ICTCLAS的中文分词算法的源代码,可以实现中文分词,词性标注等功能。绝对好用!

    易语言中科院分词模块2014

    NLPIR汉语分词系统(又名ICTCLAS2014),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。

    ICTPOS3.0汉语词性标记集

    计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集: 1. 北大《人民日报》...

    ICTCLAS30汉语分词

    中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...

    30万 中文分词词库

    自己做毕设整理的分词词库,使用中科院的标注集合北大标注集,也就是两种标注混合用的。每个词一个词性,也有词频。由于使用多个词典整合的,词频不是特别准。但是能满足一般的需求。 容量为29.8w. 包含了三级地名、...

    中科院计算所ICTCLAS

    中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...

    汉语文本聚类

    程序利用中科院的软件,分词、词性标注以后聚类,利用tf-idf值求出30个特征性,生成特征向量,可放在weka中聚类!

    切词软件(中科院)

    这是一个中科院中文词法分析器,能对输入的文本进行分词,词性标注,未登陆词识别等功能,正确率相当高,很有用哦

    java笔试题算法-NLP_summary:自然语言处理

    主要功能包括分词、词性标注、命名实体识别、用户词典功能,新词发现与关键词提取。 可以可视化界面操作和API方式调用。 哈工大LTP(推荐) 语言技术平台(LTP)是哈工大社会计算与信息检索研究中心开发的一整套中文...

    ICTCLAS50_Windows_32_C

    中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...

    汉语词法分析系统windows_C_64.rar

    中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统

    ICTC-6

    <br>1、数据表示 这里我们求最短路的例子使用如下的有向图,每条边的权重已经在图中标注出来了。 <br> <br>(图一) <br>根据上篇文章内容,该图该可以等价于如下的二维表格表示: <br> <br>...

Global site tag (gtag.js) - Google Analytics