文档中心 > 分词和词性标注
分词和词性标注

最近更新时间:2021-03-12

1 功能描述

对中文文本,为用户提供分词和词性标注两种功能。

2 请求说明

2.1 请求方式

调用地址:https://apim.unicloud.com/api/nlp/segment/1.0.0/

请求方式:POST

返回类型:JSON

2.2 请求参数

Header如下:

参数说明
Content-Typeapplication/json--
AuthorizationBearer参考Token获取

Body如下:

参数是否必选类型可选值范围说明
texttruestring-待分析文本,长度建议不超过1000个汉字,超过上限接口报错

注:Body是raw-json格式

2.3 请求示例

curl -H "Authorization:Bearer 2735fbc9-b797-31ad-812c-d8e9e903f6e3" \
-H "Content-Type:application/json" \
-d '{"text": "阳光保险集团股份有限公司于2005年7月成立"}' \
https://apim.unicloud.com/api/nlp/segment/1.0.0/

3 返回说明

3.1 返回参数

字段类型说明
datadict返回结果数据
+textstring待分析文本
+segmentarray of objects词汇数组,每个元素对应结果中的一个词
++wordstring词汇字符串
++offsetint词在原文的起始位置
++lengthint词长度
++posstring当前分词对应的词性
++basic_wordsarray of strings构成词的子部分
codeint返回码:
0表示成功
1001表示错误的命令请求格式:如JSON格式错误
2000 表示请求的操作超时终止:如模块处理超时
2001 表示未执行请求的操作:如文本超过指定长度
messagestring返回信息

3.2 返回示例

{    
    "data": {        
        "text": "阳光保险集团股份有限公司于2005年7月成立",        
        "segment": [
            {                
                "offset": 0,                
                "pos": "nt",                
                "basic_words": [                    
                    "阳光保险集团",                    
                    "股份有限公司"
                ],                
                "length": 12,                
                "word": "阳光保险集团股份有限公司"
            },
            {                
                "offset": 12,                
                "pos": "p",                
                "basic_words": [],                
                "length": 1,                
                "word": "于"
            },
            {                
                "offset": 13,                
                "pos": "t",                
                "basic_words": [                    
                    "2005",                    
                    "年",                    
                    "7月"
                ],                
                "length": 7,                
                "word": "2005年7月"
            },
            {                
                "offset": 20,                
                "pos": "v",                
                "basic_words": [],                
                "length": 2,                
                "word": "成立"
            }
        ]     
    },    
    "code": 0,    
    "message": 
    "success"
}

3.3 词类标注说明

分词词性标签释义举例说明
n名词余额、手机
nr人名张三、老李
nrj日语人名福原爱、小栗旬
nrf音译人名卡尔·马克思、C.S.刘易斯
ns地名北京市、海淀区
nsf音译地名纽约市、曼哈顿区
nz其他专名西安事变、红楼梦
nx字母词CPU、log
nba动物名东北虎、阿拉斯加犬
nbp植物名波斯菊、牵牛花
nf食物名薯片、米粉
nnd职业文秘、教师
nnt职务校长、经理
nhd疾病感冒、发烧
nhm药品乳酸菌素片、藿香正气水
nmc化学品名乙醇、甲醇
nt机构团体名(包括政府机 构)联合国、教育部
nis机构后缀学院、大学
ntc公司名玖富、百度
ntcb银行中国银行、招商银行
ntcf工厂富士康
ntch酒店宾馆全季酒店
nth医院北医三院
nts中小学北大附小
ntu大学北京大学
v动词吃、看
vshi动词“是”是、不是
vyou动词“有”有、没有
vf趋向动词上去、下来
vn名词性动词指挥、通知
vd能愿动词(不)能、(不)可以
vx形式动词进行、加以
vi不及物动词吃饭、开会
vl动词性惯用语吃不了兜着走
a性质形容词宽大、容不容易
z状态形容词胖胖的、笔直
an形容词性名词困难、痛苦
ad形容词性副词深入、容易
d副词很、非常
t时间词周一、五点
s处所词手头、家里
f方位词前、后、上、下
b区别词雄、雌、公共、半自动
m数词一、第一
mq数量词点、一点
q量词本、个、个个
qv动量词趟、下
qt时量词天、小时
r代词这下、这下子
rr人称代词你、我、他
rz指示代词这个、那样
rzt时间指示代词这天、这时
rzs地点指示代词这里、这儿
rzv谓词性指示代词看语境:这样
ry疑问代词什么、怎样
ryt时间疑问代词多久、何时
rys处所疑问代词哪里、哪儿
ryv谓词性疑问代词看语境:干嘛、怎么办
p介词在、为了
pba介词“把”
pbei介词“被”
c连词因为、虽然
cc并列连词和、还是
u助词也罢、得慌
uzhe助词“着”
ule助词“了”
uguo助词“过”
ude1助词“的”
ude2助词“地”
ude3助词“得”
usuo助词“所”
udeng助词“等”等、云云、之类
uyy助词“一样”一样、似的、一般
udh助词“的话”的话
uls助词“来说”来说、来讲、而言、而论
uzhi助词“之”
ulian助词“连”
e叹词哎呀、天哪
o拟声词哗啦、扑通、滴答
y语气词了、呢、吧
i成语兢兢业业、说一不二
h前缀阿(婆)、老(爸)
k后缀(学)者、(桌)子
g语素字(五点)时
ng名词性语素(出了五天)差
vg动词性语素(街头)现(新型诈骗手段)
tg时间词语素(上大学)时
ag形容词性语素众(明星)、(事故)频(发)
xx非语素字葡、萄
w标点符号!、。