赞
踩
en | cn | e.g. | 数量 |
---|---|---|---|
a | 形容词 | 高 明 尖 诚 粗陋 冗杂 丰盛 顽皮 很贵 挺好用 … | 4306 |
ad | 副形词 | 努目 完全 努力 切面 严实 慌忙 明确 仓惶 详细 … | 110 |
ag | 形语素 | 详 笃 睦 奇 洋 裸 渺 忤 虐 黢 怠 峻 悫 鄙 秀 … | 46 |
an | 名形词 | 麻生 猥琐 腐生 困苦 危难 负疚 刚愎 危险 悲苦 … | 40 |
b | 区别词 | 劣等 洲际性 超常规 同一性 年级 非农业 二合一 … | 1363 |
c | 连词 | 再者说 倘 只此 或曰 以外 换句话说 虽是 除非 … | 504 |
d | 副词 | 幸免 四顾 绝对 急速 特约 从早 务须 逐行 挨边 … | 2422 |
df | 不要 | 不要 | 1 |
dg | 副语素 | 俱 辄 | 2 |
e | 叹词 | 好哟 嗄 天呀 哎 哇呀 啊哈 嗳 诶 嗬 呜呼 哇塞 … | 34 |
f | 方位词 | 内侧 以来 面部 后侧 面前 沿街 之内 两岸 里 … | 351 |
g | 语素 | 媸 璇 戬 瓴 踔 鳌 撄 絷 膑 遘 醢 槊 胂 鹎 豳 … | 969 |
h | 前接成分 | 非 超低 | 2 |
i | 成语 | 绿荫蔽日 振耳欲聋 沧海一粟 一望无边 为尊者讳 … | 25583 |
j | 简称略语 | 交警 中低收入 四个现代 经检测 青委 车改 … | 1396 |
k | 后接成分 | 型 者 式 们 | 4 |
l | 习用语 | 不懂装懂 相聚一刻 由下而上 十字路口 查无此人 … | 17721 |
m | 数词 | 九六 十二 半成 戊酉 俩 一二三四五 丙戌 片片 … | 13178 |
mg | 数语素 | 寅 巳 | 2 |
mq | 数量词 | 半年度 四方面 十付 三色 一口钟 四面 三分钟 … | 80 |
n | 名词 | 男性 娇子 气压 写实性 联立方程 商业智能 寒窗 … | 117902 |
ng | 名语素 | 诀 卉 茗 鹊 娃 寨 酊 钬 雹 役 莺 谊 隙 族 鸩 … | 280 |
nr | 人名 | 雍正皇帝 小老弟 唐僧骑 铁娘子 小甜甜 璐 … | 72842 |
nrfg | 古近代人名 | 刘备 关羽 张飞 赵云 任弼时 … | 484 |
nrt | 音译人名 | 米尔科 达尼丁 三世 五丁 塞拉 埃克尔斯 贝当 … | 5941 |
ns | 地名 | 南明 锡山 拱北 南非 哥里 平北 丹井 佛山 广州 … | 17706 |
nt | 机构团体 | 浙江队 中医院 中华网 铁道部 广电部 联想集团 … | 4713 |
nz | 其他专名 | 培根 补丁 圣战士 英属 国药准字 … | 10441 |
o | 拟声词 | 哈喇 咝 哗喇 咔喳 飕 哇哇 喃 咕隆 咿呀 唧咕 … | 247 |
p | 介词 | 顺当 顺着 借了 连着 乘着 除了 较之于 根 自 … | 114 |
q | 量词 | 毫厘 盅 封 千瓦小时 立方米 盎 座 毫克 张 斛 … | 232 |
r | 代词 | 该车 这时 那些 甚么 鄙人 此案 睿智者 他 怎生 … | 759 |
rg | 代语素 | 兹 | 1 |
rr | 代词 | 偺们 妳们 其他人 | 3 |
rz | 代词 | 这位 | 1 |
s | 处所词 | 世外 肩前 舷外 手下 耳边 兜里 盘头 桌边 家外 … | 591 |
t | 时间词 | 新一代 清时 先上去 月初 昔年 无日 唐五代 佳日 … | 1768 |
tg | 时间语素 | 昔 晚 春 现 暮 夕 宵 | 7 |
u | 助词 | 则否 等 恁地 等等 似的 来说 矣哉 来看 般 的话 … | 20 |
ud | 得 | 得 | 1 |
ug | 过 | 过 | 1 |
uj | 的 | 的 | 1 |
ul | 了 | 了 | 1 |
uv | 地 | 地 | 1 |
uz | 着 | 着 | 1 |
v | 动词 | 批发 孕育 作成 纳闷儿 遭殃 留话 吻下去 创生 … | 34761 |
vd | 副动词 | 狡辩 持续 逆势 | 3 |
vg | 动语素 | 悖 谏 踞 泯 濯 掳 诌 疑 诲 吁 囿 酌 蟠 豢 匿 … | 160 |
vi | 动词 | 沉溺于 等同于 沉缅于 徜徉于 | 4 |
vn | 名动词 | 审查 相互毗连 销蚀 对联 劳工 漫游 … | 3235 |
vq | 动词 | 捱过 唸过 去过 去浄 | 4 |
x | 非语素字 | 舭 珑 婪 躅 蕺 蜓 螂 窀 蘅 葜 姆 榍 虺 楂 … | 367 |
y | 语气词 | 吓呆了 呃 呀 兮 哩 呐 嘞 哇 呗 意谓着 也罢 啦 … | 49 |
z | 状态词 | 歪曲 飘飘 慢慢儿 急地 沉迷在 晕呼呼 … | 2624 |
zg | zg | 鮛 瑑 灘 鄼 緣 嗙 獘 洅 暠 埄 涚 鞞 檺 肸 撻 … | 5666 |
jieba是参照【ICTCLAS 汉语词性标注集 中科院】的
import jieba, pandas as pd, os
jieba_dict = os.path.dirname(jieba.__file__) + '/dict.txt'
df_jieba = pd.read_table(jieba_dict, sep=' ', header=None)[[2, 0]]
dt = {k: set() for k in df_jieba[2].values}
for f, w in df_jieba.values:dt[f].add(w)
ls_of_ls = [(f, len(w), ' '.join(list(w)[:50])) for f, w in dt.items()]
pd.DataFrame(ls_of_ls, columns=['flag', 'count', 'e.g.']).sort_values('flag').to_excel('flag.xlsx', index=None)
import jieba.posseg as jp
print(jp.lcut('我爱西樵山'))
[pair(‘我’, ‘r’), pair(‘爱’, ‘v’), pair(‘西樵山’, ‘ns’)]
from jieba.posseg import dt
print(dt.word_tag_tab)
flag_en2cn = {
'a': '形容词', 'ad': '副形词', 'ag': '形语素', 'an': '名形词', 'b': '区别词',
'c': '连词', 'd': '副词', 'df': '不要', 'dg': '副语素',
'e': '叹词', 'f': '方位词', 'g': '语素', 'h': '前接成分',
'i': '成语', 'j': '简称略语', 'k': '后接成分', 'l': '习用语',
'm': '数词', 'mg': '数语素', 'mq': '数量词',
'n': '名词', 'ng': '名语素', 'nr': '人名', 'nrfg': '古代人名', 'nrt': '音译人名',
'ns': '地名', 'nt': '机构团体', 'nz': '其他专名',
'o': '拟声词', 'p': '介词', 'q': '量词',
'r': '代词', 'rg': '代语素', 'rr': '代词', 'rz': '代词',
's': '处所词', 't': '时间词', 'tg': '时间语素',
'u': '助词', 'ud': '得', 'ug': '过', 'uj': '的', 'ul': '了', 'uv': '地', 'uz': '着',
'v': '动词', 'vd': '副动词', 'vg': '动语素', 'vi': '动词', 'vn': '名动词', 'vq': '动词',
'x': '非语素字', 'y': '语气词', 'z': '状态词', 'zg': '状态语素',
}
标签 | 含义 | 标签 | 含义 | 标签 | 含义 | 标签 | 含义 |
---|---|---|---|---|---|---|---|
n | 普通名词 | f | 方位名词 | s | 处所名词 | t | 时间 |
nr | 人名 | ns | 地名 | nt | 机构名 | nw | 作品名 |
nz | 其他专名 | v | 普通动词 | vd | 动副词 | vn | 名动词 |
a | 形容词 | ad | 副形词 | an | 名形词 | d | 副词 |
m | 数量词 | q | 量词 | r | 代词 | p | 介词 |
c | 连词 | u | 助词 | xc | 其他虚词 | w | 标点符号 |
PER | 人名 | LOC | 地名 | ORG | 机构名 | TIME | 时间 |
from jieba import enable_paddle, posseg
enable_paddle()
print(posseg.lcut('小基基在南海注册桂城人工智能公司'))
print(posseg.lcut('小基基在南海注册桂城人工智能公司', use_paddle=True))
abbreviate | full name | description |
---|---|---|
CC | Coordinating conjunction | 连接词 |
CD | Cardinal number | 基数词 |
DT | Determiner | 限定词(this,those,such)不定限定词(any,each,every,either,all,many,other) |
EX | Existential there | 存在句 |
FW | Foreign word | 外来词 |
IN | Preposition or subordinating conjunction | 介词或从属连词 |
JJ | Adjective | 形容词或序数词 |
JJR | Adjective, comparative | 形容词比较级 |
JJS | Adjective, superlative | 形容词最高级 |
LS | List item marker | 列表标示 |
MD | Modal | 情态助动词 |
NN | Noun, singular or mass | 常用名词 单数形式 |
NNS | Noun, plural | 常用名词 复数形式 |
NNP | Proper noun, singular | 专有名词,单数形式 |
NNPS | Proper noun, plural | 专有名词,复数形式 |
PDT | Predeterminer | 前位限定词 |
POS | Possessive ending | 所有格结束词 |
PRP | Personal pronoun | 人称代词 |
PRP | Possessive pronoun | 所有格代名词 |
RB | Adverb | 副词 |
RBR | Adverb, comparative | 副词比较级 |
RBS | Adverb, superlative | 副词最高级 |
RP | Particle | 小品词 |
SYM | Symbol | 符号 |
TO | to | 作为介词或不定式格式 |
UH | Interjection | 感叹词 |
VB | Verb, base form | 动词基本形式 |
VBD | Verb, past tense | 动词过去式 |
VBG | Verb, gerund or present participle | 动名词和现在分词 |
VBN | Verb, past participle | 过去分词 |
VBP | Verb, non-3rd person singular present | 动词非第三人称单数 |
VBZ | Verb, 3rd person singular present | 动词第三人称单数 |
WDT | Wh-determiner | 关系限定词(whose,which)疑问限定词(what,which,whose) |
WP | Wh-pronoun | 代词(who whose which) |
WP | Possessive wh-pronoun | 所有格代词 |
WRB | Wh-adverb | 疑问代词(how where when) |
import nltk
text = 'Sweat is the lubricant of success'
words = nltk.word_tokenize(text)
tags = nltk.pos_tag(words)
print(words, tags, sep='\n')
[‘Sweat’, ‘is’, ‘the’, ‘lubricant’, ‘of’, ‘success’]
[(‘Sweat’, ‘NN’), (‘is’, ‘VBZ’), (‘the’, ‘DT’), (‘lubricant’, ‘NN’), (‘of’, ‘IN’), (‘success’, ‘NN’)]
词性 | 含义 | 词性 | 含义 | 词性 | 含义 | 词性 | 含义 |
---|---|---|---|---|---|---|---|
Ag | 形语素 | g | 语素 | ns | 地名 | u | 助词 |
a | 形容词 | h | 前接成分 | nt | 机构团体 | vg | 动语素 |
ad | 副形词 | i | 成语 | nz | 其他专名 | v | 动词 |
an | 名形词 | j | 简称略语 | o | 拟声词 | vd | 副动词 |
b | 区别词 | k | 后接成分 | p | 介词 | vn | 名动词 |
c | 连词 | l | 习用语 | q | 量词 | w | 标点符号 |
dg | 副语素 | m | 数词 | r | 代词 | x | 非语素字 |
d | 副词 | Ng | 名语素 | s | 处所词 | y | 语气词 |
e | 叹词 | n | 名词 | tg | 时语素 | z | 状态词 |
f | 方位词 | nr | 人名 | t | 时间词 | un | 未知词 |
词性 | 含义 | 词性 | 含义 | 词性 | 含义 | 词性 | 含义 |
---|---|---|---|---|---|---|---|
n | 普通名词 | f | 方位名词 | s | 处所名词 | t | 时间名词 |
nr | 人名 | ns | 地名 | nt | 机构团体名 | nw | 作品名 |
nz | 其他专名 | v | 普通动词 | vd | 动副词 | vn | 名动词 |
a | 形容词 | ad | 副形词 | an | 名形词 | d | 副词 |
m | 数量词 | q | 量词 | r | 代词 | p | 介词 |
c | 连词 | u | 助词 | xc | 其他虚词 | w | 标点符号 |
PER | 人名 | LOC | 地名 | ORG | 机构名 | TIME | 时间 |
示例
对比句法分析,缺少了
词性 | 含义 | 词性 | 含义 | 词性 | 含义 | 词性 | 含义 | 词性 | 含义 | 词性 | 含义 |
---|---|---|---|---|---|---|---|---|---|---|---|
Ag | 形语素 | g | 语素 | vg | 动语素 | Ng | 名语素 | dg | 副语素 | tg | 时语素 |
i | 成语 | l | 习用语 | j | 简称略语 | - | - | h | 前接成分 | k | 后接成分 |
o | 拟声词 | y | 语气词 | e | 叹词 | - | - | b | 区别词 | z | 状态词 |
Tag | Description | e.g. |
---|---|---|
a | adjective | 美丽 |
b | other noun-modifier | 最高 |
c | conjunction | 且 |
d | adverb | 非常 |
e | exclamation | 哎 |
g | morpheme | 甥 |
h | prefix | 阿 |
i | idiom | 百花齐放 |
j | abbreviation | 公检法 |
k | suffix | 型 |
m | number | 五 |
n | general noun | 鸡蛋 |
nd | direction noun | 右侧 |
nh | person name | 白居易 |
ni | organization name | 医院 |
nl | location noun | 城郊 |
ns | geographical name | 佛山 |
nt | temporal noun | 昨日 |
nz | other proper noun | 对乙酰氨基酚 |
o | onomatopoeia | 乒乓 |
p | preposition | 在 |
q | quantity | 个 |
r | pronoun | 他 |
u | auxiliary | 的 |
v | verb | 打架 |
wp | punctuation | ; |
ws | foreign words | APP |
x | non-lexeme | 翱 |
z | descriptive words | 冷冰冰 |
en | cn |
---|---|
adjective | 形容词 |
adverb | 副词 |
auxiliary | adj. 辅助的;n. 助动词; |
abbreviation | 缩写 |
conjunction | 连词 |
determiner | 限定词 |
interjection | 感叹词 |
noun | 名词 |
numeral | n. 数字;adj. 数字的 |
onomatopoeia | 拟声词 |
preposition | 介词 |
pronoun | 代词 |
quantifier | 量词 |
verb | 动词 |
idiom | 成语 |
prefix | 前缀 |
suffix | 后缀 |
attributive words | 区别词 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。