赞
踩
model=gensim.models.Word2Vec( sentences=None, #分词语料 corpus_file=None, size=100, #size是神经网络层数,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。 alpha=0.025, #学习率 window=5, #句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机) min_count=5,#min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。 max_vocab_size=None, #max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个,则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。 sample=1e-3, #sample表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3, seed=1, #seed:用于随机数发生器。与初始化词向量有关。 workers=3, #workers是线程数,此参数只有在安装了Cpython后才有效,否则只能使用单核 min_alpha=0.0001,#随着训练的进行,学习率线性下降到min_alpha。 sg=0, #sg=1是skip—gram算法,对低频词敏感,默认sg=0为CBOW算法 hs=0, #hs=1表示层级softmax将会被使用,默认hs=0且negative不为0,则负采样将会被选择使用。 negative=5, #negative: 如果>0,则会采用negativesamping,用于设置多少个noise words ns_exponent=0.75, #负采样分布指数。1.0样本值与频率成正比,0.0样本所有单词均等,负值更多地采样低频词。 cbow_mean=1, #cbow_mean: 如果为0,则采用上下文词向量的和,如果为1(defaut)则采用均值。只有使用CBOW的时候才起作用。 hashfxn=hash, #哈希函数用于随机初始化权重,以提高训练的可重复性。 iter=5, #迭代次数 null_word=0, trim_rule=None, #trim_rule: 用于设置词汇表的整理规则,指定那些单词要留下,哪些要被删除。可以设置为None(min_count会被使用) sorted_vocab=1, #如果为1(defaut),则在分配word index 的时候会先对单词基于频率降序排序。 batch_words=MAX_WORDS_IN_BATCH, #batch_words:每一批的传递给线程的单词的数量,默认为10000 compute_loss=False, #如果为True,则计算并存储可使用get_latest_training_loss()检索的损失值。 callbacks=(),#在训练中特定阶段执行回调序列。 max_final_vocab=None#自动选择匹配的min_count将词汇限制为目标词汇大小。 )
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。