当前位置:   article > 正文

gensim.models.Word2Vec()参数详解_doc2vec sample参数

doc2vec sample参数
model=gensim.models.Word2Vec(
	sentences=None, #分词语料
	
	corpus_file=None, 
	
	size=100, #size是神经网络层数,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。
	
	alpha=0.025, #学习率
	
	window=5, #句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)
	
	min_count=5,#min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。
	
    max_vocab_size=None, #max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个,则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
    
    sample=1e-3, #sample表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3,
    
    seed=1, #seed:用于随机数发生器。与初始化词向量有关。
    
    workers=3, #workers是线程数,此参数只有在安装了Cpython后才有效,否则只能使用单核
    
    min_alpha=0.0001,#随着训练的进行,学习率线性下降到min_alpha。
    
    sg=0, #sg=1是skip—gram算法,对低频词敏感,默认sg=0为CBOW算法
    
    hs=0, #hs=1表示层级softmax将会被使用,默认hs=0且negative不为0,则负采样将会被选择使用。
    
    negative=5, #negative: 如果>0,则会采用negativesamping,用于设置多少个noise words
    
    ns_exponent=0.75, #负采样分布指数。1.0样本值与频率成正比,0.0样本所有单词均等,负值更多地采样低频词。
    
    cbow_mean=1, #cbow_mean: 如果为0,则采用上下文词向量的和,如果为1(defaut)则采用均值。只有使用CBOW的时候才起作用。
    
    hashfxn=hash, #哈希函数用于随机初始化权重,以提高训练的可重复性。
    
    iter=5, #迭代次数
    
    null_word=0,
    
    trim_rule=None, #trim_rule: 用于设置词汇表的整理规则,指定那些单词要留下,哪些要被删除。可以设置为None(min_count会被使用)
    
    sorted_vocab=1, #如果为1(defaut),则在分配word index 的时候会先对单词基于频率降序排序。
    
    batch_words=MAX_WORDS_IN_BATCH, #batch_words:每一批的传递给线程的单词的数量,默认为10000
    
    compute_loss=False, #如果为True,则计算并存储可使用get_latest_training_loss()检索的损失值。
    
    callbacks=(),#在训练中特定阶段执行回调序列。
    
    max_final_vocab=None#自动选择匹配的min_count将词汇限制为目标词汇大小。
    )
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/344170?site
推荐阅读
相关标签
  

闽ICP备14008679号