Hướng dẫn what is word2vec in python? - word2vec trong python là gì?

>>> model = Word2Vec.load("word2vec.model") >>> model.train([["hello", "world"]], total_examples=1, epochs=1) (0, 2) 1 - Word2VEC nhúng

Ví dụ sử dụng

Khởi tạo một mô hình với ví dụ:

>>> from gensim.test.utils import common_texts
>>> from gensim.models import Word2Vec
>>>
>>> model = Word2Vec(sentences=common_texts, vector_size=100, window=5, min_count=1, workers=4)
>>> model.save("word2vec.model")

Việc đào tạo được phát trực tuyến, do đó, `` câu`` có thể là một dữ liệu đầu vào có thể lặp lại từ đĩa hoặc mạng khi đang bay, mà không tải toàn bộ xác chết của bạn vào RAM., reading input data from the disk or network on-the-fly, without loading your entire corpus into RAM.

Lưu ý rằng

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
2 có thể khởi động lại (không chỉ là một trình tạo), để cho phép thuật toán phát trực tuyến qua bộ dữ liệu của bạn nhiều lần. Để biết một số ví dụ về các vòng lặp được phát trực tuyến, xem
>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
3,
>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
4 hoặc
>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
5.

Nếu bạn lưu mô hình, bạn có thể tiếp tục đào tạo nó sau:

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)

Các vectơ từ được đào tạo được lưu trữ trong một trường hợp

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
6, dưới dạng model.wv:

>>> vector = model.wv['computer']  # get numpy vector of a word
>>> sims = model.wv.most_similar('computer', topn=10)  # get other similar words

Lý do để tách các vectơ được đào tạo thành các khóa chính là nếu bạn không cần trạng thái mô hình đầy đủ nữa (don lồng cần tiếp tục đào tạo), trạng thái của nó có thể loại bỏ, chỉ giữ các vectơ và khóa của chúng phù hợp.

Điều này dẫn đến một đối tượng nhỏ hơn và nhanh hơn có thể được kết hợp để tải nhanh và chia sẻ các vectơ trong RAM giữa các quy trình:

>>> from gensim.models import KeyedVectors
>>>
>>> # Store just the words + their trained embeddings.
>>> word_vectors = model.wv
>>> word_vectors.save("word2vec.wordvectors")
>>>
>>> # Load back with memory-mapping = read-only, shared across processes.
>>> wv = KeyedVectors.load("word2vec.wordvectors", mmap='r')
>>>
>>> vector = wv['computer']  # Get numpy vector of a word

Gensim cũng có thể tải các vectơ Word trong định dạng Word Word2VEC C, như một ví dụ

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
6:

>>> from gensim.test.utils import datapath
>>>
>>> # Load a word2vec model stored in the C *text* format.
>>> wv_from_text = KeyedVectors.load_word2vec_format(datapath('word2vec_pre_kv_c'), binary=False)
>>> # Load a word2vec model stored in the C *binary* format.
>>> wv_from_bin = KeyedVectors.load_word2vec_format(datapath("euclidean_vectors.bin"), binary=True)

Không thể tiếp tục đào tạo các vectơ được tải từ định dạng C vì các trọng lượng ẩn, tần số từ vựng và cây nhị phân bị thiếu. Để tiếp tục đào tạo, bạn sẽ cần trạng thái đối tượng

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
8 đầy đủ, được lưu trữ bởi
>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
9, không chỉ
>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
6.

Bạn có thể thực hiện các nhiệm vụ NLP khác nhau với một mô hình được đào tạo. Một số hoạt động đã được tích hợp - xem

>>> vector = model.wv['computer']  # get numpy vector of a word
>>> sims = model.wv.most_similar('computer', topn=10)  # get other similar words
1.

Nếu bạn đã hoàn thành việc đào tạo một mô hình (tức là không còn cập nhật, chỉ truy vấn), bạn có thể chuyển sang thể hiện

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
6:

>>> word_vectors = model.wv
>>> del model

Để cắt trạng thái mô hình không cần thiết = sử dụng RAM ít hơn nhiều và cho phép tải nhanh và chia sẻ bộ nhớ (MMAP).

Nhúng với Ngrams đa từ

Có một mô -đun

>>> vector = model.wv['computer']  # get numpy vector of a word
>>> sims = model.wv.most_similar('computer', topn=10)  # get other similar words
3 cho phép bạn tự động phát hiện các cụm từ dài hơn một từ, sử dụng số liệu thống kê sắp xếp. Sử dụng các cụm từ, bạn có thể tìm hiểu một mô hình Word2VEC trong đó các từ ngữ thực sự là các biểu thức đa từ, chẳng hạn như new_york_times hoặc Financial_crisis:

>>> from gensim.models import Phrases
>>>
>>> # Train a bigram detector.
>>> bigram_transformer = Phrases(common_texts)
>>>
>>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
>>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)

Các mô hình trước đây

Gensim đi kèm với một số mô hình đã được đào tạo trước, trong kho lưu trữ dữ liệu GENSIM:

>>> import gensim.downloader
>>> # Show all available models in gensim-data
>>> print(list(gensim.downloader.info()['models'].keys()))
['fasttext-wiki-news-subwords-300',
 'conceptnet-numberbatch-17-06-300',
 'word2vec-ruscorpora-300',
 'word2vec-google-news-300',
 'glove-wiki-gigaword-50',
 'glove-wiki-gigaword-100',
 'glove-wiki-gigaword-200',
 'glove-wiki-gigaword-300',
 'glove-twitter-25',
 'glove-twitter-50',
 'glove-twitter-100',
 'glove-twitter-200',
 '__testing_word2vec-matrix-synopsis']
>>>
>>> # Download the "glove-twitter-25" embeddings
>>> glove_vectors = gensim.downloader.load('glove-twitter-25')
>>>
>>> # Use the downloaded vectors as usual:
>>> glove_vectors.most_similar('twitter')
[('facebook', 0.948005199432373),
 ('tweet', 0.9403423070907593),
 ('fb', 0.9342358708381653),
 ('instagram', 0.9104824066162109),
 ('chat', 0.8964964747428894),
 ('hashtag', 0.8885937333106995),
 ('tweets', 0.8878158330917358),
 ('tl', 0.8778461217880249),
 ('link', 0.8778210878372192),
 ('internet', 0.8753897547721863)]

Lớp ________ 24 ________ 25 (Dirname) ¶(dirname)

Cơ sở:

>>> vector = model.wv['computer']  # get numpy vector of a word
>>> sims = model.wv.most_similar('computer', topn=10)  # get other similar words
6

Lặp lại các câu từ Corpus Brown (một phần của dữ liệu NLTK).

Lớp ________ 24 ________ 28¶

Cơ sở:

>>> vector = model.wv['computer']  # get numpy vector of a word
>>> sims = model.wv.most_similar('computer', topn=10)  # get other similar words
9

Tạo phiên bản mới của Heapitem (đếm, chỉ mục, trái, phải)

________ 30¶

Bí danh cho trường số 0

________ 31¶

Bí danh cho trường số 1

________ 32¶

Bí danh cho trường số 2

________ 33¶

Bí danh cho trường số 3

Lớp ________ 24 ________ 35 (Nguồn, MAX_SENTENCE_LEPT = 10000, LEMT = Không) ¶(source, max_sentence_length=10000, limit=None)

Cơ sở:

>>> vector = model.wv['computer']  # get numpy vector of a word
>>> sims = model.wv.most_similar('computer', topn=10)  # get other similar words
6

Lặp lại các câu từ Corpus Brown (một phần của dữ liệu NLTK).

Lớp ________ 24 ________ 28¶
  • Cơ sở:

    >>> vector = model.wv['computer']  # get numpy vector of a word
    >>> sims = model.wv.most_similar('computer', topn=10)  # get other similar words
    
    9 (string or a file-like object) – Path to the file on disk, or an already-open file object (must support seek(0)).

  • Tạo phiên bản mới của Heapitem (đếm, chỉ mục, trái, phải) (int or None) – Clip the file to the first limit lines. Do no clipping if limit is None (the default).

________ 30¶

>>> from gensim.test.utils import datapath
>>> sentences = LineSentence(datapath('lee_background.cor'))
>>> for sentence in sentences:
...     pass

Bí danh cho trường số 0(source, max_sentence_length=10000, limit=None)

Cơ sở:

>>> vector = model.wv['computer']  # get numpy vector of a word
>>> sims = model.wv.most_similar('computer', topn=10)  # get other similar words
6

Lặp lại các câu từ Corpus Brown (một phần của dữ liệu NLTK).

Lớp ________ 24 ________ 28¶

Cơ sở:

>>> vector = model.wv['computer']  # get numpy vector of a word
>>> sims = model.wv.most_similar('computer', topn=10)  # get other similar words
9

Tạo phiên bản mới của Heapitem (đếm, chỉ mục, trái, phải)

________ 30¶not recurse into subdirectories.

Lớp ________ 24 ________ 28¶
  • Cơ sở:

    >>> vector = model.wv['computer']  # get numpy vector of a word
    >>> sims = model.wv.most_similar('computer', topn=10)  # get other similar words
    
    9 (str) – Path to the directory.

  • Tạo phiên bản mới của Heapitem (đếm, chỉ mục, trái, phải) (int or None) – Read only the first limit lines from each file. Read all if limit is None (the default).

________ 30¶(fname, max_sentence_length=10000)

Cơ sở:

>>> vector = model.wv['computer']  # get numpy vector of a word
>>> sims = model.wv.most_similar('computer', topn=10)  # get other similar words
6

Lặp lại các câu từ Corpus Brown (một phần của dữ liệu NLTK).

Lớp ________ 24 ________ 28¶(sentences=None, corpus_file=None, vector_size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=0.001, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean=1, hashfxn=, epochs=5, null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000, compute_loss=False, callbacks=(), comment=None, max_final_vocab=None, shrink_windows=True)

Cơ sở:

>>> vector = model.wv['computer']  # get numpy vector of a word
>>> sims = model.wv.most_similar('computer', topn=10)  # get other similar words
9

Tạo phiên bản mới của Heapitem (đếm, chỉ mục, trái, phải)

________ 30¶

Mô hình đầy đủ có thể được lưu trữ/tải thông qua các phương thức

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
9 và
>>> word_vectors = model.wv
>>> del model
1 của nó.

Các vectơ từ được đào tạo cũng có thể được lưu trữ/tải từ định dạng tương thích với triển khai Word2VEC gốc thông qua self.wv.save_word2vec_format và

>>> word_vectors = model.wv
>>> del model
2.

Thông số
  • Các câu (có thể lặp lại của các thứ tự, tùy chọn) - các câu có thể lặp lại có thể chỉ đơn giản là một danh sách các danh sách các mã thông báo, nhưng đối với các tập đoàn lớn hơn, hãy xem xét một điều có thể phát trực tiếp các câu trực tiếp từ đĩa/mạng. Xem

    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    3,
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    4 hoặc
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    5 trong mô -đun
    >>> word_vectors = model.wv
    >>> del model
    
    6 cho các ví dụ như vậy. Xem thêm Hướng dẫn về truyền phát dữ liệu trong Python. Nếu bạn không cung cấp câu, mô hình sẽ không được cung cấp - sử dụng nếu bạn có kế hoạch khởi tạo nó theo một cách nào khác.
    (iterable of iterables, optional) – The sentences iterable can be simply a list of lists of tokens, but for larger corpora, consider an iterable that streams the sentences directly from disk/network. See
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    3,
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    4 or
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    5 in
    >>> word_vectors = model.wv
    >>> del model
    
    6 module for such examples. See also the tutorial on data streaming in Python. If you don’t supply sentences, the model is left uninitialized – use if you plan to initialize it in some other way.

  • Corpus_File (STR, Tùy chọn) - Đường dẫn đến tệp Corpus ở định dạng

    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    5. Bạn có thể sử dụng đối số này thay vì các câu để tăng hiệu suất. Chỉ cần một trong các câu hoặc các đối số Corpus_File cần được thông qua (hoặc không ai trong số chúng, trong trường hợp đó, mô hình bị bỏ lại không chính thức). (str, optional) – Path to a corpus file in
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    5 format. You may use this argument instead of sentences to get performance boost. Only one of sentences or corpus_file arguments need to be passed (or none of them, in that case, the model is left uninitialized).

  • vector_size (int, tùy chọn) - chiều của các vectơ từ. (int, optional) – Dimensionality of the word vectors.

  • cửa sổ (int, tùy chọn) - Khoảng cách tối đa giữa dòng điện và từ dự đoán trong một câu. (int, optional) – Maximum distance between the current and predicted word within a sentence.

  • min_count (int, tùy chọn) - bỏ qua tất cả các từ có tổng tần số thấp hơn thế này. (int, optional) – Ignores all words with total frequency lower than this.

  • Công nhân (INT, Tùy chọn) - Sử dụng nhiều chủ đề công nhân này để đào tạo mô hình (= đào tạo nhanh hơn với các máy đa lõi). (int, optional) – Use these many worker threads to train the model (=faster training with multicore machines).

  • SG ({0, 1}, tùy chọn)-Thuật toán đào tạo: 1 cho Skip-gram; nếu không thì cbow. ({0, 1}, optional) – Training algorithm: 1 for skip-gram; otherwise CBOW.

  • HS ({0, 1}, tùy chọn) - Nếu 1, phần mềm phân cấp sẽ được sử dụng để đào tạo mô hình. Nếu 0 và âm là không khác, lấy mẫu âm sẽ được sử dụng. ({0, 1}, optional) – If 1, hierarchical softmax will be used for model training. If 0, and negative is non-zero, negative sampling will be used.

  • Tiêu cực (int, tùy chọn)-nếu> 0, lấy mẫu âm sẽ được sử dụng, INT cho âm chỉ định có bao nhiêu từ nhiễu của Hồi giáo nên được rút ra (thường là từ 5-20). Nếu được đặt thành 0, không sử dụng lấy mẫu âm. (int, optional) – If > 0, negative sampling will be used, the int for negative specifies how many “noise words” should be drawn (usually between 5-20). If set to 0, no negative sampling is used.

  • NS_Exponent (float, tùy chọn) - Số mũ được sử dụng để định hình phân phối lấy mẫu âm. Giá trị 1,0 mẫu chính xác tỷ lệ với tần số, 0,0 mẫu tất cả các từ đều như nhau, trong khi một giá trị âm mẫu các từ tần số thấp hơn các từ tần số cao. Giá trị mặc định phổ biến là 0,75 được chọn bởi giấy Word2VEC gốc. Gần đây, trong https://arxiv.org/abs/1804.04212, Caselles-Dupré, Lesaint, & Royo-Lefier cho rằng các giá trị khác có thể hoạt động tốt hơn cho các ứng dụng khuyến nghị. (float, optional) – The exponent used to shape the negative sampling distribution. A value of 1.0 samples exactly in proportion to the frequencies, 0.0 samples all words equally, while a negative value samples low-frequency words more than high-frequency words. The popular default value of 0.75 was chosen by the original Word2Vec paper. More recently, in https://arxiv.org/abs/1804.04212, Caselles-Dupré, Lesaint, & Royo-Letelier suggest that other values may perform better for recommendation applications.

  • cbow_mean ({0, 1}, tùy chọn) - nếu 0, sử dụng tổng của các vectơ từ ngữ cảnh. Nếu 1, sử dụng giá trị trung bình, chỉ áp dụng khi CBOW được sử dụng. ({0, 1}, optional) – If 0, use the sum of the context word vectors. If 1, use the mean, only applies when cbow is used.

  • Alpha (Float, Tùy chọn) - Tỷ lệ học tập ban đầu. (float, optional) – The initial learning rate.

  • MIN_ALPHA (FLOAT, Tùy chọn) - Tỷ lệ học tập sẽ giảm tuyến tính xuống min_alpha khi đào tạo tiến triển. (float, optional) – Learning rate will linearly drop to min_alpha as training progresses.

  • Hạt giống (int, tùy chọn) - Hạt giống cho bộ tạo số ngẫu nhiên. Các vectơ ban đầu cho mỗi từ được gieo bằng hàm băm của sự kết hợp của từ + str (hạt giống). Lưu ý rằng để chạy hoàn toàn xác định về mặt xác định, bạn cũng phải giới hạn mô hình ở một luồng công nhân duy nhất (công nhân = 1), để loại bỏ việc đặt hàng jitter khỏi lập lịch luồng hệ điều hành. . (int, optional) – Seed for the random number generator. Initial vectors for each word are seeded with a hash of the concatenation of word + str(seed). Note that for a fully deterministically-reproducible run, you must also limit the model to a single worker thread (workers=1), to eliminate ordering jitter from OS thread scheduling. (In Python 3, reproducibility between interpreter launches also requires use of the PYTHONHASHSEED environment variable to control hash randomization).

  • MAX_VOCAB_SIZE (int, tùy chọn) - giới hạn RAM trong quá trình xây dựng từ vựng; Nếu có nhiều từ độc đáo hơn thế này, thì hãy cắt tỉa những từ không thường xuyên. Cứ 10 triệu loại từ cần khoảng 1GB RAM. Đặt thành không có giới hạn. (int, optional) – Limits the RAM during vocabulary building; if there are more unique words than this, then prune the infrequent ones. Every 10 million word types need about 1GB of RAM. Set to None for no limit.

  • MAX_FINAL_VOCAB (INT, Tùy chọn) - Giới hạn từ vựng ở kích thước từ vựng mục tiêu bằng cách tự động chọn một min_count phù hợp. Nếu min_count được chỉ định nhiều hơn min_count được tính toán, min_count được chỉ định sẽ được sử dụng. Đặt thành không nếu không bắt buộc. (int, optional) – Limits the vocab to a target vocab size by automatically picking a matching min_count. If the specified min_count is more than the calculated min_count, the specified min_count will be used. Set to None if not required.

  • Mẫu (float, tùy chọn)-Ngưỡng để định cấu hình các từ tần số cao hơn được lấy mẫu ngẫu nhiên, phạm vi hữu ích là (0, 1E-5). (float, optional) – The threshold for configuring which higher-frequency words are randomly downsampled, useful range is (0, 1e-5).

  • HashFXN (chức năng, tùy chọn) - Hàm hàm để sử dụng để khởi tạo ngẫu nhiên các trọng số, để tăng khả năng tái tạo đào tạo. (function, optional) – Hash function to use to randomly initialize weights, for increased training reproducibility.

  • Epochs (int, tùy chọn) - số lần lặp (kỷ nguyên) trên kho văn bản. (Trước đây: iter) (int, optional) – Number of iterations (epochs) over the corpus. (Formerly: iter)

  • TRIM_RULE (chức năng, tùy chọn) - (function, optional) –

    Quy tắc cắt từ vựng, chỉ định xem một số từ nhất định có nên duy trì trong từ vựng hay không, được cắt bỏ hoặc xử lý bằng cách sử dụng mặc định (loại bỏ nếu số từ >>> word_vectors = model.wv >>> del model 8) hoặc có thể gọi được chấp nhận các tham số (từ, đếm, min_count) và trả về

    >>> word_vectors = model.wv
    >>> del model
    
    9,
    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    0 hoặc
    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    1. Quy tắc, nếu được đưa ra, chỉ được sử dụng để cắt tỉa từ vựng trong build_vocab () và không được lưu trữ như một phần của mô hình.

    Các tham số đầu vào thuộc các loại sau:
    • Word (str) - từ chúng tôi đang kiểm tra

    • Đếm (int) - Số lượng từ tần số của từ trong kho văn bản

    • MIN_COUNT (int) - Ngưỡng đếm tối thiểu.

  • Sắp xếp_vocab ({0, 1}, tùy chọn) - Nếu 1, hãy sắp xếp từ vựng theo tần số giảm dần trước khi gán các chỉ mục từ. Xem

    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    2. ({0, 1}, optional) – If 1, sort the vocabulary by descending frequency before assigning word indexes. See
    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    2.

  • Batch_words (int, tùy chọn) - Kích thước mục tiêu (bằng từ) cho các lô ví dụ được truyền cho các luồng công nhân (và do đó các thói quen Cython). ( Tối đa đó.) (int, optional) – Target size (in words) for batches of examples passed to worker threads (and thus cython routines).(Larger batches will be passed if individual texts are longer than 10000 words, but the standard cython code truncates to that maximum.)

  • compute_loss (bool, tùy chọn) - nếu đúng, tính toán và lưu trữ giá trị tổn thất có thể được truy xuất bằng

    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    3. (bool, optional) – If True, computes and stores loss value which can be retrieved using
    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    3.

  • Các cuộc gọi lại (có thể lặp lại của

    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    4, tùy chọn) - chuỗi các cuộc gọi lại được thực hiện ở các giai đoạn cụ thể trong quá trình đào tạo. (iterable of
    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    4, optional) – Sequence of callbacks to be executed at specific stages during training.

  • Shrink_Windows (Bool, Tùy chọn) - Mới trong 4.1. Thực nghiệm. Nếu đúng, kích thước cửa sổ hiệu quả được lấy mẫu thống nhất từ ​​[1, cửa sổ] cho mỗi từ mục tiêu trong quá trình đào tạo, để phù hợp với thuật toán Word2VEC gốc Trọng lượng gần đúng của các từ ngữ cảnh theo khoảng cách. Nếu không, kích thước cửa sổ hiệu quả luôn được cố định với các từ cửa sổ ở hai bên. (bool, optional) – New in 4.1. Experimental. If True, the effective window size is uniformly sampled from [1, window] for each target word during training, to match the original word2vec algorithm’s approximate weighting of context words by distance. Otherwise, the effective window size is always fixed to window words to either side.

Ví dụ

Khởi tạo và đào tạo mô hình

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
8

>>> from gensim.models import Word2Vec
>>> sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]]
>>> model = Word2Vec(sentences, min_count=1)

________ 66¶

Đối tượng này về cơ bản chứa ánh xạ giữa các từ và nhúng. Sau khi đào tạo, nó có thể được sử dụng trực tiếp để truy vấn các nhúng theo nhiều cách khác nhau. Xem tài liệu cấp độ mô -đun cho các ví dụ.

Loại hình

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
6

________ 68 (event_name, log_level = 20, ** sự kiện) ¶(event_name, log_level=20, **event)

Nối một sự kiện vào thuộc tính LifeCycle_Events của đối tượng này và cũng tùy chọn đăng nhập sự kiện tại log_level.

Các sự kiện là những khoảnh khắc quan trọng trong suốt cuộc đời của đối tượng, chẳng hạn như mô hình của người Hồi giáo được tạo ra, mô hình đã lưu, mô hình, mô hình tải, v.v.

Thuộc tính LifeCycle_Events được tồn tại trên các hoạt động đối tượng

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
9 và
>>> word_vectors = model.wv
>>> del model
1. Nó không có tác động đến việc sử dụng mô hình, nhưng rất hữu ích trong quá trình gỡ lỗi và hỗ trợ.

Đặt self.lifecycle_events = không có để vô hiệu hóa hành vi này. Các cuộc gọi đến add_lifecycle_event () sẽ không ghi lại các sự kiện vào self.lifecycle_events sau đó.

Thông số
  • event_name (str) - tên của sự kiện. Có thể là bất kỳ nhãn nào, ví dụ: Được tạo ra trên mạng, người được lưu trữ, v.v. (str) – Name of the event. Can be any label, e.g. “created”, “stored” etc.

  • sự kiện (dict) - (dict) –

    Ánh xạ giá trị khóa để nối vào self.lifecycle_events. Nên là json-serializable, vì vậy hãy giữ cho nó đơn giản. Có thể trống.

    Phương pháp này sẽ tự động thêm các giá trị khóa sau vào sự kiện, vì vậy bạn không phải chỉ định chúng:

    • DateTime: Ngày & giờ hiện tại

    • Gensim: Phiên bản Gensim hiện tại

    • Python: Phiên bản Python hiện tại

    • Nền tảng: Nền tảng hiện tại

    • Sự kiện: Tên của sự kiện này

  • log_level (int) - cũng ghi lại sự kiện hoàn chỉnh, ở cấp độ nhật ký được chỉ định. Đặt thành FALSE để không đăng nhập ở tất cả. (int) – Also log the complete event dict, at the specified log level. Set to False to not log at all.

A()
>>> import gensim.downloader
>>> # Show all available models in gensim-data
>>> print(list(gensim.downloader.info()['models'].keys()))
['fasttext-wiki-news-subwords-300',
 'conceptnet-numberbatch-17-06-300',
 'word2vec-ruscorpora-300',
 'word2vec-google-news-300',
 'glove-wiki-gigaword-50',
 'glove-wiki-gigaword-100',
 'glove-wiki-gigaword-200',
 'glove-wiki-gigaword-300',
 'glove-twitter-25',
 'glove-twitter-50',
 'glove-twitter-100',
 'glove-twitter-200',
 '__testing_word2vec-matrix-synopsis']
>>>
>>> # Download the "glove-twitter-25" embeddings
>>> glove_vectors = gensim.downloader.load('glove-twitter-25')
>>>
>>> # Use the downloaded vectors as usual:
>>> glove_vectors.most_similar('twitter')
[('facebook', 0.948005199432373),
 ('tweet', 0.9403423070907593),
 ('fb', 0.9342358708381653),
 ('instagram', 0.9104824066162109),
 ('chat', 0.8964964747428894),
 ('hashtag', 0.8885937333106995),
 ('tweets', 0.8878158330917358),
 ('tl', 0.8778461217880249),
 ('link', 0.8778210878372192),
 ('internet', 0.8753897547721863)]
2(corpus_iterable=None, corpus_file=None, update=False, progress_per=10000, keep_raw_vocab=False, trim_rule=None, **kwargs)

Xây dựng từ vựng từ một chuỗi các câu (có thể là một luồng trình tạo chỉ một lần).

Thông số
  • Corpus_iterable (có thể lặp lại danh sách STR) - có thể chỉ đơn giản là một danh sách các danh sách các mã thông báo, nhưng đối với các tập đoàn lớn hơn, hãy xem xét một điều có thể phát trực tiếp các câu trực tiếp từ đĩa/mạng. Xem mô -đun

    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    3,
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    4 hoặc
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    5 cho các ví dụ như vậy.
    (iterable of list of str) – Can be simply a list of lists of tokens, but for larger corpora, consider an iterable that streams the sentences directly from disk/network. See
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    3,
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    4 or
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    5 module for such examples.

  • Corpus_File (STR, Tùy chọn) - Đường dẫn đến tệp Corpus ở định dạng

    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    5. Bạn có thể sử dụng đối số này thay vì các câu để tăng hiệu suất. Chỉ cần một trong các câu hoặc các đối số Corpus_File cần được thông qua (không phải cả hai). (str, optional) – Path to a corpus file in
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    5 format. You may use this argument instead of sentences to get performance boost. Only one of sentences or corpus_file arguments need to be passed (not both of them).

  • Cập nhật (bool) - Nếu đúng, các từ mới trong câu sẽ được thêm vào từ vựng mô hình. (bool) – If true, the new words in sentences will be added to model’s vocab.

  • Progress_Per (int, tùy chọn) - cho biết có bao nhiêu từ để xử lý trước khi hiển thị/cập nhật tiến trình. (int, optional) – Indicates how many words to process before showing/updating the progress.

  • keep_raw_vocab (bool, tùy chọn) - nếu sai, từ vựng thô sẽ bị xóa sau khi tỷ lệ được thực hiện để giải phóng RAM. (bool, optional) – If False, the raw vocabulary will be deleted after the scaling is done to free up RAM.

  • TRIM_RULE (chức năng, tùy chọn) - (function, optional) –

    Quy tắc cắt từ vựng, chỉ định xem một số từ nhất định có nên duy trì trong từ vựng hay không, được cắt bỏ hoặc xử lý bằng cách sử dụng mặc định (loại bỏ nếu số từ >>> word_vectors = model.wv >>> del model 8) hoặc có thể gọi được chấp nhận các tham số (từ, đếm, min_count) và trả về

    >>> word_vectors = model.wv
    >>> del model
    
    9,
    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    0 hoặc
    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    1. Quy tắc, nếu được đưa ra, chỉ được sử dụng để cắt tỉa từ vựng trong cuộc gọi phương thức hiện tại và không được lưu trữ như một phần của mô hình.

    Các tham số đầu vào thuộc các loại sau:
    • Word (str) - từ chúng tôi đang kiểm tra

    • Đếm (int) - Số lượng từ tần số của từ trong kho văn bản

    • MIN_COUNT (int) - Ngưỡng đếm tối thiểu.

  • ** kwargs (đối tượng) - đối số từ khóa được truyền đến self.prepare_vocab. (object) – Keyword arguments propagated to self.prepare_vocab.

A(word_freq, keep_raw_vocab=False, corpus_count=None, trim_rule=None, update=False)

Xây dựng từ vựng từ một từ điển của tần số từ.

Thông số
  • event_name (str) - tên của sự kiện. Có thể là bất kỳ nhãn nào, ví dụ: Được tạo ra trên mạng, người được lưu trữ, v.v. (dict of (str, int)) – A mapping from a word in the vocabulary to its frequency count.

  • keep_raw_vocab (bool, tùy chọn) - nếu sai, hãy xóa từ vựng thô sau khi tỷ lệ được thực hiện để giải phóng RAM. (bool, optional) – If False, delete the raw vocabulary after the scaling is done to free up RAM.

  • Corpus_Count (int, tùy chọn) - ngay cả khi không có xác chết nào, đối số này có thể đặt Corpus_count một cách rõ ràng. (int, optional) – Even if no corpus is provided, this argument can set corpus_count explicitly.

  • TRIM_RULE (chức năng, tùy chọn) - (function, optional) –

    Quy tắc cắt từ vựng, chỉ định xem một số từ nhất định có nên duy trì trong từ vựng hay không, được cắt bỏ hoặc xử lý bằng cách sử dụng mặc định (loại bỏ nếu số từ >>> word_vectors = model.wv >>> del model 8) hoặc có thể gọi được chấp nhận các tham số (từ, đếm, min_count) và trả về

    >>> word_vectors = model.wv
    >>> del model
    
    9,
    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    0 hoặc
    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    1. Quy tắc, nếu được đưa ra, chỉ được sử dụng để cắt tỉa từ vựng trong cuộc gọi phương thức hiện tại và không được lưu trữ như một phần của mô hình.

    Các tham số đầu vào thuộc các loại sau:
    • Word (str) - từ chúng tôi đang kiểm tra

    • Đếm (int) - Số lượng từ tần số của từ trong kho văn bản

    • MIN_COUNT (int) - Ngưỡng đếm tối thiểu.

  • Cập nhật (Bool, Tùy chọn) - Nếu đúng, các từ mới được cung cấp trong Word_FREQ Dict sẽ được thêm vào từ vựng mô hình. (bool, optional) – If true, the new provided words in word_freq dict will be added to model’s vocab.

________ 86 ()()

Tạo một cây Huffman nhị phân bằng cách sử dụng số lượng từ vựng được lưu trữ. Các từ thường xuyên sẽ có mã nhị phân ngắn hơn. Được gọi là nội bộ từ

>>> from gensim.test.utils import datapath
>>> sentences = LineSentence(datapath('lee_background.cor'))
>>> for sentence in sentences:
...     pass
7.

________ 88 (Vocab_Size = none, báo cáo = Không) ¶(vocab_size=None, report=None)

Ước tính bộ nhớ cần thiết cho một mô hình sử dụng các cài đặt hiện tại và cung cấp kích thước từ vựng.

Thông số
  • Vocab_Size (int, tùy chọn) - Số lượng mã thông báo duy nhất trong từ vựng (int, optional) – Number of unique tokens in the vocabulary

  • Báo cáo (Dict of (Str, Int), Tùy chọn) - Một từ điển từ các biểu diễn chuỗi của bộ nhớ mô hình tiêu thụ các thành viên đến kích thước của chúng trong byte. (dict of (str, int), optional) – A dictionary from string representations of the model’s memory consuming members to their size in bytes.

Trả lại

Một từ điển từ các biểu diễn chuỗi của bộ nhớ mô hình tiêu thụ các thành viên đến kích thước của chúng trong byte.

Loại trở lại

Dict of (str, int)

________ 89 ()()

Nhận giá trị hiện tại của tổn thất đào tạo.

Trả lại

Một từ điển từ các biểu diễn chuỗi của bộ nhớ mô hình tiêu thụ các thành viên đến kích thước của chúng trong byte.

Loại trở lại

float

Dict of (str, int)(replace=False)

________ 89 ()

Nhận giá trị hiện tại của tổn thất đào tạo.

Mất đào tạo hiện tại.

Thông số

Vocab_Size (int, tùy chọn) - Số lượng mã thông báo duy nhất trong từ vựng (bool) – If True, forget the original trained vectors and only keep the normalized ones. You lose information if you do this.

Báo cáo (Dict of (Str, Int), Tùy chọn) - Một từ điển từ các biểu diễn chuỗi của bộ nhớ mô hình tiêu thụ các thành viên đến kích thước của chúng trong byte.()

Trả lại

Một từ điển từ các biểu diễn chuỗi của bộ nhớ mô hình tiêu thụ các thành viên đến kích thước của chúng trong byte.(*args, rethrow=False, **kwargs)

Loại trở lại

Thông số

Vocab_Size (int, tùy chọn) - Số lượng mã thông báo duy nhất trong từ vựng (str) – Path to the saved file.

Trả lại

Một từ điển từ các biểu diễn chuỗi của bộ nhớ mô hình tiêu thụ các thành viên đến kích thước của chúng trong byte.

Loại trở lại

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
8

Dict of (str, int)(domain=2147483647)

________ 89 ()

Nhận giá trị hiện tại của tổn thất đào tạo.

Mất đào tạo hiện tại.(context_words_list, topn=10)

________ 90 (thay thế = false) ¶

Các vectơ chuẩn hóa L2. Lỗi thời.

Nếu bạn cần một vectơ chuẩn hóa đơn vị đơn vị cho một số khóa, hãy gọi
>>> from gensim.models import Word2Vec
>>> sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]]
>>> model = Word2Vec(sentences, min_count=1)
1 thay vào đó:
>>> from gensim.models import Word2Vec
>>> sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]]
>>> model = Word2Vec(sentences, min_count=1)
2.
  • Để làm mới các chỉ tiêu sau khi bạn thực hiện một số giả mạo vectơ ngoài băng tần không điển hình, hãy gọi: meth: `~ gensim.models.keyedvector.keyedvector.fill_norms () thay thế. (list of (str and/or int)) – List of context words, which may be words themselves (str) or their index in self.wv.vectors (int).

  • Thay thế (bool) - Nếu đúng, hãy quên các vectơ được đào tạo ban đầu và chỉ giữ các vectơ chuẩn hóa. Bạn mất thông tin nếu bạn làm điều này. (int, optional) – Return topn words and their probabilities.

Trả lại

Một từ điển từ các biểu diễn chuỗi của bộ nhớ mô hình tiêu thụ các thành viên đến kích thước của chúng trong byte.

Loại trở lại

Dict of (str, int)

________ 89 ()(update=False, keep_raw_vocab=False, trim_rule=None, min_count=None, sample=None, dry_run=False)

Nhận giá trị hiện tại của tổn thất đào tạo.

Mất đào tạo hiện tại.

________ 90 (thay thế = false) ¶

Các vectơ chuẩn hóa L2. Lỗi thời.(update=False)

Nếu bạn cần một vectơ chuẩn hóa đơn vị đơn vị cho một số khóa, hãy gọi

>>> from gensim.models import Word2Vec
>>> sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]]
>>> model = Word2Vec(sentences, min_count=1)
1 thay vào đó:
>>> from gensim.models import Word2Vec
>>> sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]]
>>> model = Word2Vec(sentences, min_count=1)
2.

Để làm mới các chỉ tiêu sau khi bạn thực hiện một số giả mạo vectơ ngoài băng tần không điển hình, hãy gọi: meth: `~ gensim.models.keyedvector.keyedvector.fill_norms () thay thế.(other_model)

Thay thế (bool) - Nếu đúng, hãy quên các vectơ được đào tạo ban đầu và chỉ giữ các vectơ chuẩn hóa. Bạn mất thông tin nếu bạn làm điều này.

________ 93 ()
  • Đặt lại tất cả các trọng số chiếu cho trạng thái ban đầu (chưa được đào tạo), nhưng giữ từ vựng hiện có.

  • ClassMethod ________ 94 (*args, rethrow = false, ** kwargs) ¶

  • Tải một mô hình

    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    8 đã lưu trước đó.

  • Độ dài của Cached Corpus

Hữu ích khi kiểm tra nhiều mô hình trên cùng một kho văn bản song song. Tuy nhiên, vì các mô hình sau đó chia sẻ tất cả các cấu trúc liên quan đến từ vựng khác ngoài các vectơ, sau đó cũng không nên mở rộng từ vựng của chúng (có thể để lại ở trạng thái khác, bị hỏng). Và, bất kỳ thay đổi nào đối với bất kỳ word nào ‘vecattr, sẽ ảnh hưởng đến cả hai mô hình.

Thông số

other_model (

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
8) - Một mô hình khác để sao chép các cấu trúc bên trong. (
>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
8) – Another model to copy the internal structures from.

________ 103 (*args, ** kwargs) ¶(*args, **kwargs)

Lưu mô hình. Mô hình đã lưu này có thể được tải lại bằng cách sử dụng

>>> word_vectors = model.wv
>>> del model
1, hỗ trợ đào tạo trực tuyến và nhận các vectơ cho các từ vựng.

Thông số

other_model (

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
8) - Một mô hình khác để sao chép các cấu trúc bên trong. (str) – Path to the file.

________ 103 (*args, ** kwargs) ¶(corpus_iterable=None, corpus_file=None, progress_per=10000, workers=None, trim_rule=None)
>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
06(sentences, total_sentences=1000000, chunksize=100, queue_factor=2, report_delay=1)

Lưu mô hình. Mô hình đã lưu này có thể được tải lại bằng cách sử dụng

>>> word_vectors = model.wv
>>> del model
1, hỗ trợ đào tạo trực tuyến và nhận các vectơ cho các từ vựng.

fname (str) - đường dẫn đến tệp.

________ 105 (corpus_iterable = none, corpus_file = none

Điểm xác suất nhật ký cho một chuỗi các câu. Điều này không thay đổi mô hình được trang bị theo bất kỳ cách nào (xem

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
07 cho điều đó).

Thông số
  • other_model (

    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    8) - Một mô hình khác để sao chép các cấu trúc bên trong. (iterable of list of str) – The sentences iterable can be simply a list of lists of tokens, but for larger corpora, consider an iterable that streams the sentences directly from disk/network. See
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    3,
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    4 or
    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    5 in
    >>> word_vectors = model.wv
    >>> del model
    
    6 module for such examples.

  • ________ 103 (*args, ** kwargs) ¶ (int, optional) – Count of sentences.

  • Lưu mô hình. Mô hình đã lưu này có thể được tải lại bằng cách sử dụng

    >>> word_vectors = model.wv
    >>> del model
    
    1, hỗ trợ đào tạo trực tuyến và nhận các vectơ cho các từ vựng. (int, optional) – Chunksize of jobs

  • fname (str) - đường dẫn đến tệp. (int, optional) – Multiplier for size of queue (number of workers * queue_factor).

  • ________ 105 (corpus_iterable = none, corpus_file = none (float, optional) – Seconds to wait before reporting progress.

Điểm xác suất nhật ký cho một chuỗi các câu. Điều này không thay đổi mô hình được trang bị theo bất kỳ cách nào (xem
>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
07 cho điều đó).(seed_string, vector_size)
>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
13(corpus_iterable=None, corpus_file=None, total_examples=None, total_words=None, epochs=None, start_alpha=None, end_alpha=None, word_count=0, queue_factor=2, report_delay=1.0, compute_loss=False, callbacks=(), **kwargs)

GENSIM hiện chỉ thực hiện điểm số cho sơ đồ SoftMax phân cấp, vì vậy bạn cần phải chạy Word2VEC với HS = 1 và âm = 0 để hoạt động này.

Lưu ý rằng bạn nên chỉ định Total_Sentences; Bạn sẽ gặp vấn đề nếu bạn yêu cầu ghi được nhiều hơn số câu này nhưng không hiệu quả khi đặt giá trị quá cao.

Xem bài viết của Matt Taddy: Phân loại tài liệu bằng cách đảo ngược các biểu diễn ngôn ngữ phân tán và bản demo của GENSIM để biết cách sử dụng các điểm số đó trong phân loại tài liệu.MUST be provided. If sentences is the same corpus that was provided to

>>> from gensim.test.utils import datapath
>>> sentences = LineSentence(datapath('lee_background.cor'))
>>> for sentence in sentences:
...     pass
7 earlier, you can simply use total_examples=self.corpus_count.

Các câu (có thể lặp lại danh sách STR) - các câu có thể lặp lại có thể chỉ đơn giản là một danh sách các danh sách các mã thông báo, nhưng đối với Corpora lớn hơn, hãy xem xét một điều có thể phát trực tiếp các câu trực tiếp từ đĩa/mạng. Xem

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
3,
>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
4 hoặc
>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
5 trong mô -đun
>>> word_vectors = model.wv
>>> del model
6 cho các ví dụ như vậy.

Total_Sentences (int, tùy chọn) - Số lượng câu.MUST be provided. In the common and recommended case where

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
07 is only called once, you can set epochs=self.epochs.

Thông số
  • Chunksize (int, tùy chọn) - Chunksize của công việc (iterable of list of str) –

    Queue_factor (int, tùy chọn) - Số nhân cho kích thước hàng đợi (số lượng công nhân * Queue_factor).

  • Báo cáo_delay (Float, Tùy chọn) - giây để chờ trước khi báo cáo tiến độ. (str, optional) – Path to a corpus file in

    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    5 format. You may use this argument instead of sentences to get performance boost. Only one of sentences or corpus_file arguments need to be passed (not both of them).

  • ________ 112 (Seed_String, vector_size) ¶ ________ 113 (corpus_iterable = none, corpus_file = none = FALSE, Callbacks = (), ** kwargs) ¶ (int) – Count of sentences.

  • Cập nhật các trọng số thần kinh của mô hình từ một chuỗi các câu. (int) – Count of raw words in sentences.

  • Ghi chú (int) – Number of iterations (epochs) over the corpus.

  • Để hỗ trợ phân rã tỷ lệ học tập tuyến tính từ (ban đầu) alpha đến min_alpha và ghi nhật ký phần trăm tiến độ chính xác, Total_examples (số lượng câu) hoặc Total_words (đếm các từ thô trong câu) phải được cung cấp. Nếu các câu là cùng một kho văn bản được cung cấp cho

    >>> from gensim.test.utils import datapath
    >>> sentences = LineSentence(datapath('lee_background.cor'))
    >>> for sentence in sentences:
    ...     pass
    
    7 trước đó, bạn chỉ cần sử dụng Total_examples = self.corpus_count. (float, optional) – Initial learning rate. If supplied, replaces the starting alpha from the constructor, for this one call to`train()`. Use only if making multiple calls to train(), when you want to manage the alpha learning-rate yourself (not recommended).

  • Cảnh báo (float, optional) – Final learning rate. Drops linearly from start_alpha. If supplied, this replaces the final min_alpha from the constructor, for this one call to train(). Use only if making multiple calls to train(), when you want to manage the alpha learning-rate yourself (not recommended).

  • Để tránh những sai lầm phổ biến xung quanh khả năng của mô hình để thực hiện nhiều lần đào tạo, một đối số kỷ nguyên rõ ràng phải được cung cấp. Trong trường hợp chung và được đề xuất trong đó

    >>> model = Word2Vec.load("word2vec.model")
    >>> model.train([["hello", "world"]], total_examples=1, epochs=1)
    (0, 2)
    
    07 chỉ được gọi một lần, bạn có thể đặt epochs = self.epochs. (int, optional) – Count of words already trained. Set this to 0 for the usual case of training on all words in sentences.

  • fname (str) - đường dẫn đến tệp. (int, optional) – Multiplier for size of queue (number of workers * queue_factor).

  • Báo cáo_delay (Float, Tùy chọn) - giây để chờ trước khi báo cáo tiến độ. (float, optional) – Seconds to wait before reporting progress.

  • compute_loss (bool, tùy chọn) - nếu đúng, tính toán và lưu trữ giá trị tổn thất có thể được truy xuất bằng

    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    3. (bool, optional) – If True, computes and stores loss value which can be retrieved using
    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    3.

  • Các cuộc gọi lại (có thể lặp lại của

    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    4, tùy chọn) - chuỗi các cuộc gọi lại được thực hiện ở các giai đoạn cụ thể trong quá trình đào tạo. (iterable of
    >>> from gensim.models import Phrases
    >>>
    >>> # Train a bigram detector.
    >>> bigram_transformer = Phrases(common_texts)
    >>>
    >>> # Apply the trained MWE detector to a corpus, using the result to train a Word2vec model.
    >>> model = Word2Vec(bigram_transformer[common_texts], min_count=1)
    
    4, optional) – Sequence of callbacks to be executed at specific stages during training.

Ví dụ

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
0

________ 124 ()()

Sao chép tất cả các trọng số hiện có và đặt lại các trọng số cho từ vựng mới được thêm vào.

Lớp ________ 24 ________ 126¶

Cơ sở:

>>> from gensim.test.utils import datapath
>>>
>>> # Load a word2vec model stored in the C *text* format.
>>> wv_from_text = KeyedVectors.load_word2vec_format(datapath('word2vec_pre_kv_c'), binary=False)
>>> # Load a word2vec model stored in the C *binary* format.
>>> wv_from_bin = KeyedVectors.load_word2vec_format(datapath("euclidean_vectors.bin"), binary=True)
7

Lớp đã lỗi thời được giữ lại bây giờ là nắm bắt trạng thái tương thích tải.

________ 68 (event_name, log_level = 20, ** sự kiện) ¶(event_name, log_level=20, **event)

Nối một sự kiện vào thuộc tính LifeCycle_Events của đối tượng này và cũng tùy chọn đăng nhập sự kiện tại log_level.

Các sự kiện là những khoảnh khắc quan trọng trong suốt cuộc đời của đối tượng, chẳng hạn như mô hình của người Hồi giáo được tạo ra, mô hình đã lưu, mô hình, mô hình tải, v.v.

Thuộc tính LifeCycle_Events được tồn tại trên các hoạt động đối tượng

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
9 và
>>> word_vectors = model.wv
>>> del model
1. Nó không có tác động đến việc sử dụng mô hình, nhưng rất hữu ích trong quá trình gỡ lỗi và hỗ trợ.

Đặt self.lifecycle_events = không có để vô hiệu hóa hành vi này. Các cuộc gọi đến add_lifecycle_event () sẽ không ghi lại các sự kiện vào self.lifecycle_events sau đó.

Thông số
  • event_name (str) - tên của sự kiện. Có thể là bất kỳ nhãn nào, ví dụ: Được tạo ra trên mạng, người được lưu trữ, v.v. (str) – Name of the event. Can be any label, e.g. “created”, “stored” etc.

  • sự kiện (dict) - (dict) –

    Ánh xạ giá trị khóa để nối vào self.lifecycle_events. Nên là json-serializable, vì vậy hãy giữ cho nó đơn giản. Có thể trống.

    Phương pháp này sẽ tự động thêm các giá trị khóa sau vào sự kiện, vì vậy bạn không phải chỉ định chúng:

    • DateTime: Ngày & giờ hiện tại

    • Gensim: Phiên bản Gensim hiện tại

    • Python: Phiên bản Python hiện tại

    • Nền tảng: Nền tảng hiện tại

    • Sự kiện: Tên của sự kiện này

  • log_level (int) - cũng ghi lại sự kiện hoàn chỉnh, ở cấp độ nhật ký được chỉ định. Đặt thành FALSE để không đăng nhập ở tất cả. (int) – Also log the complete event dict, at the specified log level. Set to False to not log at all.

ClassMethod ________ 94 (fname, mmap = none) ¶(fname, mmap=None)

Tải một đối tượng được lưu trước đó bằng

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
9 từ một tệp.

Thông số
  • event_name (str) - tên của sự kiện. Có thể là bất kỳ nhãn nào, ví dụ: Được tạo ra trên mạng, người được lưu trữ, v.v. (str) – Path to file that contains needed object.

  • sự kiện (dict) - (str, optional) – Memory-map option. If the object was saved with large arrays stored separately, you can load these arrays via mmap (shared memory) using mmap=’r’. If the file being loaded is compressed (either ‘.gz’ or ‘.bz2’), then `mmap=None must be set.

Ánh xạ giá trị khóa để nối vào self.lifecycle_events. Nên là json-serializable, vì vậy hãy giữ cho nó đơn giản. Có thể trống.

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
9

Phương pháp này sẽ tự động thêm các giá trị khóa sau vào sự kiện, vì vậy bạn không phải chỉ định chúng:

DateTime: Ngày & giờ hiện tại

Gensim: Phiên bản Gensim hiện tại

Python: Phiên bản Python hiện tại

Nền tảng: Nền tảng hiện tại

Sự kiện: Tên của sự kiện này

log_level (int) - cũng ghi lại sự kiện hoàn chỉnh, ở cấp độ nhật ký được chỉ định. Đặt thành FALSE để không đăng nhập ở tất cả. – When called on an object instance instead of class (this is a class method).

ClassMethod ________ 94 (fname, mmap = none) ¶(fname_or_handle, separately=None, sep_limit=10485760, ignore=frozenset({}), pickle_protocol=4)

Tải một đối tượng được lưu trước đó bằng

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
9 từ một tệp.

Thông số
  • event_name (str) - tên của sự kiện. Có thể là bất kỳ nhãn nào, ví dụ: Được tạo ra trên mạng, người được lưu trữ, v.v. (str or file-like) – Path to output file or already opened file-like object. If the object is a file handle, no special array handling will be performed, all attributes will be saved to the same file.

  • sự kiện (dict) - (list of str or None, optional) –

    Ánh xạ giá trị khóa để nối vào self.lifecycle_events. Nên là json-serializable, vì vậy hãy giữ cho nó đơn giản. Có thể trống.

    Phương pháp này sẽ tự động thêm các giá trị khóa sau vào sự kiện, vì vậy bạn không phải chỉ định chúng:

  • DateTime: Ngày & giờ hiện tại (int, optional) – Don’t store arrays smaller than this separately. In bytes.

  • Gensim: Phiên bản Gensim hiện tại (frozenset of str, optional) – Attributes that shouldn’t be stored at all.

  • Python: Phiên bản Python hiện tại (int, optional) – Protocol number for pickle.

Ánh xạ giá trị khóa để nối vào self.lifecycle_events. Nên là json-serializable, vì vậy hãy giữ cho nó đơn giản. Có thể trống.

>>> word_vectors = model.wv
>>> del model
1

Phương pháp này sẽ tự động thêm các giá trị khóa sau vào sự kiện, vì vậy bạn không phải chỉ định chúng:

DateTime: Ngày & giờ hiện tại

Cơ sở:

>>> from gensim.test.utils import datapath
>>>
>>> # Load a word2vec model stored in the C *text* format.
>>> wv_from_text = KeyedVectors.load_word2vec_format(datapath('word2vec_pre_kv_c'), binary=False)
>>> # Load a word2vec model stored in the C *binary* format.
>>> wv_from_bin = KeyedVectors.load_word2vec_format(datapath("euclidean_vectors.bin"), binary=True)
7

Lớp đã lỗi thời được giữ lại bây giờ là nắm bắt trạng thái tương thích tải.

________ 68 (event_name, log_level = 20, ** sự kiện) ¶(event_name, log_level=20, **event)

Nối một sự kiện vào thuộc tính LifeCycle_Events của đối tượng này và cũng tùy chọn đăng nhập sự kiện tại log_level.

Các sự kiện là những khoảnh khắc quan trọng trong suốt cuộc đời của đối tượng, chẳng hạn như mô hình của người Hồi giáo được tạo ra, mô hình đã lưu, mô hình, mô hình tải, v.v.

Thuộc tính LifeCycle_Events được tồn tại trên các hoạt động đối tượng

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
9 và
>>> word_vectors = model.wv
>>> del model
1. Nó không có tác động đến việc sử dụng mô hình, nhưng rất hữu ích trong quá trình gỡ lỗi và hỗ trợ.

Đặt self.lifecycle_events = không có để vô hiệu hóa hành vi này. Các cuộc gọi đến add_lifecycle_event () sẽ không ghi lại các sự kiện vào self.lifecycle_events sau đó.

Thông số
  • event_name (str) - tên của sự kiện. Có thể là bất kỳ nhãn nào, ví dụ: Được tạo ra trên mạng, người được lưu trữ, v.v. (str) – Name of the event. Can be any label, e.g. “created”, “stored” etc.

  • sự kiện (dict) - (dict) –

    Ánh xạ giá trị khóa để nối vào self.lifecycle_events. Nên là json-serializable, vì vậy hãy giữ cho nó đơn giản. Có thể trống.

    Phương pháp này sẽ tự động thêm các giá trị khóa sau vào sự kiện, vì vậy bạn không phải chỉ định chúng:

    • DateTime: Ngày & giờ hiện tại

    • Gensim: Phiên bản Gensim hiện tại

    • Python: Phiên bản Python hiện tại

    • Nền tảng: Nền tảng hiện tại

    • Sự kiện: Tên của sự kiện này

  • log_level (int) - cũng ghi lại sự kiện hoàn chỉnh, ở cấp độ nhật ký được chỉ định. Đặt thành FALSE để không đăng nhập ở tất cả. (int) – Also log the complete event dict, at the specified log level. Set to False to not log at all.

ClassMethod ________ 94 (fname, mmap = none) ¶(fname, mmap=None)

Tải một đối tượng được lưu trước đó bằng

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
9 từ một tệp.

Thông số
  • fname (str) - đường dẫn đến tệp có chứa đối tượng cần thiết. (str) – Path to file that contains needed object.

  • MMAP (STR, Tùy chọn)-Tùy chọn bản đồ bộ nhớ. Nếu đối tượng được lưu với các mảng lớn được lưu trữ riêng, bạn có thể tải các mảng này qua MMAP (bộ nhớ chia sẻ) bằng MMAP = Hồi R ,. Nếu tệp được tải được nén (hoặc ‘.gz, hoặc‘ .bz2,), thì `mmap = không phải được đặt. (str, optional) – Memory-map option. If the object was saved with large arrays stored separately, you can load these arrays via mmap (shared memory) using mmap=’r’. If the file being loaded is compressed (either ‘.gz’ or ‘.bz2’), then `mmap=None must be set.

Xem thêm

>>> model = Word2Vec.load("word2vec.model")
>>> model.train([["hello", "world"]], total_examples=1, epochs=1)
(0, 2)
9

Lưu đối tượng vào tệp.

Trả lại

Đối tượng được tải từ fname.

Loại trở lại

sự vật

Tăng

Thuộc tínherRor - Khi được gọi trên một thể hiện đối tượng thay vì lớp (đây là phương thức lớp). – When called on an object instance instead of class (this is a class method).

________ 103 (fname_or_handle, riêng biệt = none, sep_limit = 10485760, bỏ qua = frozenset ({}), pickle_protocol = 4)(fname_or_handle, separately=None, sep_limit=10485760, ignore=frozenset({}), pickle_protocol=4)

Lưu đối tượng vào một tệp.

Thông số
  • fname (str) - đường dẫn đến tệp có chứa đối tượng cần thiết. (str or file-like) – Path to output file or already opened file-like object. If the object is a file handle, no special array handling will be performed, all attributes will be saved to the same file.

  • MMAP (STR, Tùy chọn)-Tùy chọn bản đồ bộ nhớ. Nếu đối tượng được lưu với các mảng lớn được lưu trữ riêng, bạn có thể tải các mảng này qua MMAP (bộ nhớ chia sẻ) bằng MMAP = Hồi R ,. Nếu tệp được tải được nén (hoặc ‘.gz, hoặc‘ .bz2,), thì `mmap = không phải được đặt. (list of str or None, optional) –

    Xem thêm

    Lưu đối tượng vào tệp.

  • Trả lại (int, optional) – Don’t store arrays smaller than this separately. In bytes.

  • Đối tượng được tải từ fname. (frozenset of str, optional) – Attributes that shouldn’t be stored at all.

  • Loại trở lại (int, optional) – Protocol number for pickle.

Xem thêm

>>> word_vectors = model.wv
>>> del model
1

Lưu đối tượng vào tệp.

Word2Vec được sử dụng để làm gì?

Mô hình Word2VEC được sử dụng để trích xuất khái niệm về sự liên quan giữa các từ hoặc sản phẩm như liên quan đến ngữ nghĩa, phát hiện từ đồng nghĩa, phân loại khái niệm, sở thích lựa chọn và tương tự. Một mô hình Word2VEC tìm hiểu các mối quan hệ có ý nghĩa và mã hóa sự liên quan thành sự tương đồng của vector.to extract the notion of relatedness across words or products such as semantic relatedness, synonym detection, concept categorization, selectional preferences, and analogy. A Word2Vec model learns meaningful relations and encodes the relatedness into vector similarity.

Word2Vec giải thích với ví dụ là gì?

Word2VEC là một kỹ thuật xử lý ngôn ngữ tự nhiên được xuất bản vào năm 2013 bởi nhà nghiên cứu Tomáš Mikolov.Thuật toán Word2VEC sử dụng mô hình mạng thần kinh để tìm hiểu các hiệp hội từ từ một kho văn bản lớn.Sau khi được đào tạo, một mô hình như vậy có thể phát hiện các từ đồng nghĩa hoặc đề xuất các từ bổ sung cho một câu một phần.a technique for natural language processing published in 2013 by researcher Tomáš Mikolov. The word2vec algorithm uses a neural network model to learn word associations from a large corpus of text. Once trained, such a model can detect synonymous words or suggest additional words for a partial sentence.

GENSIM Word2VEC làm gì?

Word2VEC là một kỹ thuật biểu diễn từ được sử dụng rộng rãi sử dụng các mạng thần kinh dưới mui xe.Việc biểu diễn từ hoặc nhúng từ kết quả có thể được sử dụng để suy ra sự tương đồng về ngữ nghĩa giữa các từ và cụm từ, mở rộng truy vấn, các khái niệm liên quan đến bề mặt và nhiều hơn nữa.infer semantic similarity between words and phrases, expand queries, surface related concepts and more.

Mô hình Word2VEC là gì?

Word2VEC là một mạng lưới thần kinh hai lớp nông, được đào tạo để xây dựng lại bối cảnh ngôn ngữ của các từ.Nó lấy đầu vào của nó một kho từ lớn và tạo ra một không gian vectơ, thường là hàng trăm chiều, với mỗi từ duy nhất trong kho văn bản được gán một vectơ tương ứng trong không gian.