gensim 3 と 4 の Model 読み込み方法の違い

Python

Word2Vec で遊ぶために gensim で model を読み込もうと思ったら、エラーが出たので対処法を確認しようと思います。

今回 gensim のバージョンは 4.1.2 を使用しました。

model = gensim.models.KeyedVectors.load_word2vec_format('ファイル名', binary=True)

はじめ、このコードで書いたところ下記のようなエラーが出ました。

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: inv

エラーの原因は gensim のバージョンが 3 と 4 で記述方法が変更されたからだそうです。

というわけで gensim 4で Model を読み込むときは下記のように記述します。

model = gensim.models.KeyedVectors.load('ファイル名')

もしくは古いバージョンの gensim を入れ直して使用する方法もありそうです。

コメント

コメントする