27. 27
TensorFlow Hubと text-embeddings
TensorFlow Hub
https://tfhub.dev/
事前トレーニング済モデル、コーパスが公開されている。
text-embedding 集はこのあたり
https://tfhub.dev/s?module-type=text-embedding
tf2-preview/gnews-swivel-20dim
https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1
Token based text embedding trained on English Google News 130GB corpus.
テキスト埋込みをBigQueryで読み込み可能、サンプルが公開されている
https://github.com/GoogleCloudPlatform/ml-design-
patterns/blob/master/02_data_representation/text_embeddings.ipynb
テキストの類似性 or ドキュメントのクラスタリングのための埋込み使用例
https://towardsdatascience.com/how-to-do-text-similarity-search-and-document-clustering-in-
bigquery-75eb8f45ab65
28. 28
TensorFlow Hub:text-embeddingの利用例
ステップ1 モデル読み込み
%%bigquery
CREATE OR REPLACE MODEL advdata.swivel_text_embed
OPTIONS(model_type='tensorflow', model_path='gs://ai-analytics-solutions-kfpdemo/swivel/*')
ステップ2 モデルを使用して自然言語のテキスト列を埋め込み配列に変換し、
埋め込みルックアップを新しいテーブルに格納
%%bigquery
CREATE OR REPLACE TABLE advdata.comments_embedding AS
SELECT
output_0 as comments_embedding,
comments
FROM ML.PREDICT(MODEL advdata.swivel_text_embed,(
SELECT comments, LOWER(comments) AS sentences
FROM `bigquery-public-data.noaa_preliminary_severe_storms.wind_reports`
))