Google云計算數(shù)據(jù)倉庫服務(wù)BigQuery加入文本嵌入(Text Embedding)生成功能,開發(fā)者將可以通過熟悉的SQL指令截取文本嵌入,并將其應(yīng)用到下游應(yīng)用程序中。目前BigQuery所支持的文本嵌入,可由textembedding-gecko、BERT、NNLM以及SWIVEL模型所生成。
這項新功能的使用流程,由注冊需要的模型成為遠程模型開始,接著用戶就可以使用生成文本嵌入函數(shù)來生成嵌入,而這些操作都僅使用BigQuery SQL就可以完成。文本嵌入是一個由文本轉(zhuǎn)化而來的矢量,可用來尋找相似的項目,像是語義搜索、分類、分群、異常偵測和或是對話式接口等應(yīng)用。
BigQuery新支持的4種模型嵌入,其中textembedding-gecko是運用Google語言模型PaLM生成嵌入,其他三個模型BERT、NNLM以及SWIVEL,則都可以從TensorFlow Hub選用。BERT是Transformer架構(gòu)的深度預訓練網(wǎng)絡(luò),可針對自然語言生成密集的矢量表示,NNLM與SWIVEL則是以英文Google新聞?wù)Z料庫訓練而成。
同時,官方也宣布開始支持array。