展會(huì)信息港展會(huì)大全

語(yǔ)義搜索如何工作的以及它是為誰(shuí)服務(wù)的?
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2022-03-31 12:02:58   瀏覽:4408次  

導(dǎo)讀:對(duì)于簡(jiǎn)單的用戶查詢,搜索引擎可以僅使用關(guān)鍵詞匹配可靠地找到正確的內(nèi)容。紅色烤面包機(jī)查詢會(huì)提取標(biāo)題或描述中帶有烤面包機(jī)且顏色屬性為紅色的所有產(chǎn)品。為紅色添加栗色等同義詞,您可以匹配更多的烤面包機(jī)。 但是事情很快就開始變得更加困難:您必須自己添...

對(duì)于簡(jiǎn)單的用戶查詢,搜索引擎可以僅使用關(guān)鍵詞匹配可靠地找到正確的內(nèi)容。“紅色烤面包機(jī)”查詢會(huì)提取標(biāo)題或描述中帶有“烤面包機(jī)”且顏色屬性為紅色的所有產(chǎn)品。為紅色添加栗色等同義詞,您可以匹配更多的烤面包機(jī)。

但是事情很快就開始變得更加困難:您必須自己添加這些同義詞,并且您的搜索也會(huì)帶來(lái)烤面包機(jī)。這就是語(yǔ)義搜索的用武之地。語(yǔ)義搜索嘗試應(yīng)用用戶意圖以及單詞和短語(yǔ)的含義(或語(yǔ)義)來(lái)查找正確的內(nèi)容。

它通過(guò)使用可能不會(huì)立即出現(xiàn)在文本(關(guān)鍵詞本身)中但與搜索者想要的信息密切相關(guān)的信息來(lái)超越關(guān)鍵詞匹配。例如,查詢“毛衣”甚至“更漂亮”的毛衣對(duì)于關(guān)鍵詞搜索來(lái)說(shuō)是沒(méi)有問(wèn)題的,而查詢“保暖衣物”或“如何在冬天保持身體溫暖?” 語(yǔ)義搜索可以更好地服務(wù)。

可以想象,試圖超越文本中嵌入的表面信息是一項(xiàng)復(fù)雜的工作。它已經(jīng)被許多人嘗試過(guò),并包含了許多不同的組件。此外,與任何顯示出巨大希望的事物一樣,語(yǔ)義搜索是一個(gè)有時(shí)用于不真正名副其實(shí)的搜索的術(shù)語(yǔ)。

要了解語(yǔ)義搜索是否適用于您的業(yè)務(wù)以及如何最好地利用它,有助于了解它的工作原理以及構(gòu)成語(yǔ)義搜索的組件。

語(yǔ)義搜索的要素是什么?

語(yǔ)義搜索應(yīng)用用戶意圖、上下文和概念含義來(lái)將用戶查詢與相應(yīng)的內(nèi)容相匹配。它使用矢量搜索和機(jī)器學(xué)習(xí)來(lái)返回旨在匹配用戶查詢的結(jié)果,即使沒(méi)有單詞匹配也是如此。

這些組件協(xié)同工作以根據(jù)含義檢索和排列結(jié)果。最基本的部分之一是上下文。

語(yǔ)境

搜索發(fā)生的上下文對(duì)于理解搜索者試圖查找的內(nèi)容很重要。

上下文可以像語(yǔ)言環(huán)境一樣簡(jiǎn)單(搜索“足球”的美國(guó)人與搜索相同事物的中國(guó)人想要不同的東西)或更復(fù)雜。

智能搜索引擎將在個(gè)人級(jí)別和組級(jí)別上使用上下文。個(gè)人層面對(duì)結(jié)果的影響被恰當(dāng)?shù)胤Q為個(gè)性化。

個(gè)性化將使用該個(gè)人搜索者的親和力、先前的搜索和先前的交互來(lái)返回最適合當(dāng)前查詢的內(nèi)容。

它適用于各種搜索,但語(yǔ)義搜索可以走得更遠(yuǎn)。

在組級(jí)別上,搜索引擎可以使用有關(guān)所有搜索者如何與搜索結(jié)果交互的信息(例如最常點(diǎn)擊哪些結(jié)果,甚至某些結(jié)果比其他結(jié)果更受歡迎的季節(jié)性)對(duì)結(jié)果進(jìn)行重新排名。

同樣,這顯示了語(yǔ)義搜索如何為搜索帶來(lái)智能,在這種情況下,智能是通過(guò)用戶行為。

語(yǔ)義搜索還可以利用文本中的上下文。我們已經(jīng)討論過(guò)同義詞在各種搜索中都很有用,并且可以通過(guò)將查詢匹配擴(kuò)展到相關(guān)內(nèi)容來(lái)改進(jìn)關(guān)鍵詞搜索。

但我們也知道同義詞不是通用的有時(shí)兩個(gè)詞在一種情況下是等價(jià)的,而在另一種情況下卻不是。

當(dāng)有人搜索“足球運(yùn)動(dòng)員”時(shí),正確的結(jié)果是什么?美國(guó)的答案與中國(guó)肯定不同。然而,像“奶粉”這樣的查詢可能不需要知道搜索者的位置。

這是通過(guò)語(yǔ)義搜索進(jìn)行查詢理解的示例。

用戶意圖

任何搜索引擎的最終目標(biāo)都是幫助用戶成功完成一項(xiàng)任務(wù)。該任務(wù)可能是閱讀新聞文章、購(gòu)買衣服或查找文件。

搜索引擎需要弄清楚用戶想要做什么,或者用戶意圖是什么。我們可以在電子商務(wù)網(wǎng)站上搜索時(shí)看到這一點(diǎn)。當(dāng)用戶輸入查詢“喬丹”時(shí),搜索會(huì)自動(dòng)過(guò)濾類別“鞋子”。這預(yù)計(jì)用戶的意圖是尋找鞋子,而不是約旦杏仁(將在“食品和零食”類別中)。

通過(guò)領(lǐng)先于用戶意圖,搜索引擎可以返回最相關(guān)的結(jié)果,并且不會(huì)用文本匹配但不相關(guān)的項(xiàng)目分散用戶的注意力。在搜索頂部應(yīng)用排序時(shí),這可能更加相關(guān),例如從最低到最高的價(jià)格。這是查詢分類的一個(gè)示例。

對(duì)查詢進(jìn)行分類并限制結(jié)果集將確保僅顯示相關(guān)結(jié)果。

關(guān)鍵詞和語(yǔ)義搜索之間的區(qū)別

我們已經(jīng)看到了語(yǔ)義搜索的智能方式,但值得更多地了解它與關(guān)鍵詞搜索的不同之處。

雖然關(guān)鍵詞搜索引擎還引入了自然語(yǔ)言處理來(lái)改進(jìn)這種詞對(duì)詞的匹配通過(guò)使用同義詞、刪除停用詞等方法但該處理仍然依賴于詞對(duì)詞的匹配。

但是語(yǔ)義搜索可以返回沒(méi)有匹配文本的結(jié)果,但是任何了解該領(lǐng)域的人都可以看到顯然有很好的匹配。

這與關(guān)鍵詞搜索和語(yǔ)義搜索之間的巨大差異有關(guān),即查詢和記錄之間的匹配方式。

為了簡(jiǎn)化一些事情,關(guān)鍵詞搜索是通過(guò)匹配文本來(lái)進(jìn)行的。

由于文本質(zhì)量的重疊,“蘋果”將始終匹配“蘋果手機(jī)”或“一種水果”。更具體地說(shuō),有足夠的匹配關(guān)鍵詞告訴引擎搜索一個(gè)的用戶會(huì)想要另一個(gè)。

同樣的匹配也會(huì)告訴引擎查詢蘋果更可能匹配單詞“蘋果手機(jī)”而不是水果“蘋果”。

基于關(guān)鍵詞的搜索引擎還可以使用同義詞、替代詞或查詢?cè)~刪除(所有類型的查詢擴(kuò)展和放松)等工具來(lái)幫助完成此信息檢索任務(wù)。

NLP 和 NLU 工具(如錯(cuò)字容錯(cuò)、標(biāo)記化和規(guī)范化)也有助于改進(jìn)檢索。

雖然這些都有助于提供改進(jìn)的結(jié)果,但它們可能無(wú)法提供更智能的匹配和概念匹配。

概念上的語(yǔ)義搜索匹配

因?yàn)檎Z(yǔ)義搜索是在概念上進(jìn)行匹配,所以搜索引擎不能再根據(jù)兩個(gè)詞共有多少個(gè)字來(lái)判斷記錄是否相關(guān);蛘吒鼜(fù)雜的查詢,例如“洗衣店清潔劑”、“去除衣服上的污漬”或“我如何去除牛仔布上的草漬?”您甚至可以包括圖像搜索之類的內(nèi)容!

與此類似的例子是客戶詢問(wèn)員工“馬桶疏通器”在哪里。除非商店明確將他們的柱塞、排水管清潔器和馬桶螺旋鉆稱為“馬桶疏通器”,否則對(duì)請(qǐng)求只有純關(guān)鍵詞式理解的員工會(huì)失敗。但是,我們希望員工足夠聰明,能夠在各種條款之間建立聯(lián)系,并將客戶引導(dǎo)到正確的通道。(也許員工知道客戶可以對(duì)任何給定產(chǎn)品使用的不同術(shù)語(yǔ)或同義詞)。

總結(jié)語(yǔ)義搜索所做的一個(gè)簡(jiǎn)潔的方法是說(shuō)語(yǔ)義搜索通過(guò)使用向量搜索帶來(lái)了更多的智能來(lái)匹配概念而不是單詞。

有了這種智能,語(yǔ)義搜索可以以更人性化的方式執(zhí)行,就像搜索者在搜索花式時(shí)尋找禮服和西裝,而看不到牛仔褲。

什么不是語(yǔ)義搜索?

到現(xiàn)在為止,語(yǔ)義搜索應(yīng)該是一種提高搜索質(zhì)量的有力方法。因此,當(dāng)您得知語(yǔ)義搜索的含義已被越來(lái)越廣泛地應(yīng)用時(shí),您應(yīng)該不會(huì)感到驚訝。

通常,這些搜索體驗(yàn)并不總是保證名稱。雖然語(yǔ)義搜索沒(méi)有官方定義,但我們可以說(shuō)它是超越傳統(tǒng)基于關(guān)鍵詞的搜索的搜索。它通過(guò)結(jié)合現(xiàn)實(shí)世界的知識(shí)來(lái)根據(jù)查詢和內(nèi)容的含義得出用戶意圖來(lái)做到這一點(diǎn)。

這導(dǎo)致了這樣的結(jié)論:語(yǔ)義搜索不僅僅是應(yīng)用 NLP 并將同義詞添加到索引中。

確實(shí),標(biāo)記化確實(shí)需要一些關(guān)于語(yǔ)言構(gòu)造的真實(shí)世界知識(shí),并且同義詞適用于對(duì)概念匹配的理解。但是,在大多數(shù)情況下,它們?nèi)狈⑺阉魈嵘秸Z(yǔ)義級(jí)別所需的人工智能。

由矢量搜索提供支持

正是這最后一點(diǎn)使語(yǔ)義搜索既強(qiáng)大又困難。通常,對(duì)于術(shù)語(yǔ)語(yǔ)義搜索,有一種隱含的理解,即涉及到某種程度的機(jī)器學(xué)習(xí)。幾乎同樣經(jīng)常,這也涉及向量搜索。

向量搜索的工作原理是將有關(guān)項(xiàng)目的詳細(xì)信息編碼為向量,然后比較向量以確定哪些最相似。

同樣,即使是一個(gè)簡(jiǎn)單的例子也能有所幫助。取兩個(gè)詞組:“豐田普銳斯”和“牛排”,F(xiàn)在讓我們將它們與“混合動(dòng)力”進(jìn)行關(guān)聯(lián)。哪個(gè)更可以關(guān)聯(lián)?

兩者都不會(huì)在文本上匹配,但您可能會(huì)說(shuō)“豐田普銳斯”是兩者中更相似的一個(gè)。

您可以這樣說(shuō)是因?yàn)槟?ldquo;普銳斯”是一種混合動(dòng)力汽車,因?yàn)槟谂c混合動(dòng)力一詞類似的上下文中看到“豐田普銳斯”,例如“豐田普銳斯是值得考慮的混合動(dòng)力車”或“像豐田普銳斯這樣的混合動(dòng)力車”。

但是,您可以肯定,您無(wú)法將“牛排”和“混合動(dòng)力”關(guān)聯(lián)起來(lái)。

繪制向量以查找相似性

這通常也是矢量搜索的工作方式。機(jī)器學(xué)習(xí)模型從網(wǎng)絡(luò)、書籍或其他來(lái)源獲取數(shù)千或數(shù)百萬(wàn)個(gè)示例,然后使用這些信息進(jìn)行預(yù)測(cè)。

當(dāng)然,對(duì)模型進(jìn)行逐個(gè)比較是不可行的(“豐田普銳斯和混合動(dòng)力車經(jīng)常一起出現(xiàn)嗎?混合動(dòng)力車和牛排呢?”)因此發(fā)生的情況是模型將編碼模式它注意到不同的短語(yǔ)。

這類似于您可能會(huì)如何看待一個(gè)短語(yǔ)并說(shuō)“這個(gè)是積極的”或“那個(gè)包含一種顏色”。除了在機(jī)器學(xué)習(xí)中,語(yǔ)言模型的工作方式并不那么透明(這也是語(yǔ)言模型難以調(diào)試的原因)。

這些編碼存儲(chǔ)在一個(gè)向量或一長(zhǎng)串?dāng)?shù)值中。然后,向量搜索使用數(shù)學(xué)計(jì)算不同向量的相似程度。考慮向量搜索所做的相似性測(cè)量的另一種方法是想象繪制出的向量。如果您嘗試將矢量繪制成數(shù)百個(gè)維度,這將非常困難。

如果你想象一個(gè)向量被繪制成三個(gè)維度,原理是一樣的。這些向量在繪制時(shí)形成一條線,問(wèn)題是:這些線中哪一條最接近?

“牛排”和“牛肉”的線條將比“牛排”和“轎車”的線條更接近,因此更相似。這個(gè)原理稱為向量或余弦相似度。矢量相似度有很多應(yīng)用。

它可以根據(jù)以前購(gòu)買的產(chǎn)品進(jìn)行推薦,找到最相似的圖像,并且可以確定哪些商品與用戶的查詢相比在語(yǔ)義上最匹配。

結(jié)論

隨著強(qiáng)大的深度學(xué)習(xí)模型和支持它們的硬件的興起,語(yǔ)義搜索是搜索應(yīng)用程序的強(qiáng)大工具。雖然我們?cè)谶@里觸及了許多不同的常見(jiàn)應(yīng)用程序,但還有更多使用矢量搜索和 AI 的應(yīng)用程序。甚至圖像搜索或從圖像中提取元數(shù)據(jù)也可能屬于語(yǔ)義搜索。我們正處于激動(dòng)人心的時(shí)刻!

然而,它的應(yīng)用仍處于早期階段,其已知的強(qiáng)大功能可能會(huì)導(dǎo)致對(duì)該術(shù)語(yǔ)的濫用。語(yǔ)義搜索管道中有許多組件,確保每個(gè)組件都正確很重要。

如果做得正確,語(yǔ)義搜索將使用現(xiàn)實(shí)世界的知識(shí),特別是通過(guò)機(jī)器學(xué)習(xí)和矢量相似性,將用戶查詢與相應(yīng)的內(nèi)容相匹配。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港