東拉西扯:自然語言搜索又來了
在網(wǎng)上混了10年,“自然語言搜索”這個(gè)炒作專用詞,早就讓人麻木。從Excite,到Ask Jeeves,到Accoona,再到最近嚷嚷得很大聲的Powerset,畫餅一張摞一張,自然語言搜索從來沒真正實(shí)現(xiàn)過。資深搜索引擎觀察家Danny Sullivan說,自然語言搜索總能引起兩類人關(guān)注:完全不懂搜索的人或從來沒聽說過自然語言這一咒語的人。鼓噪者通常會(huì)這么做:
Powerset當(dāng)然不例外,它先告訴你,現(xiàn)有的搜索引擎根本無法區(qū)分“為孩子寫的書”、“孩子寫的書”和“有關(guān)孩子的書”("book for children", "book by children", and "book about children")之間的區(qū)別。該公司CEO Barney Pell在自己的blog上很有力地批判了現(xiàn)有搜索引擎的“壞”,當(dāng)然也順便謳歌了自然語言搜索的“好”。
Powerset的炒作不限于此,他們還握有大量吸引眼球的武器。比如,Powerset正在秘密研發(fā),其目標(biāo)是打敗Google,改變搜索產(chǎn)業(yè)的內(nèi)核,他們已經(jīng)拿到了1000萬美元投資,他們的投資者中有Esther Dyson這樣的如雷貫耳的名字……
我并非完全不信任自然語言搜索,我只是不相信“革命”這種東西的有效性。基于關(guān)鍵詞的搜索技術(shù)的確不完美,但這種技術(shù)卻是迄今為止最有效、成本最低的信息查詢方式。輸入幾個(gè)關(guān)鍵詞,回車,結(jié)果就列在那兒了。Sullivan把這種搜索用戶的行為模式稱之為“搜索的DOS”(DOS Of Search),它已經(jīng)成為人機(jī)對(duì)話的一種基本模式。輸入一個(gè)長長的句子,或者在顯示結(jié)果之前先要從一長排列表中選取某個(gè)范圍,顯然違反了用戶的行為習(xí)慣。
而且我不相信,讓用戶輸入一個(gè)語句,搜索引擎就能更好地理解用戶的意圖。對(duì)搜索結(jié)果來說,語鏡很重要。但一個(gè)句子相比幾個(gè)關(guān)鍵詞,恐怕并不能提供一個(gè)更好的語鏡。如果是為了更好地理解用戶意圖,干嗎不讓用戶就其想搜索的內(nèi)容寫一篇論文呢?為了讓用戶輸入更多的內(nèi)容,搜索框是不是該改成一個(gè)大大的文本框呢?
Sullivan說得好,Google打敗它之前的搜索引擎,靠的是改變機(jī)器一端,而不是改變用戶一端。Google只是讓搜索結(jié)果變得更有用,而沒有試圖改變用戶的搜索行為本身。
而且,自然語言搜索在某種意義上,就像機(jī)器翻譯一樣,需要改變一個(gè)算法打天下的思路。當(dāng)你有了大量的已索引數(shù)據(jù)和用戶行為數(shù)據(jù),基于對(duì)這些數(shù)據(jù)的統(tǒng)計(jì)、歸納、分析,你就能更好地理解用戶的搜索意圖。所以,即使就自然語言搜索本身來說,我也認(rèn)為,優(yōu)勢在Google一邊,而不是Powerset一邊。
我猜想,Powerset可能確實(shí)有它的獨(dú)門絕技,但VC投資它,肯定不會(huì)是指望出現(xiàn)另一個(gè)Google。更大的可能,是作為對(duì)現(xiàn)有搜索引擎的一種補(bǔ)充,它有可能被GYM中的某個(gè)大頭收購。不過,Powerset產(chǎn)品還沒拿出來,就先炒,很有可能適得其反。
歸類于: 0.1: 東拉西扯 — keso @ 07:39
19條評(píng)論
自然語言,大概就是像愛問這樣的了。
要是靠機(jī)器來回答的話,有點(diǎn)扯
nings —— 2006-10-07 @
自然語言是人工智能的一個(gè)分支。
人工智能又是搜索的一個(gè)方向。
當(dāng)自然語言發(fā)展的時(shí)候,我們的人機(jī)界面將能更友好,不須手動(dòng)輸入,可以在不方便手工輸入的情況下進(jìn)行搜索。比如機(jī)器人專家…
ocde —— 2006-10-07 @
to ocde:
像你說的那樣,是三五十年后的事吧。
nings —— 2006-10-07 @
老大,有錯(cuò)別字……
Raine —— 2006-10-07 @
Powerset?瞎撤!
這才是真正的自然語言搜索,可惜有些政府不讓推,http://media.news.hexun.com/1980_1796141A.shtml
http —— 2006-10-07 @
等著人工智能的發(fā)展吧
華子 —— 2006-10-07 @
自然語言搜索是個(gè)偽命題。
Hong Xiaowan —— 2006-10-07 @
語鏡
asd —— 2006-10-07 @
check feedback
滄海笑一聲 —— 2006-10-07 @
疑問:
一。洪哥為什么說自然語言又回來了呢,因?yàn)镻owerset在鬧?Powerset產(chǎn)品沒出來,怎么評(píng)判呢?(好象我和您講客觀了,哈)
二。自然語言是人工智能的一個(gè)分支,人工智能又是搜索的一個(gè)方向;那么社會(huì)化搜索呢,模糊搜索呢,誰給著大致的輪廓。
三。那么searchmash呢,人說這是google的?
點(diǎn)解(手牽手) —— 2006-10-08 @
說自然語言是偽命題的?誰又將為這種胡說八道的后果承擔(dān)責(zé)任呢?
http://www.aisou.com是早都提供過公開測試,而且有不少人用過,故意涂抹真相的人真不知道什么用心.
http —— 2006-10-08 @
傳說中的"第三代搜索"
比Google還"牛"
互聯(lián)網(wǎng)已經(jīng)跟娛樂圈差不多了
Bestwyw —— 2006-10-08 @
咕谷
,個(gè)性上網(wǎng),顛覆上網(wǎng)習(xí)慣,建立完全是自己的上網(wǎng)主頁
RSS訂閱,播客多媒體訂閱,個(gè)人網(wǎng)址收藏,音樂收藏,實(shí)用功能定制,拖拉管理模塊
asd2 —— 2006-10-09 @
反恐24小時(shí)看下來,人傻了不少;里面關(guān)于搜索的行為大有文章可做,如里面的嫌犯肖像比較功能,如果計(jì)算機(jī)處理速度成本大白菜到能實(shí)現(xiàn)劇集里的那樣,未來在網(wǎng)上圖片智能比較引擎會(huì)是搜索的一個(gè)重要發(fā)展方向,圖片比較不僅僅是現(xiàn)在的exif參數(shù)而是象素上的匹配度識(shí)別
pi —— 2006-10-09 @
不評(píng)
vazi —— 2006-10-09 @
衡陽百姓論壇歡迎你
衡陽人自己的論壇,雁城動(dòng)態(tài),影音娛樂,情感天空,同城交友.
斑竹開放申請(qǐng)中.
注冊(cè)會(huì)員并向朋友宣傳本論壇贈(zèng)送QQ幣,抽獎(jiǎng)中紀(jì)念品.
衡陽百姓論壇歡迎你 www.hybx.com —— 2006-10-09 @
實(shí)際上很多時(shí)候我自己都不知道要搜索的到底是孩子的書還是孩子寫的書,自然搜索還真是“善解人意”。。。
mhye —— 2006-10-10 @
自然語言是未來的一種趨勢,不應(yīng)該去否定它的存在!
如果把自然語言表現(xiàn)在計(jì)算機(jī)語言上,主要是看分詞、語義、句法上做一些技術(shù)上的改成;我認(rèn)為這是有可能發(fā)生的事;現(xiàn)在都可以以關(guān)鍵詞作為主流,那么以后以語句做為主流的一種搜索方式;也未嘗不可呀!
真正能改變科技的發(fā)展,不是十年就能解決的;有可能需要更長的時(shí)間去等待!
否則,科學(xué)的發(fā)展,就是顯示出自己的淺短的眼光!
天使心 —— 2007-02-09 @
是孩子的書還是孩子寫的書?建議把所有可能都列出來,或者列為語病,或者以后都發(fā)明一種通用的機(jī)器世界語
bravo_0532 —— 2007-03-22 @