|
phpdig是國外非常流行的垂直搜索引擎產(chǎn)品(與其說是產(chǎn)品,不如說是一項(xiàng)區(qū)別于傳統(tǒng)搜索引擎的搜索技術(shù)),采用php語言編寫,利用了php程序運(yùn)行的高效性,極大地提高了搜索反應(yīng)速度,它可以像Google或者Baidu以及其它搜索引擎一樣搜索互聯(lián)網(wǎng),搜索內(nèi)容除了普通的網(wǎng)頁外還包括txt, doc, xls, pdf等各式的文件,具有強(qiáng)大的內(nèi)容搜索和文件解析功能。phpdig同傳統(tǒng)的搜索引擎一樣,包含了以下三種最基本的技術(shù):
1.Spider技術(shù)
2.網(wǎng)頁結(jié)構(gòu)化信息抽取技術(shù)或元數(shù)據(jù)采集技術(shù)
3.分詞、索引技術(shù)
區(qū)別于傳統(tǒng)搜索引擎,phpdig適用于專業(yè)化更強(qiáng)、層次更深的個(gè)性化搜索引擎,利用它打造針對某一領(lǐng)域的垂直搜索引擎是最好的選擇。
二、如何獲得這phpdig?
phpdig是免費(fèi)產(chǎn)品(需要保留版權(quán)),最新版本是 phpdig-1.8.9 為了避免Apache以及MYSQL的版本兼容性問題,建議采用較低級的版本,其網(wǎng)站地址是:http://www.phpdig.NET ,下載地址是:http://www.phpdig.NET/navigation.php?action=download 說明一下,我試用過phpdig-1.8.9版本,但出現(xiàn)了很多問題,改用phpdig-1.8.8則問題較少。
三、具體步驟
1.獲取產(chǎn)品
訪問http://www.phpdig.NET/navigation.php?action=download下載phpdig-1.8.8至桌面,解壓縮至Apache服務(wù)器html目錄,一般路徑為:D:/usr/www/html/,(如果你沒有安裝Apache服務(wù)器請事先安裝,推薦使用Mappm-Server v1.1.9 Final,Mappm-Server 采用傻瓜式安裝,一次搞定,方便調(diào)試和運(yùn)行 php/CGI MySQL 程序)。
2.運(yùn)行并配置phpdig數(shù)據(jù)庫
打開瀏覽器輸入http://localhost/phpdig/按回車鍵,頁面列出phpdig的所有文件及包含文件夾,找一找發(fā)現(xiàn)沒有默認(rèn)首頁文件(default,index),單擊search.php文件出現(xiàn)錯(cuò)誤提示:Unable to connect to database : Check the connection script。提示無法完成數(shù)據(jù)庫連接,原來我們還沒有完成phpdig的數(shù)據(jù)庫配置。返回進(jìn)入admin目錄找到install.php文件,單擊運(yùn)行,乍一看,全英文界面(說明一下,phpdig目前所有版本均不支持中文界面),沒有關(guān)系,如果你有過漢化經(jīng)驗(yàn)不妨自己動(dòng)手將其漢化,這里提供一份我自己漢化的cn-language.php文檔的下載(請將其拷貝至locales目錄下)。另外你還需修改includes目錄下的config.php文件(語言修改)和style.css文件(字體修改和樣式修改)。
進(jìn)入install.php后系統(tǒng)要求我們輸入phpdig管理用戶名和密碼,默認(rèn)情況下均為admin,進(jìn)入后出現(xiàn)如下界面(漢化后):
(圖1)
所需提供的信息有:
如果你是在本地測試,請輸入默認(rèn)情況下的服務(wù)器名稱localhost(localhost是Mappm-Server下的默認(rèn)務(wù)服務(wù)器名稱,也就是mysql的默認(rèn)服務(wù)器名稱,Mappm-Server內(nèi)置mysql數(shù)據(jù)庫)數(shù)據(jù)庫服務(wù)器端口默認(rèn)為3126,可以不填,數(shù)據(jù)庫sock協(xié)議默認(rèn)為空,用戶名默認(rèn)為root(Mappm-Server默認(rèn)用戶名),密碼是你在安裝Mappm-Server時(shí)輸入的用戶密碼,phpdig數(shù)據(jù)庫名稱默認(rèn)為phpdig,可任意修改,同時(shí),你可以對數(shù)據(jù)庫中的數(shù)據(jù)表加前綴,默認(rèn)為空。
如果你要上傳到與InterNET相連的web服務(wù)器請向服務(wù)器提供商索要mysql服務(wù)器的名稱或者IP地址以及數(shù)據(jù)庫服務(wù)器端口、sock協(xié)議、用戶名、密碼等,數(shù)據(jù)庫名稱以及數(shù)據(jù)表前綴的設(shè)置同上。
至于右邊的四個(gè)單選按鈕,你可以視情況而定,初次使用(安裝)選擇默認(rèn)的“建立數(shù)據(jù)庫”
確認(rèn)上述信息無誤后單擊安裝按鈕,如果連接數(shù)據(jù)庫不成功會(huì)提示“不能連接數(shù)據(jù)庫”的錯(cuò)誤信息,如果數(shù)據(jù)庫連接成功則會(huì)直接跳入管理頁面如下圖:
(圖2)
3. 界面區(qū)域介紹
區(qū)域1是一個(gè)文本輸入?yún)^(qū),默認(rèn)文字有三行,都是以http開頭,大家一看就知道在這里輸入要spider的站點(diǎn)的網(wǎng)站地址(建議每次只spider一個(gè)網(wǎng)站)。
區(qū)域2是spider選項(xiàng),搜索深度是指對這個(gè)網(wǎng)站spider到幾級目錄,每頁鏈接數(shù)是指針對某個(gè)網(wǎng)頁最多抓取多少個(gè)下面的鏈接網(wǎng)頁。默認(rèn)情況下都為0,指的是對這個(gè)站點(diǎn)進(jìn)行全站spider。
區(qū)域3顯示數(shù)據(jù)庫狀態(tài)信息,包括已經(jīng)spider的網(wǎng)站、關(guān)鍵詞、索引以及正在spider的站點(diǎn)信息等。
區(qū)域4是一個(gè)下拉列表框,羅列出已經(jīng)spider的站點(diǎn)的網(wǎng)址,選中其中的一個(gè)站點(diǎn),在區(qū)域5可以對其進(jìn)行清除和更新操作。
區(qū)域5不僅提供了對區(qū)域4中所選站點(diǎn)的清除和更新操作外,還提供了相關(guān)的統(tǒng)計(jì)信息入口和對spider的控制等。
4. 針對特定站點(diǎn)運(yùn)行spider
如果你對天極軟件頻道的內(nèi)容很感興趣,你就可以做一個(gè)比google更專業(yè)的搜索引擎來搜索天極軟件的內(nèi)容,你的這個(gè)搜索引擎將比google更全面更深層次。下面我們以spider天極軟件頻道的內(nèi)容為例介紹一下如何spider一個(gè)網(wǎng)站。
1)在圖2的區(qū)域1中輸入http://soft.yesky.com,搜索深度和每頁鏈接數(shù)都保持默認(rèn)為0
2)單擊spider按鈕,頁面跳轉(zhuǎn)到spider信息頁面,程序開始自動(dòng)spider站點(diǎn)http://soft.yesky.com的內(nèi)容。
注意:spider網(wǎng)站的過程非常緩慢,如果該網(wǎng)站內(nèi)容太多,這個(gè)過程可能會(huì)延續(xù)幾小時(shí)到一天,但你不必?fù)?dān)心腳本運(yùn)行超時(shí),因?yàn)橄到y(tǒng)的timeout時(shí)間被設(shè)置為最長達(dá)48小時(shí)。在這個(gè)過程中,你也可以中斷spider程序的運(yùn)行,并能重新啟動(dòng)spider程序運(yùn)行未spider完的網(wǎng)站。需要注意的是若在這個(gè)過程中你不小心關(guān)閉了spider運(yùn)行頁面,但事實(shí)上系統(tǒng)并沒有停止spider,仍在消耗系統(tǒng)資源。你可以重新打開spider頁面,點(diǎn)擊停止spider鏈接方可釋放系統(tǒng)資源。
(圖3)
5. 利用phpdig進(jìn)行搜索
經(jīng)過一段時(shí)間后,spider程序運(yùn)行的結(jié)果是將http://soft.yesky.com網(wǎng)站上的信息抓取到服務(wù)器數(shù)據(jù)庫中,主要是對方內(nèi)容的title信息、關(guān)鍵詞信息和頁面地址信息等,此時(shí),你就可以通過訪問search.php進(jìn)行搜索了。
(圖4)
你可以選擇搜索結(jié)果顯示的條數(shù),可以選擇模糊查找還是精確查找,另外你可以選擇針對某個(gè)站點(diǎn)的搜索,默認(rèn)情況下搜索已經(jīng)被spider的所有站點(diǎn)。
(圖5)
上圖是搜索“QQ2006”的搜索結(jié)果頁面。
6. 存在的問題
由于phpdig的語言設(shè)置問題、系統(tǒng)的分詞問題以及MYSQL數(shù)據(jù)庫的字符處理問題等,phpdig對漢語詞匯的搜索還存在許多不確定因素,這些東西都有待我們進(jìn)一步去解決和完善,歡迎廣大對此感興趣的朋友們到網(wǎng)頁陶吧-phpdig主題社區(qū)進(jìn)行探討。
php技術(shù):用PHPdig打造屬于你自己的Google[圖文教程],轉(zhuǎn)載需保留來源!
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。