淘寶排序算法是怎樣的
關(guān)注:61 發(fā)布時間:2022-02-09 18:36:01
一、算法模型
當(dāng)用戶輸入關(guān)鍵詞進(jìn)行搜索的時候,系統(tǒng)依據(jù)算法模型來給匹配到的每個商品進(jìn)行實(shí)時的計(jì)算,并按照分?jǐn)?shù)的大小對商品進(jìn)行排序。 google 的 pagerank,可以理解為一個網(wǎng)頁入口超級鏈接的數(shù)目:一個網(wǎng)頁被其他網(wǎng)頁引用得越多,則該網(wǎng)頁就越有價值。特別地,一個網(wǎng)頁被越重要的網(wǎng)頁所引用,則該網(wǎng)頁的重要程度也就越高。 bm25 等。 spam,網(wǎng)頁重復(fù)等等作弊的問題,電子商務(wù)搜索也面臨同樣的問題,比如商品關(guān)鍵詞堆砌,重復(fù)鋪貨,重復(fù)開店,廣告商品引流等等,也有商品特有的問題如價格作弊,交易作弊等,需要利用統(tǒng)計(jì)分析或者機(jī)器學(xué)習(xí)來做異常行為,異常規(guī)律的發(fā)現(xiàn)和識別并運(yùn)用到排序中。 learning to rank 等的學(xué)習(xí)模型。 對人工評測的結(jié)果數(shù)據(jù),使用預(yù)定義好的評價計(jì)算公式比如 dcg 等,用數(shù)值化的方法來評價算法模型的結(jié)果和標(biāo)注的理想結(jié)果的接近程度。 side)的評測方法,針對一個關(guān)鍵詞,把兩個不同算法模型產(chǎn)出的結(jié)果同時展示在屏幕上,每次新模型和對比模型展示的位置關(guān)系都是隨即的,人工判斷的時候不知道哪一邊的數(shù)據(jù)是新模型的結(jié)果,人工判斷那一邊的搜索結(jié)果好,以比較終的統(tǒng)計(jì)結(jié)果綜合來衡量新模型和老模型的搜索表現(xiàn)。 rcfp(relevance,coverage,freshness,perspective)等,淘寶搜索線下評測時候一般統(tǒng)計(jì) dcg 和 sbs 的指標(biāo)。 system)系統(tǒng)就是這樣的一個環(huán)境,在用戶搜索時,由搜索系統(tǒng)根據(jù)一定的策略來自動決定用戶的分組號(bucket id),保證自動抽取導(dǎo)入不同分組的流量具有可對比性,然后讓不同分組的用戶看到的不同算法模型提供的結(jié)果。用戶在不同模型下的行為將被記錄下來,這些行為數(shù)據(jù)通過數(shù)據(jù)分析形成一系列指標(biāo),而通過這些指標(biāo)的比較,比較后就形成了不同模型之間孰優(yōu)孰劣的結(jié)論。只要分組的流量達(dá)到一定的程度,數(shù)據(jù)指標(biāo)從統(tǒng)計(jì)意義上就具有可比性。 pv 展示,和的集中度,在保證用戶體驗(yàn)的前提下,給更多的優(yōu)質(zhì)或小小而美的賣家展示的機(jī)會。
對于好的算法模型,首先需要考慮我們能夠有哪些特征因子可以應(yīng)用。比如在網(wǎng)頁搜索中,算法模型基本就是按網(wǎng)頁的重要性和相關(guān)性給網(wǎng)頁計(jì)算一個分?jǐn)?shù),然后進(jìn)行排序。這里的相關(guān)性,和重要性就是網(wǎng)頁排序模型中兩個重要的因子。具體來說相關(guān)性因子是指搜索關(guān)鍵字在文檔中出現(xiàn)的度數(shù),當(dāng)這個度數(shù)越高時,則認(rèn)為該文檔的相關(guān)程度越高。重要度因子比如 google 的 pagerank,可以理解為一個網(wǎng)頁入口超級鏈接的數(shù)目:一個網(wǎng)頁被其他網(wǎng)頁引用得越多,則該網(wǎng)頁就越有價值。特別地,一個網(wǎng)頁被越重要的網(wǎng)頁所引用,則該網(wǎng)頁的重要程度也就越高。
考慮淘寶搜索的時候,有些特征因子是很容易能想到的,比如:
a、文本的相關(guān)性:關(guān)鍵詞和商品的匹配,匹配的程度,是否重要詞的匹配,匹配詞之間的距離等,都可能影響相關(guān)性。比如搜索“小鴨子洗衣機(jī)”的時候,一個商品的中心詞是洗衣機(jī)的要比賣洗衣機(jī)配件商品的相關(guān)性高,小鴨子連在一起的相關(guān)性要比“小”和“鴨子”分開時候的相關(guān)性高等。文本相關(guān)性比較基本的計(jì)算方式可以參考 bm25 等。
b、類目熱點(diǎn):淘寶數(shù)據(jù)的一個重要特質(zhì)是每個商品都掛靠在類目屬性體系下面,每個商品都做了一個很好的分類。在搜索過程中,同一搜索詞的大量用戶行為數(shù)據(jù)很容易聚焦到相應(yīng)的熱點(diǎn)類目,比如“手機(jī)”的搜索行為會集中到手機(jī)類目,而不是配件類目。
c、圖片質(zhì)量:圖片是電子商務(wù)網(wǎng)站非常重要的一個數(shù)據(jù),圖片是否精美吸引人,圖片上是否有各種各樣的“牛皮”,和商品匹配度等都很大程度上影響著用戶的和購買決策。
d、商品質(zhì)量:每個商品都有不同的質(zhì)量,商品的描述真實(shí)性,是否物美價廉,受人歡迎的程度等。
e、作弊因子:類似于搜索有關(guān)鍵詞堆砌,link spam,網(wǎng)頁重復(fù)等等作弊的問題,電子商務(wù)搜索也面臨同樣的問題,比如商品關(guān)鍵詞堆砌,重復(fù)鋪貨,重復(fù)開店,廣告商品引流等等,也有商品特有的問題如價格作弊,交易作弊等,需要利用統(tǒng)計(jì)分析或者機(jī)器學(xué)習(xí)來做異常行為,異常規(guī)律的發(fā)現(xiàn)和識別并運(yùn)用到排序中。
f、公平因子:淘寶的商品很豐富,每個搜索詞下都有足夠多的商品在競爭,需要在相似質(zhì)量的情況下讓更多的商品和賣家有展示的機(jī)會,而不是像網(wǎng)頁搜索一樣是一個基本靜態(tài)的排序,照成商品和展示的馬太效應(yīng)。
類似的商品,賣家,買家,搜索詞等方面的特征因子有很多,一個排序模型就是把各種各樣不同的特征因子組合起來,給出一個比較終的關(guān)鍵詞到商品的相關(guān)性分?jǐn)?shù)。只用其中的一到兩個特征因子,已經(jīng)可以對商品做一些比較基本的排序。如果有更多的特征參與到排序,我們就可能得到一個更好的排序算法。組合的方法可以有簡單的人工配置到復(fù)雜的類似 learning to rank 等的學(xué)習(xí)模型。
那么如何衡量不同算法之間的優(yōu)劣呢?
二、線下評估
算法模型的評估一般分為線下的評估和線上的評估,線下的評估很多都體現(xiàn)在搜索中常用的相關(guān)性(relevance)指標(biāo)。相關(guān)性的定義可以分為狹義相關(guān)性和廣義相關(guān)性兩方面,狹義相關(guān)性一般指檢索結(jié)果和用戶查詢的相關(guān)程度。而從廣義的層面,相關(guān)性可以理解為用戶查詢的綜合滿意度。當(dāng)用戶在搜索框輸入關(guān)鍵詞,到需求獲得滿足,這之間經(jīng)歷的過程越順暢,越便捷,搜索相關(guān)性就越好。
在淘寶搜索衡量狹義相關(guān)性的時候,一般是使用 pi(per item)測試的方法:
a、抽取具有代表性的查詢關(guān)鍵詞,組成一個規(guī)模適當(dāng)?shù)年P(guān)鍵詞集合
b、針對這個關(guān)鍵詞集合,從模型的產(chǎn)出結(jié)果中查詢對應(yīng)的結(jié)果,進(jìn)行人工標(biāo)注(人工判斷為相關(guān)性好、中、差等), 對人工評測的結(jié)果數(shù)據(jù),使用預(yù)定義好的評價計(jì)算公式比如 dcg 等,用數(shù)值化的方法來評價算法模型的結(jié)果和標(biāo)注的理想結(jié)果的接近程度。
利用人工標(biāo)注數(shù)據(jù)來計(jì)算相關(guān)性的分?jǐn)?shù),來判斷模型的好壞;在這個過程中人工不可避免的會有主觀的判斷,但綜合了多人的判斷結(jié)果還是可以獲得一個有統(tǒng)計(jì)意義的結(jié)果,另一方面標(biāo)注數(shù)據(jù)也可以幫助我們找到一個算法表現(xiàn)不理想的地方,有針對性的提升。
廣義的相關(guān)性線下評測比較困難,受人工主觀因素的影響更大,一般使用 sbs(side by side)的評測方法,針對一個關(guān)鍵詞,把兩個不同算法模型產(chǎn)出的結(jié)果同時展示在屏幕上,每次新模型和對比模型展示的位置關(guān)系都是隨即的,人工判斷的時候不知道哪一邊的數(shù)據(jù)是新模型的結(jié)果,人工判斷那一邊的搜索結(jié)果好,以比較終的統(tǒng)計(jì)結(jié)果綜合來衡量新模型和老模型的搜索表現(xiàn)。
線下評測的方法和指標(biāo)有很多,不同的搜索引擎會關(guān)注不同的指標(biāo),比如以前 yahoo 的搜索引擎比較關(guān)注 rcfp(relevance,coverage,freshness,perspective)等,淘寶搜索線下評測時候一般統(tǒng)計(jì) dcg 和 sbs 的指標(biāo)。
線下的評測方法從統(tǒng)計(jì)上有一定的指導(dǎo)意義,能從一定程度上區(qū)分模型的好壞,但要真正驗(yàn)證算法模型的好壞,還需要接受真實(shí)的流量來驗(yàn)證。
三、線上測試
為了真實(shí)驗(yàn)證一個算法模型的好壞,需要有一個系統(tǒng)能提供真實(shí)的流量來檢驗(yàn)。淘寶搜索實(shí)現(xiàn)的 bts(bucket testing system)系統(tǒng)就是這樣的一個環(huán)境,在用戶搜索時,由搜索系統(tǒng)根據(jù)一定的策略來自動決定用戶的分組號(bucket id),保證自動抽取導(dǎo)入不同分組的流量具有可對比性,然后讓不同分組的用戶看到的不同算法模型提供的結(jié)果。用戶在不同模型下的行為將被記錄下來,這些行為數(shù)據(jù)通過數(shù)據(jù)分析形成一系列指標(biāo),而通過這些指標(biāo)的比較,比較后就形成了不同模型之間孰優(yōu)孰劣的結(jié)論。只要分組的流量達(dá)到一定的程度,數(shù)據(jù)指標(biāo)從統(tǒng)計(jì)意義上就具有可比性。
不同的 bts 系統(tǒng)會關(guān)注不同的數(shù)據(jù)指標(biāo),在淘寶搜索,有一些重要的指標(biāo)是很多算法模型測試的時候關(guān)注的:
訪問 uv 成交轉(zhuǎn)化率:來淘寶搜索的 uv,比較終通過搜索結(jié)果成交的用戶占比。
ipv-uv 轉(zhuǎn)化率:來淘寶搜索的 uv,有多少比例的用戶了搜索結(jié)果
ctr:搜索產(chǎn)生的占搜索產(chǎn)生的 pv 的比例
客單價:每個成交用戶在淘寶搜索上產(chǎn)生成交的平均價格
基尼系數(shù):基尼系數(shù)是一個經(jīng)濟(jì)學(xué)名詞,考量社會財(cái)富的集中度;如果社會財(cái)富集中到很少一部分富人手中的時候,基尼系數(shù)就會增大,社會的穩(wěn)定性和可持續(xù)發(fā)展性就會出現(xiàn)問題;淘寶搜索借用了這個概念來衡量搜索帶給賣家的 pv 展示,和的集中度,在保證用戶體驗(yàn)的前提下,給更多的優(yōu)質(zhì)或小小而美的賣家展示的機(jī)會。
淘寶運(yùn)營比較重要的一部分就是站內(nèi)搜索優(yōu)化,這樣能提升商品的自然排名,不過,這并不是運(yùn)營的全部,大家應(yīng)該站在全局的角度來做好運(yùn)營策劃。如果大家沒能完全理解,請不要因此失去信心,堅(jiān)持下去才會給自己帶來意外收獲哦。
下一篇:淘寶定向推廣是什么意思
猜你喜歡
-
小紅書退貨詐騙是怎么回事40人支持
事實(shí)案例分析告訴大家是怎么回事:社交電商小紅書最近可謂風(fēng)頭無兩,通過話題植入全民現(xiàn)象級綜藝《創(chuàng)造101》,將“標(biāo)記我的生活”這句slogan打入人心。同時,邀請范冰冰、張雨綺、林允等眾多娛樂明星入駐,營造權(quán)威時尚、可信賴的社交電商形象。然而,一邊是平…
-
我們可以單獨(dú)的看pc和移動關(guān)鍵詞的展現(xiàn)情況,所示:pc和移動排名下面分別出現(xiàn)【分布】,點(diǎn)開分布,會出現(xiàn)流量分布圖,所示:這里可以清晰的看到某一個小時內(nèi)關(guān)鍵詞的展現(xiàn)情況,在不同的排名上有不同的展現(xiàn)比例。關(guān)鍵詞的出價更細(xì)致了,所示:選擇不同的出價排名,右側(cè)會…
-
阿里組織架構(gòu)再調(diào)整103人支持
1月13日消息,阿里巴巴集團(tuán)今天宣布,為實(shí)施“五新”(新零售、新金融、新制造、新技術(shù)和新能源)戰(zhàn)略,全面升級和調(diào)整阿里組織架構(gòu)。ceo張勇在全員公開信中表示:2017年是阿里巴巴集團(tuán)“五新”戰(zhàn)略開始的一年。激動人心的戰(zhàn)略,必須有強(qiáng)大的阿里巴巴文化,不斷升…
-
淘寶雙11預(yù)熱什么意思93人支持
所謂的雙11活動預(yù)熱,是雙11大促的活動階段之一。是為客戶做的預(yù)熱工作,不同階段有不同的目標(biāo)。預(yù)熱期的目標(biāo),就是說不以日常的銷售為主,就努力的推廣和引流。如何互動預(yù)熱?1、提前公布購物清單&購物攻略一方面讓買家知道當(dāng)天店鋪活動怎么玩,幫助他們更快…
-
淘寶益起來在哪里展現(xiàn)79人支持
加入“益起來公益計(jì)劃”,您的店鋪和商品可以獲得以下幫助:1、產(chǎn)品首頁千人千面展現(xiàn)當(dāng)前捐贈的商家名稱。 一旦您參與了公益捐贈活動,該等捐贈即無法撤回、退回或取消,該等捐贈既不受公益項(xiàng)目開展進(jìn)度的影響,也不受淘寶因您的違規(guī)行為對您做出的違規(guī)處理的…
-
淘寶客鵲橋如何返利15人支持
安裝并注冊【淘客助手】或者【查淘客】插件,安裝完成重啟下瀏覽器就可以使用了。淘客助手:http://www.taokezhushou.com/查淘客:http://www.taoqueqiao.com/安裝完成設(shè)置pid碼使用淘鵲橋玩返利,最關(guān)鍵的一步就是設(shè)置pid碼。首先,打鵲橋,網(wǎng)頁上方最右邊有個…
-
淘寶中差評如何處理34人支持
1.如果是騙子,中差評師,堅(jiān)決不妥協(xié)。直接向淘寶投訴。2.先聯(lián)系顧客,溝通解決問題。如果顧客同意更改中差評最好,如果不能,一定要在淘寶店鋪中差評里解釋說明原因和解決辦法。3.拉長中差評相鄰上下的評價。簡單說:假如你的中差評在第五條,你可以勁量讓該條評…
-
芝麻信用社交暴露了什么12人支持
事實(shí)上這是一次支付寶芝麻信用圈子的內(nèi)測活動,開放了校園、白領(lǐng)等圈子,只有女性才可以發(fā)帖,然后只有芝麻信用超過750分的才可以留言回復(fù),此舉一下子就激活了朋友圈,芝麻信用火了。不得不說對于做了那么多年社交夢的阿里來說,這次做出的產(chǎn)品是最具備社交基…
-
如果是點(diǎn)擊成本過高,按花費(fèi)排序,找出roi低,而且點(diǎn)擊成本高的關(guān)鍵詞。看看哪些詞點(diǎn)擊成本高,分出哪些是虧損詞,哪些是主要的引流詞,哪些又是輔助的引流詞。 。 報,調(diào)整出價,讓停留至合理的展現(xiàn)頁面。或是單獨(dú)建個移動端的計(jì)劃,用目前引流成本較低的移動端給轉(zhuǎn)…
-
淘寶達(dá)人大v怎么認(rèn)證54人支持
淘寶達(dá)人新版后臺發(fā)布之后,無論是新晉達(dá)人認(rèn)證,或者已有認(rèn)證達(dá)人修改認(rèn)證信息,都會通過“達(dá)人成長”模塊進(jìn)行申請。 之類的。這里不是表決心的地方,而是體現(xiàn)你職業(yè)身份的地方,所以請不要這樣寫。很多淘寶達(dá)人對于認(rèn)證身份和認(rèn)證信息存在疑惑,甚至有些人隨…
-
淘寶直通車關(guān)鍵詞點(diǎn)擊率低該怎么優(yōu)化3人支持
淘寶賣家想要推廣產(chǎn)品,首先就需要找到一個合適的推廣方式,而淘寶直通車就是淘寶店鋪賣家最常用的、也是用得最多的一種付費(fèi)推廣方式。當(dāng)然,即使是賣家使用淘寶直通車推廣,有時候也會出現(xiàn)一些問題,特別是一些新手賣家,在不了解直通車的情況下就去胡亂的開車…
-
雙11晚會詳細(xì)情況介紹58人支持
7月12日,天貓雙11晚會招商發(fā)布會,公布優(yōu)酷是主辦方,另外還有浙江衛(wèi)視和東方衛(wèi)視兩個內(nèi)容合作伙伴,三方會拿出各自優(yōu)質(zhì)ip并整合在一起。大優(yōu)酷事業(yè)群內(nèi)容產(chǎn)業(yè)化總經(jīng)理崔延寧在7月12日天貓雙11晚會招商發(fā)布會上舉例道,東方衛(wèi)視《極限挑戰(zhàn)》、浙江衛(wèi)視《奔跑…
熱門十大品牌
- 2021年我國十大黃金品牌排行榜31003人
- 眼鏡品牌十大排行榜前10名26367人
- 十大證券公司排行榜前10名23244人
- 2021年我國雜志排行榜前10名20056人
- 我國十大雜志排行榜前10名16361人
- 2021我國十個宜居城市排行榜前11489人
- 男士褲子品牌十大排行榜前10名11188人
- 2021十大火熱電腦游戲排行榜前11059人
- 十大衛(wèi)生巾品牌排行榜前十名8850人
- 我國十大襪子品牌排行榜前十名8373人
微商營銷
- 微商:你什么都舍不得改變,還談328關(guān)注
- 做微商選擇產(chǎn)品時必須注意的393關(guān)注
- 2019年最新微信營銷技巧424關(guān)注
- 微信營銷技巧都有哪些?409關(guān)注
- 朋友圈里一些營銷策略,你知道390關(guān)注
- 微商發(fā)朋友圈不被屏蔽的四大1044關(guān)注
- 微商營銷怎么和客戶建立信任475關(guān)注
- 做微商不懂引流?實(shí)用引流小技587關(guān)注
- 做微商哪里找貨源?有哪些合適451關(guān)注
- 我想做微商怎么加入?需要怎么12598關(guān)注
- 創(chuàng)贏微商培訓(xùn)導(dǎo)師教你促成客1059關(guān)注
- 【入門微商必學(xué)】微商貨源怎1275關(guān)注