快消品貨源批發(fā)市場
快消品貨源分銷平臺
 
 
當前位置: 貨源批發(fā)網(wǎng) » 網(wǎng)商學院 » 淘寶數(shù)據(jù)分析 » 基礎數(shù)據(jù) » 漫話阿里御膳房數(shù)據(jù)模型

漫話阿里御膳房數(shù)據(jù)模型

放大字體  縮小字體 發(fā)布日期:2024-08-30 06:04:14  來源:電商聯(lián)盟  作者:樂發(fā)網(wǎng)  瀏覽次數(shù):29

當大家聽到“大數(shù)據(jù)”、“模型”等字眼的時候,是不是都會油然而生出一種崇敬之情?覺得玩大數(shù)據(jù)是一個高深莫測的事情,可望而不可即?如果是這樣的話,趕緊來閱讀本文吧。本文試圖告訴大家,模型并不是什么高深的玩意,它幾乎處處存在我們的生活,甚至我們每天都在“做模型”。

很多人覺得“模型”、“大數(shù)據(jù)”、“機器學習”這些字眼很高大很神秘,事實上,它跟我們生活中選水果差不了多少。本文用了幾千字,來試圖教會大家怎么選芒果。

一、模型的比喻

假如我要從一批芒果中,找出好吃的那個來。而我不能直接切開芒果嘗嘗,所以我只能觀察芒果,能觀察到的量有顏色、表面的氣味、大小等等,這些就是我們能夠收集到的信息(特征)。

生活中還要很多這樣的例子,比如買火柴(可能年輕的城里人還沒見過火柴?),如何判斷一盒火柴的質(zhì)量?難道要每根火柴都劃劃,看看著不著火?顯然不行,我們最多也只能劃幾根,全部劃了,火柴也不成火柴了。當然,我們還能看看火柴的樣子,聞聞火柴的氣味,這些動作是可以接受的。

我們可能會發(fā)現(xiàn),黃色的、大個的芒果會很甜,可是也發(fā)現(xiàn),有些不怎么黃的、小個的也很甜。那么,顏色、氣味、體積這些特征,究竟分別占多少比例呢?如果我能夠找出這個比例,那么就找出了一個預測芒果好不好吃的方法?;鸩竦睦右惨粯樱覀兛梢詣潕赘?,看看哪些是能夠點著的,然后總結出一個不用劃也能預測能不能著火的方法。

模型做的就是這樣一個事情。我們先找出一批芒果(樣本),記錄它的特征(顏色、氣味、體積等),然后讓人嘗嘗,并且評價出哪個好吃,哪個不好吃。于是乎,我們就可以根據(jù)這批樣本,總結出顏色、氣味、體積各占多少比例。這個總結的過程,是機器自己在做的。

做完之后,我們就得到了一個預測芒果好不好吃的模型,這有點像黑箱子,以后把顏色、氣味、體積等數(shù)據(jù)代進去,就可以算出好吃的概率。

二、模型的意義

從以上的比喻,可以看出模型最重要的意義,是解決了兩個問題:

1.“一刀切”

“一刀切”應該是讓我們很痛心疾首的做法,像在中學,老師不問三七二十一就給我們來個差評,這便是典型的“一刀切”了。“一刀切”的做法具有一定的準確率,但并非所有問題都可以“一刀切”解決,相反,“一刀切”往往還把“優(yōu)良品種”給切錯了!

比如我要在班上找出成績好的學生好,我們自然會想到學習成績跟花在學習上的時間成正比,所以我們認為“每天學習時間大于5小時”就是成績好的人。這就是“一刀切”的做法??墒敲髅骶陀行┤?,天資聰穎,或者學習方法效率高,他每天花一個小時,成績就很優(yōu)秀。這樣的人,就被我們“切死”了,而且顯然,切死的還是優(yōu)良品種。

2.自動學習

還是從芒果的例子出發(fā)。如果我們憑借“多年來的經(jīng)驗”,就算不用模型,也摸索出了一套判斷好吃芒果的方法??赡艽藭r人們就會說“你們的模型有什么了不起,我們自己就可以做得很好。”可是,假如我現(xiàn)在不想吃芒果了,我想吃橘子,我想吃葡萄,那么我們又怎么預測橘子、葡萄的好吃程度呢?我們總不能等很多年以后,再來積累荔枝、蘋果的“多年經(jīng)驗”吧?耗時尚且不說,也耗費人力。

當然,可能別人有橘子、葡萄的相關經(jīng)驗,我們可以向他們請教。但是請教是有成本的,大家想想到處肆行的各種收費培訓活動就是了。

模型正好解決了這個問題,它允許我們從一批已經(jīng)有的樣本出發(fā)(不管是芒果、蘋果還是荔枝),自動地、機器地“總結”(這個過程稱為學習)出一套判斷方法來。由于學習都是機器在做,對于我們就省事省力了。我們只需要泡杯茶,坐等模型結果出來,再看看模型結果好不好就行了。這總比我們自己去學習、總結,然后再判斷自己的學習效果更好吧?

三、模型的做法

要做好一個模型,通常來說有以下步驟:

1.準備樣本

樣本就是我們用來學習的那一批“芒果”樣本。事實上,模型的建立過程跟人類的學習過程是很類似的。如果交給人類來做,我們肯定會先拿來一部分芒果,然后記錄它們的顏色、大小、氣味等特征,然后把它們都切開嘗嘗,看看哪個酸哪個甜,最后總結出規(guī)律來。

對于模型來說,模型代替了人類總結的過程,也就是最后一步。前面的準備過程,還是需要我們來完成的。我們要自己嘗一批芒果,記錄那批芒果的信息,然后把這些信息都輸入模型中,模型就能夠自動學習好,學習好之后,就能夠用這個模型來預測新的芒果味道了。

準備樣本,意思是要準備好的樣本和壞的樣本,換句話說,你要找一批好吃的芒果來,記錄它的特征,你也要找一批不好吃的芒果來,記錄它的特征,然后把這些信息都告訴模型,模型才能自動學習。在這個過程中,人類做的是記錄員的角色。

2.準備特征

特征就是和判斷結果有關的一些變量,是模型預測的基礎。

簡單來說,特征就是芒果的好吃與否跟什么有關的“什么”,如果我們覺得芒果的好吃程度跟芒果的大小、顏色、氣味有關,那么“大小”、“顏色”、“氣味”就是模型的特征,當然,前提是把這些信息數(shù)量化。

特征有好壞之分,好的特征可以幫助模型作出正確的預測,而壞的特征至少無益于預測。比如,在哪棵樹摘的芒果、在星期幾摘的芒果,這大概都不是什么好的特征的,也就是說這些信息通常來說并不能幫助我們判斷芒果的好吃程度。(注意是“通常來說”,并不是絕對的。也許A樹摘下來的芒果確實都比B樹的好吃也說不定。)

好的特征對模型是至關重要的,可以說,尋找好的特征(不管是人工尋找還是機器尋找),是模型中最重要的部分。一個好的數(shù)據(jù)研究員在建模的過程中,應當把主要的精力放在特征的選取上;然而,現(xiàn)在多數(shù)研究員往往走向了誤區(qū),他們把大量的精力放到了模型上面(也就是第3步)。

3.準備模型

準備模型其實就是選擇模型,也就是用什么模型來學習。這好比人有不同的學習方法、學習經(jīng)驗,究竟選取怎么樣的方法去學習一樣。

在真正的機器學習領域中,模型有相當多了,比如分為線性模型和非線性模型,線性模型有邏輯回歸、SVM等,非線性模型有隨機森林、GBDT、神經(jīng)網(wǎng)絡等等。對于模型來說,一般有以下幾點需要清楚:

(1)模型不是最重要的

事實上,建模過程中最重要的一塊是特征的選取,選取了正確的特征,模型之間的效果相差不會太大,因此,不要把大部分精力放在模型的選取上;

(2)防止過擬合

過擬合是一個比較難以察覺的現(xiàn)象,總的來說,就是得出來的模型,在樣本內(nèi)的測試效果表現(xiàn)非常好,而在實際應用中卻一塌糊涂。防止過擬合的通常方法是設置一定的正則系數(shù)(對于邏輯回歸,一般是0.01),或者設置較小的深度(決策樹相關的模型)。

(3)盡量用線性模型

非線性模型,如GBDT一般效果比較好,但是也更加容易過擬合,因此,如果非線性模型的效果不是比線性模型好很多的話,盡量用線性模型,因為這樣的模型穩(wěn)定性更好。這樣的理念實際上符合了這么一個奧卡姆剃刀定律:“如無必要,勿增實體。”

四、最后的最后

當然,不論怎樣都需要強調(diào):模型是有用的,但是模型不是萬能的,也不是最重要的。不要迷信模型,而喪失了我們自己的主觀能動性。模型可以說是一件藝術品,前提是——你是一位藝術家。

樂發(fā)網(wǎng)超市批發(fā)網(wǎng)提供超市貨源信息,超市采購進貨渠道。超市進貨網(wǎng)提供成都食品批發(fā),日用百貨批發(fā)信息、微信淘寶網(wǎng)店超市采購信息和超市加盟信息.打造國內(nèi)超市采購商與批發(fā)市場供應廠商搭建網(wǎng)上批發(fā)市場平臺,是全國批發(fā)市場行業(yè)中電子商務權威性網(wǎng)站。

本文內(nèi)容整合網(wǎng)站:百度百科、知乎、淘寶平臺規(guī)則

本文來源: 漫話阿里御膳房數(shù)據(jù)模型

分享與收藏:  網(wǎng)商學院搜索  告訴好友  關閉窗口  打印本文 本文關鍵字:
 
更多..資源下載
基礎數(shù)據(jù)圖文
做電商你不得不知的幾個數(shù)據(jù)分析法 學不會分析市場,談什么做電商
逐一分析,讓店鋪流量飛起來! 從《武媚娘傳奇》論店鋪裝修重要性
基礎數(shù)據(jù)網(wǎng)商學院推薦
基礎數(shù)據(jù)點擊排行
 
手機版 手機掃描訪問
亚洲一级av,黑白配精品在线视频,欧美亚洲综合网站,高清在线无码不卡69 www.sucaiwu.net