Q1:計算機專業(yè)本科生,非ACMER。算法達到什么程度才算是合格,有什么量化手段嗎?
Answer:傳統(tǒng)算法和數(shù)據(jù)結構功底扎實。比如LintCode上的題目簡單和中等難度毫無壓力做出,Hard難度在給了一定時間和一定提示時可以獨立完成。
微積分,統(tǒng)計學,離散數(shù)學
Q2:成為數(shù)據(jù)挖掘工程師有必要要搞編程競賽嗎?現(xiàn)在大二,之前沒有接觸過競賽
Answer:數(shù)據(jù)挖掘的話是Kaggle,KDD的競賽
Q3:數(shù)據(jù)挖掘一定要學spark嗎
Answer:Python是剛需,Spark可以到用的時候再學
Q4:怎么練習普通算法呢,看算導刷oj嗎?
Answer:分為兩步:第一步是模塊化訓練,比如專門做圖論和動態(tài)規(guī)劃的題。第二步是在LintCode上隨便選擇一個題,不看標簽,獨立做出。
Q5:有一定高等數(shù)學基礎和機器學習算法概念的小白,如何進行實戰(zhàn)訓練。
Answer:分為兩步:第一階段是參加Kaggle,KDD競賽。第二階段是學習爬蟲,自己爬取電商,微博等數(shù)據(jù),做訓練
Q6:作為一個數(shù)據(jù)挖掘工程師,還有沒有必要深入研究傳統(tǒng)的算法,還是重點關注機器學習等統(tǒng)計的算法?
Answer:重點關注機器學習等統(tǒng)計的算法,這兩種有很大的不同
Q7:請問算法工程師和數(shù)據(jù)挖掘 data scientist 等崗位在技能要求和工作內容方面有什么區(qū)別嗎?
Answer:中小廠不區(qū)分。大廠可能會區(qū)分。算法工程師更底層一些,關注算法模型的開發(fā)和調優(yōu),數(shù)據(jù)挖掘更側重模型的建模和使用,應用和業(yè)務方面。
Q8:傳統(tǒng)的數(shù)據(jù)結構和算法是否對于機器學習是有必要的?如果有,主要體現(xiàn)在什么地方?
Answer:首先傳統(tǒng)的數(shù)據(jù)結構和算法可以鍛煉計算機思維,其實具體的數(shù)據(jù)結構和算法還是會用到的,比如搜索query時詞之間關系,可以用字符串的距離,動態(tài)規(guī)劃,字典樹等
技術問題
Q1: 假設數(shù)據(jù)集有商店id這個屬性,取值上千個,把它做OHE后去學習,雖然結果提升了,但維度增加了很多。但不做OHE,用分類樹去學習,結果并不好,可以有什么方法緩解數(shù)據(jù)集的擴大與最后結果的技巧嗎
Answer:這是特征工程中非常典型的問題,OHE后有可能會過擬合, 商店間有相似性,量化后對商店進行聚類,再用這些類去做分類的訓練
-
算法工程師
+關注
關注
2文章
30瀏覽量
6082
發(fā)布評論請先 登錄
相關推薦
評論