展會信息港展會大全

人工智能都需要掌握什么
來源:互聯(lián)網(wǎng)   發(fā)布日期:2020-11-06 14:51:06   瀏覽:8147次  

導(dǎo)讀:一提到人工智能,很多人都會想到不簡單,頭腦一般的人根本學(xué)不進去,格物斯坦表示:在學(xué)人工智能之前,要掌握多門相關(guān)的理論學(xué)科作為基礎(chǔ),才能得心應(yīng)手的去學(xué),過程還是比較艱辛的,但一定要克服才行。 統(tǒng)計學(xué).要深入理解機器學(xué)習(xí),必須要有扎實的統(tǒng)計學(xué)基...

一提到人工智能,很多人都會想到不簡單,頭腦一般的人根本學(xué)不進去,格物斯坦表示:在學(xué)人工智能之前,要掌握多門相關(guān)的理論學(xué)科作為基礎(chǔ),才能得心應(yīng)手的去學(xué),過程還是比較艱辛的,但一定要克服才行。

統(tǒng)計學(xué).要深入理解機器學(xué)習(xí),必須要有扎實的統(tǒng)計學(xué)基礎(chǔ)知識,這涉及到幾個方面:度量模型是否成功的各種方法(精確度、召回率、ROC曲線下面積等)。損失函數(shù)和評估指標的選擇是如何偏離模型的輸出的。如何理解過擬合和欠擬合,以及偏差/方差折衷。你對模型的結(jié)果有什么樣的信心。

機器學(xué)習(xí)理論.在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候,實際上發(fā)生了什么?是什么使得某些任務(wù)可行,而其他任務(wù)不可行?要弄清楚這些問題,最好的方法不是深入研究理論知識,而是試著通過圖形和示例來了解機器學(xué)習(xí)。需要理解的概念范圍包括:不同的損失函數(shù)的工作原理是什么、為什么反向傳播是有用的、計算圖是什么。而對于如何建立一個功能模型,以及如何跟團隊里的其他人員進行有效地交流,這些都需要深入地理解。下面我給出了一些參考資料:

數(shù)據(jù)處理.如果你去問任何一個數(shù)據(jù)科學(xué)家他們的主要工作是什么,他們會告訴你,90%的工作是數(shù)據(jù)處理。這與應(yīng)用AI同樣重要,因為模型的成功與否與數(shù)據(jù)的質(zhì)量(和數(shù)量)強相關(guān)。數(shù)據(jù)工作包含多個方面,但可歸納為下面幾類:

數(shù)據(jù)采集(包括:找到好的數(shù)據(jù)源、準確度量數(shù)據(jù)的質(zhì)量和分類、獲取和推斷標簽)數(shù)據(jù)預(yù)處理(缺失數(shù)據(jù)填補、特征工程、數(shù)據(jù)增強、數(shù)據(jù)規(guī)范化、交叉驗證分割)數(shù)據(jù)后處理(使模型的輸出可用、清理工作、處理特殊情況和異常值)

熟悉數(shù)據(jù)處理工作最好的方法是獲取一個數(shù)據(jù)集并試著使用它。有很多在線數(shù)據(jù)集,以及很多提供API的社交媒體和新聞媒體網(wǎng)站;谏厦嫣岬降膸讉步驟,我們可以這樣進行學(xué)習(xí):獲取一個開源的數(shù)據(jù)集,并對其進行檢查。它有多大(點和特征的數(shù)量)?數(shù)據(jù)如何分布?是否存在缺失值或異常值?構(gòu)建一個將原始數(shù)據(jù)轉(zhuǎn)換為可用數(shù)據(jù)的轉(zhuǎn)換流程。如何填補缺失值?如何正確處理異常值?如何規(guī)范化數(shù)據(jù)?能創(chuàng)造出更多的表現(xiàn)特征嗎?檢查轉(zhuǎn)換過的數(shù)據(jù)集。

對模型進行調(diào)試或調(diào)優(yōu).調(diào)試機器學(xué)習(xí)算法(無法收斂,或者得到的結(jié)果不合理)與調(diào)試普通代碼有著很大的區(qū)別。同時,要找出合適的架構(gòu)和超參數(shù)則需要具備扎實的理論基礎(chǔ)和完備的基礎(chǔ)架構(gòu),以便對不同的配置進行徹底的測試。由于目前機器學(xué)習(xí)領(lǐng)域發(fā)展迅猛,而調(diào)試模型的方法也在不斷地發(fā)展。以下是從我們部署模型的討論和經(jīng)驗中總結(jié)出來的“合理性檢查”列表,這些條目也以某種方式反映了許多軟件工程師熟悉的KISS原理。

從一個已經(jīng)被證明可以使用類似數(shù)據(jù)集的簡單模型開始,以盡快獲得基線版本。經(jīng)典的統(tǒng)計學(xué)習(xí)模型(線性回歸、最近鄰居等)或者簡單的啟發(fā)式算法或規(guī)則通常能幫你解決80%的問題,并且能更快地實現(xiàn)需求。剛開始的時候,要用最簡單的方式來解決問題(請參閱谷歌的機器學(xué)習(xí)規(guī)則的前幾點)。如果你決定訓(xùn)練一個更復(fù)雜的模型以改進基線版本,那么可以用數(shù)據(jù)集的一個很小的子集來進行訓(xùn)練并達到過擬合。這能夠確保這個模型至少還有學(xué)習(xí)的能力。不斷地對模型進行迭代,直到對5%的數(shù)據(jù)量過擬合。

一旦開始用更多的數(shù)據(jù)進行訓(xùn)練,那么超參數(shù)就開始發(fā)揮更大的作用了。你需要理解這些參數(shù)涉及到的理論,這樣才能找到合理的值。請采用有針對性的方法對模型進行調(diào)優(yōu)。簡要地記錄下你曾經(jīng)使用的所有配置及其結(jié)果。在理想情況下,可以使用自動超參數(shù)搜索策略。最開始的時候,使用隨機搜索就足夠了。你的開發(fā)能力越強,則這些步驟實現(xiàn)起來就越快,反之亦然。

軟件工程.許多的應(yīng)用機器學(xué)習(xí)允許你充分發(fā)揮自己在軟件工程方面的技能,雖然有時也會有一點小改變。這些技能包括:測試流水線的各個方面(數(shù)據(jù)的預(yù)處理和增強、輸入輸出的整理、模型推理時間)。基于模塊化和可重用的原則來構(gòu)建代碼。訓(xùn)練過程中的不同點對模型進行備份(設(shè)置檢查點)。配置一個分布式的基礎(chǔ)架構(gòu),這樣能更加有效地進行訓(xùn)練、超參數(shù)搜索或者推演。

綜上所述,少年們要學(xué)好人工智能之前,知識面和動手能力方面要比平常人更出類拔萃才行,現(xiàn)代高科技社會需要的是優(yōu)秀的奇才,而不是平庸的勞動者。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港