奧推網

選單
遊戲

為什麼應用人工智慧需要資料科學以外的技能和知識

每年,機器學習研究人員都會因新發現和創新而著迷我們。在十二場人工智慧會議上,研究人員突破了科學的界限,展示了神經網路和深度學習架構如何在計算機視覺和自然語言處理等領域面臨新的挑戰。

但是,在現實世界的應用程式和業務問題中使用機器學習(通常稱為“應用機器學習”或“應用人工智慧”)提出了學術和科研環境中不存在的挑戰。應用機器學習需要超越資料科學的資源,技能和知識,這些資源,技能和知識可以將AI演算法整合到每天成千上萬的人使用的應用程式中。

兩位經驗豐富的應用機器學習從業者Alyssa Simpson Rochwerger和Wilson Pang在他們的新書《

真實世界AI:負責任的機器學習實用指南》中

討論了這些挑戰 。IBM Watson的前產品總監Rochwerger和Appen的CTO Pang結合了他們的個人經驗和知識,提供了許多示例說明組織如何成功或失敗地將機器學習整合到他們的產品和業務模型中。

真實世界的AI

解釋了機器學習策略的常見挑戰和陷阱,以及產品領導者如何避免重複其他組織的失敗。這是Rochwerger和Pang在書中強調的四個關鍵挑戰。

定義問題

知道要解決的問題是一項挑戰,它適用於所有軟體工程任務。任何有經驗的開發人員都會承認,“做正確的事”不同於“做正確的事”。在應用機器學習中,定義問題在您對技術,資料來源和將要使用您的產品的人員的選擇中起著至關重要的作用。

Rochwerger和Pang在《

真實世界

》中寫道:“在大型公司處於試點階段的AI中,只有20%投入生產,而且許多都無法盡其所能為客戶提供服務。” “在某些情況下,這是因為他們試圖解決錯誤的問題。在其他情況下,這是因為它們無法考慮所有對模型的成敗至關重要的變數或潛在偏差。”

考慮影象分類問題。深度神經網路可以驚人的精度執行此類任務。但是,如果要將它們應用於實際應用程式,則對問題的詳細定義將確定所需的模型,資料,人才和投資的型別。

例如,如果您想要一個可以標記影象檔案中檔案的神經網路,則可以使用很多預先訓練的卷積神經網路(例如ResNet,Inception)和公共資料集(例如ImageNet和Microsoft COCO)開箱即用。您可以在自己的伺服器上設定深度學習模型,並透過它執行影象。或者,您可以註冊基於API的服務,例如Amazon Rekognition或Microsoft Azure Computer Vision。在這種情況下,推斷將在服務提供商的伺服器中完成。

但是,假設您正在一家大型農業公司工作,並且想要開發一種可以在無人機上執行並且可以檢測農作物中雜草的影象分類器。希望這項技術將幫助您的公司轉而精確地使用除草劑,以降低成本,浪費和化學藥品的負面影響。

在這種情況下,您將需要一種更專業的方法。您必須考慮對機器學習模型和資料的約束。您需要一個足夠輕的神經網路,以在邊緣裝置的計算資源上執行。而且,您將需要一個特殊的帶有雜草和非雜草植物標籤影象的資料集。

在機器學習中,定義問題還包括確定要解決問題的程度。例如,在影象檔案標籤的情況下,如果您的機器學習模型將每100張影象中的5張標籤錯誤,那麼您應該不會有太大的問題。但是,如果要建立癌症檢測神經網路,則需要更高的標準。每個遺漏的案件都可能會影響生命。

收集訓練資料

應用機器學習的主要挑戰之一是收集和組織訓練模型所需的資料。這與科學研究相反,在科學研究中通常可以獲得訓練資料,其目標是建立正確的機器學習模型。

“在現實世界中建立AI時,用於訓練模型的資料比模型本身更為重要,” Rochwerger和Pang在《

Real World AI

》中寫道。“這是學術界代表的典型範例的逆轉,在該範例中,資料科學博士將大部分精力和精力用於建立新模型。但是,用於在學術界訓練模型的資料僅用於證明模型的功能,而不能解決實際問題。在現實世界中,可用於訓練工作模型的高質量,準確資料很難收集。”

在許多應用的機器學習應用程式中,公共資料集對於訓練模型沒有用。您需要收集自己的資料或從第三方購買它們。兩種選擇都有其自身的挑戰。

例如,在前面提到的除草劑監視場景中,該組織將需要捕獲很多農作物和雜草的影象。為了使機器學習模型可靠地工作,工程師將需要在不同的光照,環境和土壤條件下拍照。收集資料後,他們需要將影象標記為“植物”或“雜草”。資料標記需要手動工作,這是一項艱鉅的工作,並且已經引起了整個行業的發展。有數十個平臺和公司為AI應用程式提供資料標記服務。

在其他情況下,例如醫療保健和銀行業,培訓資料將包含敏感資訊。在這種情況下,外包標籤任務可能很棘手,產品團隊將必須小心,不要違反隱私和安全法規。

然而,在其他應用程式中,資料可能會分散並分散在不同的資料庫,伺服器和網路中。當組織從各種來源獲取資料時,他們還將面臨其他挑戰,例如資料庫架構之間的不一致,約定不匹配,資料丟失,資料過時等等。在這種情況下,機器學習策略的主要挑戰之一將是清理資料並將不同的源合併到一個數據湖中,以支援ML模型的訓練和維護。

在資料來自不同資料庫的情況下,驗證資料質量和出處對於機器學習模型的質量也至關重要。Rochwerger和Pang警告說:“在企業中,發現分散在不同部門的整個資料庫中的資料而沒有任何有關它來自何處或如何到達那裡的任何文件,這在企業中是非常普遍的,” Rochwerger和Pang警告說。

“隨著資料從收集到資料庫的那一刻開始出現,很可能已經以一種有意義的方式對其進行了更改或操縱。如果您對正在使用的資料如何到達那裡進行假設,那麼最終可能會產生一個無用的模型。”

維護機器學習模型

機器學習模型是一種預測機器 ,可以從世界上獲得的資料中查詢模式,並根據當前的觀察結果預測未來的結果。隨著我們周圍世界的變化,資料模式也會發生變化,並且根據過去的資料訓練的模型會逐漸衰減。

“ AI並不是一種“設定即忘了”的系統,無需人工干預就能不斷創造出結果。它需要不斷的維護,管理和過程校正,才能繼續提供有意義的期望輸出。” Rochwerger和Pang在《

Real World AI

》中寫道

一個明顯的例子是covid-19大流行,該大流行引起了全球範圍內的封鎖,並改變了許多生活習慣,從而破壞了許多機器學習模型。例如,隨著購物從實體店轉變為線上商店,用於供應鏈管理和銷售預測的機器學習模型已過時,需要重新培訓。

因此,任何成功的機器學習策略的關鍵部分是確保您具有基礎結構和流程來收集連續的新資料流並更新模型。如果您使用的是監督式機器學習模型,則還必須弄清楚如何標記新資料。在某些情況下,您可以透過提供工具來執行此操作,該工具允許使用者提供有關機器學習模型所做的預測的反饋。在其他情況下,則需要手動標記新資料。

“不要忘記為正在進行的模型培訓分配資源。模型必須不斷地訓練,否則隨著時間的推移,模型將變得不那麼精確,” Rochwerger和Pang寫道。

聚集合適的團隊

在應用機器學習中,您的模型將影響人們的工作和生活(以及公司的底線)。這就是為什麼一個孤立的資料科學家團隊很少實施成功的機器學習策略的原因。

“僅透過模型即可解決的業務問題非常罕見。大多數問題是多方面的,需要各種各樣的技能-資料管道,基礎架構,UX,業務風險分析。” Rochwerger和Pang在

Real World AI中

寫道。“換句話說,機器學習僅在將其整合到業務流程,客戶體驗或產品中並真正釋出後才有用。”

應用機器學習需要一個跨職能的團隊,其中包括來自不同學科和背景的人員。並非所有這些都是技術性的。

主題專家將需要驗證訓練資料的準確性和模型推論的可靠性。產品經理將需要為機器學習策略建立業務目標和期望的結果。使用者研究人員將透過與系統終端使用者的訪談和反饋,幫助驗證模型的效能。道德團隊將需要確定機器學習模型可能造成有害危害的敏感區域。

Rochwerger和Pang寫道:“成功的AI解決方案的非技術成分與建立模型所需的純技術技能同樣重要,甚至更為重要。”

應用機器學習還需要除資料科學技能之外的技術支援。軟體工程師將必須幫助將模型整合到組織正在使用的其他軟體中。資料工程師將需要建立在培訓和維護期間為模型提供資料的資料基礎架構和管道。而且IT團隊將需要提供訓練,服務機器學習模型所需的計算,網路和儲存資源。

“即使有了出色的業務策略,明確表達的具體問題和強大的團隊,如果沒有訪問攝取,儲存和移動每個資料集所需的資料,工具和基礎架構,也無法取得成功。並在適當的位置進行操作,” Rochwerger和Pang寫道。

制定正確的機器學習策略

這些只是您在應用機器學習中將面臨的一些關鍵挑戰。您仍然需要更多元素來使您的機器學習策略有效。Rochwerger和Pang在他們的書中討論了試點計劃,“構建與購買”困境,應對生產挑戰,安全和隱私問題以及應用機器學習的道德挑戰。他們提供了許多真實的示例,這些示例顯示瞭如何正確地做事並避免破壞機器學習的主動性。