機器學習的概念最初是在20世紀50年代引入的,這是AI-時代的顯著特點。1950年,艾倫?圖靈發表了“計算機械與智能”論文,提出了一項著名的人工智能評估測試,我們明天稱之為圖靈測試。1959年,
Lee創造了“機器學習”這個術語。機器學習(ML)可以廣泛地定義為使用經驗來改進性能或進行確切預測的估算方式。我們將機器學習定義為對重要數據執行的一系列物理操作,以獲得有價值的看法。算法的研究是從實例和經驗學校習而不是硬編碼規則。一般,有三種主要類型的機器學習問題:監督,無人監督和加強。
?
監督的機器學習問題是我們想要依據一組示例進行預測的問題。
?
無監督的機器學習問題是我們的數據沒有一組定義的類別集合的問題,而是我們正在找尋機器學習算法來幫助我們組織數據。
這意味著,有監督的機器學習問題有一組我們想拿來預測未來的歷史數據點,無監督的機器學習問題有一組數據,我們正在找尋機器學習來幫助我們組織或理解。
?
加強包括系統必須完成的特定任務或目標。在整個過程中,它會收到反饋,便于了解所需的行為。諸如,系統在執行動作時遇見錯誤或則為實現最有利的結果而獲得獎勵。因而,該程序才能通過加強訊號學習最有效的方式。
盡管數據庫(KDD)中的數據挖掘和知識發覺雖然只能解決數據科學的主要問題,但機器學習可以增強數據科學的業務效率。ML技術可以大致分為四個不同的區域:分類,降維,關聯學習和數字預測。應用于文本的分類是文本分類的主題,其是從一組預定義的集合中手動將一組文檔分類為類別(或類或主題)的任務。文檔的直接分類用于信息檢索系統的文檔索引,文本過濾(包括避免電子電郵垃圾電郵),網頁分類和許多其他應用程序。依據具體應用機械效率的定義及簡單計算,分類也可用于文本的較小部份(段落,語句,詞組),喜歡文檔分割,主題跟蹤或詞組消歧。在機器學習方式中機械效率的定義及簡單計算,在應用于排序看不見的文本之前,預先對以前分類的標記數據訓練分類算法(分類器)。
可以在兩個層面上實現具有文本的降維技術的使用。通過辨識類似的集群來剖析文檔集合僅須要借助與文檔相像性測度相結合的已知降維算法。在文檔降維中可能會更具挑戰性,由于它須要預處理文本并將對象隔離到降維–句子,詞組或個別須要派生的構造。
關聯學習本質上是分類的概括,其致力捕獲數據集中的示例的任意特點(亦稱為屬性)之間的關系。從這個意義上講,分類僅捕獲指定類的一個特點的所有特點的關系。因為文檔表示的高維度,即相當多的特點(其中許多可能不是特別有用的信息),因而將關聯學習直接應用于文本是不可行的。借助從文本中提取的信息的關聯學習(比如,使用分類和/或降維)是一個不同的故事,可以形成許多有用的看法。
數字預測(在更廣泛的意義上亦稱為回歸)是分類的另一種概括,其中類特點不是離散的而是連續的。這些小的定義轉變造成分類和回歸算法的內部存在巨大差別。但是,通過將預測的數字特點界定為有限數目的間隔,每位回歸算法也可以用于分類。相反的情況一般是不可能的。同樣,與關聯學習一樣,對文本進行回歸的簡單應用并不是非常有用,不僅分類(非常是當須要一種信念測度時,這也可以通過大多數分類算法來實現)。
數據挖掘和十分流行的機器學習之間存在差別。但是,機器學習是關于創建算法以提取有價值的看法,它主要關注在動態變化的環境中的連續使用,并指出基于以前經驗的算法的調整,再訓練和更新。機器學習的目標是不斷適應新數據并發覺新數據或規則。有時它可以在沒有人為指導和明確重新編程的情況下實現。
因為近來的一些理論和技術突破,機器學習是現今數據科學中最蓬勃發展的領域。她們通過機器進行自然語言處理,圖象辨識甚至生成新圖像,音樂和文本。機器學習一直是建立人工智能的主要“工具”。
要在應用程序中使用機器學習甚至學習它,有兩種方式。首先,學習怎么使用充當黑袋子的庫,也就是說,它們提供不同的功能。其次,要學習怎么編撰算法和查找系數,擬合模型,找到優化點等等,便于按照您的要求企劃應用程序。并且,假如您只是想玩,這么有一些庫和應用程序編程插口可以幫助您完成工作。
企業正在使用機器學習技術來剖析顧客的訂購歷史,并為上次訂購提供個性化的產品推薦。這些捕獲,剖析和使用顧客數據以提供個性化購物體驗的能力是銷售和營銷的未來。
在交通運輸領域,按照旅行歷史和各類路線的旅行模式,機器學習可以幫助運輸公司預測個別路線上可能出現的潛在問題,并建議顧客選擇不同的路線。運輸公司和貨運公司正在逐漸使用機器學習技術進行數據剖析和數據建模,以作出明智的決策,并幫助顧客在旅行時作出明智的決策。