2020年6月30日 星期二

人工智慧竟能把有碼變無碼?打馬賽克沒路用了!

人工智慧再升級!竟化馬賽克為無形,超高還原度,連細小皺紋都無所遁形!
人工智慧再升級!竟化馬賽克為無形,超高還原度,連細小皺紋都無所遁形!
AI「PULSE」將馬賽克圖片生成高清肖像的動畫 ▲ AI 技術 「PULSE」 可將模糊的馬賽克照片轉換成看起來像真人的高解析度肖像。 該系統能自動將任何圖像解析度提高到64倍,並模擬毛孔、睫毛位置與形狀等在原圖無法辨識的細節。
人工智慧用在「有碼變無碼」已有非常多的研究成果,例如之前 Google Brain 發表了透過機器學習消除馬賽克、提高像素的技術。而最近, 人工智慧 去除馬賽克的技術又有了新的突破!

近日杜克大學的研究發展人員開發了一種 人工智慧 影像還原工具,可將模糊到無法辨識的人像轉化為令人信服的高清圖片,而解析度與細節的表現可說是史上最強!

以往的技術,可將圖像的解析度提高至八倍。但是杜克大學的研究團隊想出了一種人工智慧的解決方法:只需要少少像素的模糊照片,就能創造出解析度高達 64 倍逼真的高清肖像,原圖看不到的細紋、睫毛以及鬍渣等細節都一覽無遺!

「過去從未能在這樣的解析度(指原圖的低解析度)上,生成如此高清、如此多細節的圖片!」此次研究團隊的領導人──杜克大學的電腦科學家 Cynthia Rudin 說。

不過這個系統仍然無法用做人物辨識,研究團隊說:它無法將監視器拍到的失焦或是無法識別的照片變成真實、清晰的圖像。相反地,它可以生成不存在、但看起來真實的新面孔。

「研究員們專注於將這些面孔作為新的概念,但理論上,該技術可在拍攝幾乎所有物體的低解析度照片後,製作出清晰逼真的圖像。應用範圍涵蓋醫學,顯微鏡,天文學和衛星圖像。」 研究團隊的 Sachit Menon 說。

▲ 人工智慧「PULSE」能還原眼、口、鼻等部位都難以辨識的馬賽克圖片,並將原圖的解析度拉高至 60 倍!

傳統的影像修復方式為擷取低解析度的圖像後,將它與電腦之前看到的高解析度圖像的對應像素,試著撮合、匹配、平均化,藉此來補足像素。

這種「平均化」的結果是,頭髮和皮膚中的紋理區域可能無法從一個像素到另一個像素完美對齊,最終看起來模糊且朦朧。

杜克大學的團隊就不使用這種「在低解析度的照片上慢慢加新的細節」的方式。他們研發的系統 「PULSE」 會在人工智慧生成的高解析度率臉孔範例中,盡可能找到最像的──在範例臉孔縮放到相同尺寸時,看起來像輸入的原圖的人臉。

團隊使用一種機器學習的工具「生成對抗網絡(英語:Generative Adversarial Network,簡稱GAN)」,方法是使用相同的照片組訓練兩條神經網路。其中一條神經網路產生了人工智慧創建的人臉──其外觀是模擬訓練照片上的臉孔;而另一條網絡則用於判斷第一條生成的結果,是真實的人像還是虛擬人物。第一條網路不斷生成人臉,直到越來越逼真,以至於第二條誤認成是真實的人像為止。

PULSE 可將模糊不清、充滿雜訊或是馬賽克化的圖片,生成高擬真的照片。從一張模糊的肖像中,它可以生成許多令人難以置信、栩栩如生的照片,每張照片都不一樣,都是 PULSE 判斷模糊照片中的人物可能的真實樣貌。

即使是給眼睛與嘴巴幾乎看不到的馬賽克照片,「我們的演算法仍然可以用它來生成一些照片,而這是傳統方法無法做到的。」團隊中的 Alex Damian 說。

▲ PULSE 的 5 位研發成員將自己的照片「馬賽克化」後,「餵」給 PULSE 來還原照片。雖然 PULSE 合成的高清肖像與原本的有點出路,但是相似度已比過往的解碼方法還高,解析度更是高出許多。

該系統能在短短幾秒內,將 16x16 像素的肖像轉換成 1024 x 1024 像素,增加了超過一百萬的像素,幾乎等同於 HD (High Definition) 高畫質的解析水準。諸如像是毛孔、皺紋、髮絲等低解析照片無法察覺的細節,都在人工智慧生成的照片中,變得銳利清晰。

研究團隊還請了 40 個人,對經由 PULSE 以及其他四種方法 (LR、BICUBIC、FSRNET、FSRGAN) 生成的 1440 張圖像,進行 1 到 5 的評分。結果是由 PULSE 生成的照片分數最高,得到了「幾乎與真人的高解析度照片一樣」的評價。

你也可以上載你的圖像,看看會被 PULSE 生成哪些驚人的結果:http://pulse.cs.duke.edu/.

相關文章:

線上職訓正夯 從零開始花半年錄取軟體工程師

Python vs R語言:哪個比較適合人工智慧/機器學習?

台灣本土開發AI 發行首張音樂專輯<<武漢肺炎>>

六個月從工地工人轉職 Java 軟體工程師,全因半年做了「對的決定」

人工智慧釀酒竟更勝人類?(上)

人工智慧讓你做好最佳防疫不越界!

人工智慧連重機賽車冠軍車手的飯碗都要搶!?  

2020年6月29日 星期一

有了人工智慧再無視線盲區,開車免煩惱!

人工智慧讓你的汽車安全升級,不再有駕駛盲區!
人工智慧讓你的汽車安全升級,不再有駕駛盲區!


普林斯敦大學的研發團隊將人工智慧和運用在追踪超速駕駛的雷達結合,研究發展一種系統,此系統可讓車輛發現街角轉彎處隱藏的危險,如下圖所示:


▲ 普林斯敦大學的研究團隊結合人工智慧雷達,開發出可使車輛發現轉角隱藏危機的系統


研究人員利用常用來追蹤超速駕駛和快速直球的測速雷達,結合人工智慧技術,開發了一種自動化系統:可讓汽車在街角轉彎處監視四周環境、發現迎面而來的車輛、行人。

這個系統易於整合到汽車上,使用都卜勒雷達(註:Doppler radar,一種雷達,可利用都卜勒效應,測量物體在雷達波方向上的徑向運動速度,常用於氣象觀測與測速。)將無線電波從建築物、車體的表面反射回去。

雷達訊號會以特定的角度,照射到物體表面後反射回去,就像是撞球的白色母球撞擊到球台壁後反彈回去一樣。雷達訊號會持續照射藏在街角轉彎處的物體,然後反射回來的訊號會被車上安裝的探測器偵測到,使系統能看到轉角的物體,並且判斷它是在移動還是靜止。

「這將使汽車偵測到今日許多光學雷達 (lidar) 與相機的感光元件無法記錄到的被遮蔽物,例如,讓一台自駕車在十字路口上環顧四周的危險物體,」普林斯頓大學的電腦科學助理教授、也是此次研究人員之一的 Felix Heide 說:「雷達感應器的成本也相對較低,尤其是與光
學感應器相比,而且也可以量產。」

研究人員在 6 月 16 日的電腦視覺與模式識別(CVPR)會議上發表了一篇論文,提到這個系統如何分辨汽車、自行車以及行人,並判斷他們的方向以及迎面而來的速度:「我們提出的方法能在現實世界的自駕情境中,在視線感應器偵測到他們以先,就為行人以及騎自行車的人預先發出碰撞警示。 」

近年來工程師們已開發出許多能讓車子偵測到路上異物的感應系統,但其中有許多都是靠著光學雷達、可見光或是近紅外光的相機,這種防止碰撞的感應器在現代的汽車中很常見。但是光學感應很難發現到汽車視線之外的物體。在早些的研究中,Heide 的研究團隊曾使用光照來看見藏在角落的物體,但卻很難應用到汽車上,因為需要高功率的雷射且僅限於近距離使用。


近年來工程師們已開發出許多能讓車子偵測到路上異物的感應系統,但其中有許多都是靠著光學雷達、可見光或是近紅外光的相機,這種防止碰撞的感應器在現代的汽車中很常見。但是光學感應很難發現到汽車視線之外的物體。在早些的研究中,Heide 的研究團隊曾使用光照來看見藏在角落的物體,但卻很難應用到汽車上,因為需要高功率的雷射且僅限於近距離使用。

在過去的 人工智慧 研究中,Heide 及團隊人員想知道是否有可能創建一個系統,使用成像雷達而不是可見光,來檢測汽車事件之外的危險。對於雷達系統,在平滑表面上所耗損的信號是少得多了,且雷達是被證實可以用來追蹤物體的科技。他們所面臨的挑戰是,當雷達用於拍攝轉角處的汽車與自行車等物體時,其空間分辨率相對較低。然而,團隊相信他們可以開發出演算法來解譯雷達數據,以讓感測器發揮功效。

「我們開發的演算法很有效、並適合當代的汽車硬體系統」Heidi 說:「所以你可能會看到這項科技出現在下一代的汽車上。」
為了讓這個系統能分辨物體,Heide 的團隊處理了部分雷達信號,亦即能將背景噪音視為非可用信息的一般雷達。團隊應用了人工智慧技術來優化處理程序以及讀取影像。論文作者之一的 Fangyin Wei 表示:運行該系統的電腦,必須學會從非常少量的數據中,識別出騎自行車的人和行人。

她說:「首先,我們必須要偵測是否有物體。如果有的話,那他是否重要?是否為騎單車的人或是行人?接下來,我們就要將其定位出來。」 Wei 還表示:該系統目前能夠檢測到行人和騎自行車的人,工程師們都認為他們是最具有挑戰性的物體。因為他們的尺寸小、形狀不一、動作多樣。當然,該系統也能偵測到汽車。

Heidi 說,研究人員計劃在雷達和信號處理改善等多種應用上,進行研究。他說這個系統擁有完全改善汽車安全的潛力,且它是靠著現有的雷達傳感器技術就可做到,因此下一代汽車可望能部署雷達系統。

「這肯定會經歷到非常嚴峻的汽車開發週期」他說:「就整合與推向市場而言,它需要大量的工程與設計。但是 人工智慧 技術已經就緒,因此我們可能很快就會在汽車上見到這樣的景況。」
推薦閱讀:AI 自駕車不只有特斯拉!9 個人工智慧帶來的汽車產業革新

相關文章:

線上職訓正夯 從零開始花半年錄取軟體工程師

Python vs R語言:哪個比較適合人工智慧/機器學習?

台灣本土開發AI 發行首張音樂專輯<<武漢肺炎>>

六個月從工地工人轉職 Java 軟體工程師,全因半年做了「對的決定」

人工智慧釀的威士忌奪金牌!(上)

人工智慧最新技術,讓你做好社交距離不越界!

讓重機賽車冠軍車手都自嘆不如的人工智慧!

2020年6月24日 星期三

達內教育線上職訓,從零到軟體工程師,半年達成不是夢!

達內教育響應防疫新生活,線上課程正夯!讓你在家安心學,效果不打折!
達內教育響應防疫新生活,線上課程正夯!讓你在家安心學,效果不打折!

新冠肺炎全球蔓延,拉開了人與人之間的距離,但是也有不少新興行業應運而生,或是早已看準時代潮流,提前推出符合產業發展與當代互動模式的產品,如各種主打科技教育的線上課程的公司。其中「達內教育」打出「結業即就業」招牌,以精實的AI人工智慧、大數據等課程,力求讓完全沒有基礎的學員,也能在6個月後當上工程師。

大膽宣稱能將零基礎學員培訓到面試就業、風格在業界獨樹一格的 達內教育 ,除教學外還做免費的就業媒合服務,吸引許多零基礎、零經驗的待業者與轉職者報名。達內教育教學總監呂紹榮說,「結業即就業」正是 達內教育 的品牌使命,課程絕非短短幾十個小時的速成班,而是依照科別差異,總授課時數約在300~400小時之間,平均約半年可學完。

達內教育教學總監呂紹榮老師
呂老師指出,相較於實體授課,線上課程的特色就是時間比較彈性,但達內教育的授課時數又特別長,完全是職訓班規模。而且達內的特色就是結合線上與實體兩種介面的優勢,除了有線上課程可看,在中心還有真人輔導老師隨時待命、隨時回答學員提問。在中心也提供大型教室,如果學員遇到困難,甚至還可預約老師一對一教學,保證教到會。線上與實體搭配,構築「隨時隨地隨看隨問」的完整課程。 

目前達內教育最熱門的課程是應用層面很廣,可做機器學習、大數據分析、網路爬蟲等等的 Python 。呂老師說, Python 在達內的培訓方式很紮實,遠非坊間補習班或學院內的入門培訓可比,學完可以直接到業界工作。此外Java也是達內教育的熱門課程,可讓零基礎學員,半年後擁有獨立架設電商購物網站能力。 

除了Java、Python 之外,包括網站前端開發、Unity 遊戲設計、UI/UX 介面設計以及網路數位行銷,也都是達內教室精心設計的招牌課程。數位行銷又分成兩塊:Google 關鍵字廣告以及 SEO 搜尋引擎最佳化課程。比如就算沒有一技之長,只是喜愛玩遊戲,也可以在學 Unity 遊戲設計課程後,於結業時可以獨立做出完整的 RPG 手機遊戲。 

目前達內教育的學員人數不斷成長當中,在新冠疫情期間,還有學員因不想到補習班人擠人,特地諮詢報名達內的課程,而輔導老師在該段期間,也曾透過遠端連線學員的家中電腦,親自操作解題。
達內教育的即時解題老師群
呂老師認為,線上課程一定是趨勢,若觀察坊間的各大補習班、學校等教育機構,會發現線上課程一直都在蓬勃發展,加上受到疫情的關係,各大專院校、中小學都開始採用視訊教學。而由於達內進行視訊教學已有一段時日,疫情來襲時,很快能掌握線上課程會面臨哪些情況,就能維持原本的服務,並新增了電話解題的服務,學員一有疑問,可立即通電話。
達內教育的教學輔導團隊
以職訓為導向的達內,會訓練所有學員在結業時獨立完成專案作品,輔導老師甚至會協助檢視履歷、模擬面試、就業媒合,務求讓學員結業即就業,而負責就業媒合服務的人員也有就業輔導員證照。此外,達內還有定期舉辦高階技術研討會、總監日、實作班等面授活動,比如當紅的「口罩地圖」是如何製作,就曾在總監日互動研討。 

目前達內教育所有的學員中,有3成是全力投入學習的待業者,有4成是在職中精進豐富所學,還有3成學員純粹出於興趣。這家每半年到一年就更新一次教材、與業界最新技術同步的線上課程公司,提供創業轉職或純粹追求自我的一種進修選擇。 

相關文章: 

線上職訓正夯 從零開始花半年錄取軟體工程師 

Python vs R語言:哪個比較適合人工智慧/機器學習? 

台灣本土開發AI 發行首張音樂專輯<<武漢肺炎>> 

AI 人工智慧、ML 機器學習、深度學習、

Python 是什麼? 人工智慧釀酒竟更勝人類?(上)

Python脫穎而出,成為行銷人大推的首選程式語言! (上) 

AI人工智慧與欺騙AI的駭客大PK(上)

2020年6月23日 星期二

人工智慧”雅婷”也能是音樂家!它竟了推出了一張專輯!

人工智慧也關心疫情!它推出了台灣史上第一張全由人工智慧創作的專輯!

人工智慧也關心疫情!它推出了台灣史上第一張全由人工智慧創作的專輯!

新冠病毒疫情嚴重打擊全球經濟與人們生活,幸而有成熟的科技,讓各國得以運用 人工智慧 的技術來監控病情,並使用它來幫助疫苗研發等相關醫療用途。 

除此之外,還有許多處於疫情之下開發的 人工智慧技術,有的為大家舒緩緊張的情緒;有的則替大家的社交距離把關。這些人工智慧 技術的創新、突破與拓展,為這艱困的時期為人們帶來一絲光亮。

從歌名、譜曲到封面 台灣 人工智慧 創作出一整張專輯

人工智慧 生成的作品,到底是不是真正的創作?這是個見仁見智的問題。 

但可以知道的是,越來越多文化藝術機構、個人藝術家開始擁抱 人工智慧,特別是疫情之下,急需要藝文撫慰人們心理、穩定不安情緒。

 由 PTT 創辦人杜奕瑾領軍的「Taiwan AI Labs台灣人工智慧實驗室」,正是在疫情之時推出台灣第一張全 人工智慧 生成的音樂專輯《武漢肺炎》。

 這個 人工智慧 有個非常台灣味的名字,名叫「雅婷」。杜奕瑾表示,因為她是土生土長、從 PTT 鄉民語言學習語言模型的台灣 人工智慧 ,故選了這個台灣最通俗的名字。  

▲ 土生土長的台灣 AI 雅婷,是此次專輯的「鋼琴師」。  
推薦閱讀:記者、業務、會議紀錄的救星-台灣本土 AI 語音辨識 「雅婷逐字稿」
「雅婷」應用同樣由 Taiwan AI Labs 開發的深度學習模型「Pop Music Transformer」聽了上百首熱門鋼琴音樂後,對和弦、旋律、音調、配器等各種層面進行機器學習,最後創作出了九首曲子。

音樂由 人工智慧全自動生成,完全不需要人工輸入任何和弦進程。而且,不需要後期處理步驟來完善所生成的音樂。該模型學習自動生成富有表現力和連貫性的音樂。

▲ 《武漢肺炎》專輯共九首曲子,是台灣有史以來第一張全部 AI 生成的音樂專輯。。   

細看樂曲名稱,可以發現每一首曲名各自展現了疫情的不同面向,同時也依然和疫情息息相關。 

Taiwan AI Labs 表示,這些歌曲名稱來自「島民衛星」,是同為 Taiwan AI Labs 所開發之新聞資訊平台,觀測 18 家電子媒體全類別新聞報導。島民衛星團隊抓取疫情中台灣媒體最常使用的詞彙,再將這些詞彙排序使用,一個歷歷在目的疫情發展史便躍然眼前。

 最後是曲目的封面,同樣是 人工智慧 雅婷創作而成。除了專輯封面與〈COVID19(武漢肺炎)〉的圖片,是由實驗室醫療組提供的病毒基因與藥物分子合成的模擬圖生成之外,另外 8 首歌曲的圖片,是雅婷學習分析了大量藝術作品後的「創作」成果。

▲ 專輯即日起可在KKBOX上點擊聆聽。截圖自KKBOX。

專輯上架到 KKBOX 後,Taiwan AI Labs 也邀請社會大眾聆聽,並表示團隊會將 KKBOX 點擊聆聽次數的分潤再加碼 2 倍,捐給第一線醫療機構。
推薦閱讀:台灣研發AI走進加護病房 預測敗血症準確率達八成五
相關文章:

線上職訓正夯 從零開始花半年錄取軟體工程師

Python vs R語言:哪個比較適合人工智慧/機器學習?

台灣本土開發AI 發行首張音樂專輯<<武漢肺炎>>

AI 人工智慧、ML 機器學習、深度學習、Python 是什麼?

人工智慧釀酒竟更勝人類?(上)

Python脫穎而出,成為行銷人大推的首選程式語言! (上)

AI人工智慧與欺騙AI的駭客大PK(上)    

2020年6月22日 星期一

人工智慧讓你做好最佳防疫不越界!

人工智慧啟動防疫新生活,能夠自動檢測社交距離!
人工智慧啟動防疫新生活,能夠自動檢測社交距離!
AI 大神」吳恩達旗下公司 Landing AI 開發的「社交距離檢測工具」,則是另一項與疫情有密切關係的人工智慧 。 

為了幫助疫情期間依然得工作、但因某些原因非得外出的民眾以及為了阻止疾病蔓延,Landing AI 開發了最新 AI 工具確保大家能維持社交距離,該工具透過攝影機拍攝的即時影像,並同步分析檢測在公共空間的人們是否處於安全距離。

 這款 AI 工具會偵測所有經過空間的行人,並在每個人身上畫出一個綠色方框,當有人靠得太近,框框就會變成紅色,在靠得太近的兩人之間畫出紅線,並發出警訊,提醒人們遵守安全距離規定。
 

▲ 影片中可以看到探測器偵測每個行人,距離過近就會被標上紅框   

根據Landing AI 公開的演示, 人工智慧 運作需要經過「校正、檢測、測量」三個步驟。

第一步「校正」為將透視圖轉換為俯視圖。最簡單的標定方法是在透視圖中選擇四個點,將其映射到俯視圖中矩形的角上。


▲左邊為原始透視圖,覆蓋著校正網格;右邊是鳥瞰圖,街道兩邊完全平行於綠色網格。圖片為 Landing AI 官網示意圖。   

第二步「檢測」,為將檢測到的行人應用於透視圖上,在每個行人周圍繪製邊框。為了簡潔化,團隊使用基於 Faster R-CNN 的開源行人檢測網絡。為了清理輸出的邊框,團隊使用最小化後處理,如非極大值抑制(NMS)和各種基於規則的啓發式算法,並選擇基於現實假設的規則,減少過度擬合的風險。


▲ 《武漢肺炎》專輯共九首曲子,是台灣有史以來第一張全部 AI 生成的音樂專輯。。   

第三步「測量」,給定每個人的邊框。由於在「校正」那一步輸出針對地面的變換,需要將所述變換應用到每個區域的底部中心點,從而得到他們在俯視圖中的位置。

▲距離過近的人們除了顯示紅框外,也會多顯示出一條線以強調。   

最後測量出人與人之間的距離,並根據校正估算出的係數縮放距離。用紅色方框標注出安全距離以內的人們,並在兩者之間畫一條線來強調。 

即使 Landing AI 強調使用使用這款工具應該公開透明,必須事先取得被監控人的同意,同時也稱該系統不會辨識個人身分。

但依然有不少評論顯示出對影像監控工具的擔憂。有的評論表示,若是在工作場域,即使員工不同意老闆使用這款工具也很難提出反對。 但 Landing AI 的初衷是為了在疫苗研發出來之前,盡可能透過保持社交距離來抑制疫情的蔓延,而 人工智慧 對影像分析與追蹤技術的發展助益,無疑為未來的公衛領域拓展出新的可能,在考量隱私和個人權利問題時,也要正視科技增進了全體人類的福祉,以免因噎廢食。
推薦閱讀:【AI在瘟疫蔓延時】台灣 AI「雅婷」化身音樂家 發表首張專輯「武漢肺炎」
 相關文章:

線上職訓正夯 從零開始花半年錄取軟體工程師

Python vs R語言:哪個比較適合人工智慧/機器學習?

台灣本土開發AI 發行首張音樂專輯<<武漢肺炎>>

AI 人工智慧、ML 機器學習、深度學習、Python 是什麼?

人工智慧釀酒竟更勝人類?(上)

Python脫穎而出,成為行銷人大推的首選程式語言! (上)

AI人工智慧與欺騙AI的駭客大PK(上)    

2020年6月18日 星期四

機器學習懶人包,讓你知道為何Python就是不二選擇!(下)

為何Python是機器學習的首選?懶人包10種演算法圖解,讓你一次看懂!
為何Python是機器學習的首選?懶人包10種演算法圖解,讓你一次看懂!

二、非監督式學習

1. 隨機森林(Random Forest)

隨機森林可以視為決策樹的延伸,可以把隨機森林當作是多個決策樹組合而成,並加入隨機分配的訓練資料,以大幅增進最終的運算結果。其想法就是結合多個「弱學習器」(即決策樹)來建構一個「強學習器」模型。這種方法被稱為「集成」(Ensemble Method)。同時也能降低單個決策樹出錯的風險。
▲ 決策樹演算法示意圖   例如創立一個隨機森林模型預測數值,只有第三個決策樹預測為 0,可是假設整合所有決策樹的結果,將會判斷出預測值是為 1。 隨機森林的優點是可以處理大量的輸入變數,同ㄧ時間可以計算各例子中的親近度,對於資料探勘、偵測離群點和將資料視覺化很有用。

2. 聚類分析(Cluster analysis)

聚類分析是統計資料分析的技術,後來在如機器學習等領域受到廣泛應用。「聚類」是把相似的物件通過靜態分類,分成不同的組別或子集(subset)。聚類有很多種方法,常見的如 K-means、層次聚類(Hierarchical clustering)、譜聚類(Spectral Clustering)等等。
▲ 「聚類」是把相似的物件通過靜態分類,分成不同的組別或子集 (圖片來源: geeksforgeeks.org)   聚類時,需要實現的目標只是要把相似的東西聚到一起,一個聚類算法只需要知道如何計算相似度就可以開始分類,因此聚類算法並不需要使用訓練資料進行學習。

3. 主成分分析(Principal Component Analysis,PCA)

主成分分析 PCA 是一個在機器學習與統計學領域中被廣泛用來分析資料、降低數據維度以及去關聯的線性降維方法。降維(Dimension reduction)是當資料維度數(變數)很多的時候,嘗試讓維度數(變數)少一點,但資料特性不會差太多的方法。 機器學習使用 PCA 達到降維的目的,主要是為了避免「維數災難」,或稱「維度詛咒」,指當維度增加時,分析和組織高維空間因體積指數增加而遇到各種問題:在機器學習問題中,模型預測能力會隨著維度的增加而減小。

4. 奇異值分解(Singular Value Decomposition,SVD)

奇異值分解 SVD 是線性代數中一種重要的矩陣分解,不光可以用於降維演算法中的特徵分解,還可以用於推薦系統以及自然語言處理等領域。
▲ 實數 2×2 矩陣 M 的奇異值分解 UΣV * 的圖示。(圖片來源:圖片來自 Wikipedia)   SVD 矩陣是一個複雜的實復負數矩陣,給定一個 m 行、n 列的矩陣 M,則 M 矩陣可以分解為 M = UΣV。U 和 V 是么正矩陣(unitary matrix),Σ 為對角陣。 SVD 在某些時候可以做為簡化版的 PCA 利用。PCA 演算法可以不用做特徵分解,而是做 SVD 來完成,在樣本量很大的時候很有效。實際上 Python 的免費機器學習庫「scikit-learn」的 PCA 演算法的背後真正的實現就是用 SVD。

獨立成分分析(Independent components analysis,ICA)

ICA 是一種利用統計原理進行計算的方法。前面在主成分分析(PCA)時談到「降維」的方法,但對符合高斯分佈的樣本點比較有效,那麼對於其他分佈的樣本,則是適合用「主元分解」的 ICA。 ICA 會假設現有資料其實是多個彼此獨立的資料、經過混合後成為現有資料,因此期望能夠從手中的資料,回推出是哪些獨立的分配。例如 ICA 的經典問題「雞尾酒會問題」(cocktail party problem):描述給定混合信號,如何分離出雞尾酒會中同時說話的每個人的獨立信號。
▲ ICA 的經典問題「雞尾酒會問題」示意圖:目的是從混合信號 Mixture1 和 Mixture2 中恢復成每個人的獨立信號 Person1和Person2。(圖片來源:vocal.com)   ICA 是研究盲信號分離(blind signal separation)的一個重要方法,並且在實際中也有很多應用。

為何使用 Python 學機器學習、而不是 R 語言?

介紹完當今應用最廣泛、最熱門的幾大機器學習演算法,可以看出從數據分析、統計分析到模型驗證等等都應用在其中。 Python 簡潔易學,原本就適合作為第一個入門的程式語言,而透過如 scikit-learn 的 Python 機器學習套件,在 Python 中提供大量常見的機器學習演算法和許多實用的函式庫,亦能呈現該演算法資料輸出的型態,相當方便。 當然 Python 和 R 語言不是互斥,許多工程師也是在兩者之間切換,但是有鑑於 Python 是當今的通用語言,除了AI人工智慧領域外也可以廣泛應用在各種領域,其免費及開源的特性, 有許多支持 Python 的輔助工具、大型模組與函式庫,可以簡單上手數據分析或複雜的程式計算,以及能與幾乎所有現代作業系統兼容等的特點,讓它脫穎而出。 以投資報酬率而言,若是要從頭開始選擇一種程式語言學習,Python 絕對是最佳的選擇。
推薦閱讀:Python vs R語言:哪個比較適合人工智慧/機器學習?  
本篇為下篇,上篇請點此連結

相關文章:

何使用人工智慧工具,活用 Python 簡化繁瑣的行銷工作?

六個月從工地工人轉職 Java 軟體工程師,全因半年做了「對的決定」

Python vs R語言:哪個比較適合人工智慧/機器學習?

台灣本土開發AI 發行首張音樂專輯<<武漢肺炎>>

零基礎入門Python學習指南

Python零基礎如何迅速功力倍增的24個建議

保護環境需仰賴效率比人類快 3000 倍的AI(上)

2020年6月17日 星期三

機器學習懶人包,讓你知道為何Python就是不二選擇!(上)

機器學習為什麼Python就是首選?簡易圖解懶人包讓你一次看懂!
機器學習為什麼Python就是首選?簡易圖解懶人包讓你一次看懂!
隨著人工智慧的深入發展,沒有學習能力的 AI 侷限性越發明顯,為了突破這個瓶頸,「機器學習」逐漸成為 AI 領域的研究核心之一,也發展出各種機器學習的演算法。 現今有哪一些最夯的算法?各自有什麼特點?這次就要來介紹常用的機器學習演算法,並且告訴你為何機器學習語言要首選 Python機器學習演算法大致上可以分為三類:監督式學習(Supervised learning)、非監督式學習(Unsupervised learning)與強化式學習(Reinforcement learning)。 本次將著重介紹「監督式學習」與「非監督式學習」的演算法。

一、監督式學習

監督學習算法可以分成兩個大方向:分類和迴歸。

1. 線性迴歸(Linear Regression)

▲ 線性回歸的視覺化,平面內有一系列點,尋找出一條最能擬合資料趨勢分布的線用來預測新的資料出現的位置   線性回歸源自於統計學的方法,通過一個或多個自變量與因變量進行建模的回歸分析。視覺化後如上圖,平面內有一系列點,尋找出一條最能擬合資料趨勢分布的線,也能用來預測新的資料出現的位置,就叫線性回歸。 在線性回歸中,數據使用線性預測函數來建模,並且未知的模型參數也是通過數據來估計,簡單的線性回歸公式為:
▲ 簡單的線性回歸公式   y 是因變量(y)對自變量(x)任何給定值的預測值;B0 是截距,即 x 為 0 時 y 的預測值;B1 是回歸係數–表示期望 y 隨著 x 的增加而改變多少;x 是自變量(期望的變量影響 y);e 是估計值的誤差,或表示回歸係數估計值有多少變化。

2. 邏輯回歸(Logistic Regression)

邏輯回歸延伸自線性回歸,是一個二元分類算法,透過選取不同的特徵與權重來對樣本進行機率分類。 邏輯回歸會使用某種函數將機率值壓縮到某一特定範圍,如 Sigmoid 函數。S 函數是一種具有 S 形曲線、用於二分類的函數。
▲ 邏輯分布函數圖像(圖片來源:Wikipedia)   邏輯回歸的輸出變量是離散型(Discrete),而「回歸」輸出變量為連續值。所以實際上雖然叫「邏輯回歸」,但它屬於「分類型」算法,而非「回歸型」算法。

3. 支援向量機(Support Vector Machine,SVM)

支援向量機 SVM 同樣是一個二元分類算法,它可以在 N 維空間找到一個 (N-1) 維的超平面,以使兩類數據之間的餘量最大化。這個超平面可以使兩個類別之間的邊距或距離最大化,平面內如果存在線性可分的兩類點,SVM 可以找到一條最適直線將這些點分開。 除了進行線性分類之外,SVM 還可以使用核技巧(kernal trick)進行非線性分類,將其輸入隱式對映到高維特徵空間中。
▲ 散點圖展示了線性支援向量機核函式的決策邊界(虛線)(圖片來源:Wikipedia)   SVM 的應用範圍很廣,如文字和超文字的分類、大規模圖像識別與分類、手寫字型的辨識等等。

4. 樸素貝葉斯分類器(Naive Bayes classifier)

「貝葉斯推斷」延伸自貝葉斯理論,是描述在擁有部分已知條件下,某事件的發生機率。 而在 Python 機器學習中,樸素貝葉斯分類器是以假設「特徵之間是獨立的、不相互影響的」的簡單機率分類器,可以直接利用條件機率相乘的方法,計算出聯合機率分布。 貝葉斯公式為:
▲ 貝葉斯公式   也可以表示為:
▲ 貝葉斯公式   posterior:通過樣本 X 得到參數 θ 的機率,稱為後驗機率。 likehood:通過參數 θ 得到樣本 X 的機率,即似然函數。通常為數據集的表現。 prior:該樣本 θ 機率,稱為先驗機率。 evidence:樣本 X 發生的機率,即為要預測的值。 即使一般現實世界的資料通常無法滿足貝葉斯理論的假設,但樸素貝葉斯分類器卻是相當實用,因其簡單高效,而辨識效能也不輸許多算法繁複的分類器。貝葉斯模型的應用範圍非常廣泛,大數據、機器學習、資料採擷、資料分析等領域都會見到。

5. 決策樹(Decision Tree)

決策樹原先作為決策分析中的方法,指的是每個決策都可能引出複數的事件,最後通向不同結果,視覺化後的圖形很像樹的枝幹,故稱決策樹。 而在機器學習中,決策樹是一種用來處理分類問題的樹狀結構,每個內部節點表示一個評估欄位,而每個分枝代表一個可能的欄位輸出結果,每個則葉節點代表不同分類的類別標記。
▲ 決策樹演算法示意圖   ID3、C4.5 、C5.0、CHAID 及 CART 都是決策樹演算法的代表。 決策樹的主要功能,是藉由分類已知的實例來建立一個樹狀結構,並從中歸納出實例裡、類別欄位與其它欄位間的隱藏規則,也能利用來做樣本的預測,同時決策樹產生的模型也具有易於解釋的優點。

本篇為上篇,下篇請點此連結

相關文章:

何使用人工智慧工具,活用 Python 簡化繁瑣的行銷工作?

六個月從工地工人轉職 Java 軟體工程師,全因半年做了「對的決定」

Python vs R語言:哪個比較適合人工智慧/機器學習?

台灣本土開發AI 發行首張音樂專輯<<武漢肺炎>>

零基礎入門Python學習指南

Python零基礎如何迅速功力倍增的24個建議

保護環境需仰賴效率比人類快 3000 倍的AI(上)