阿里媽媽造發布國內首個工業級的圖深度學習開源框架Euler

Submitted by neurta on Sun, 05/12/2019 - 13:34
http://github.com/alibaba/euler 1.1Euler的核心能力 1)大規模圖的分散式學習 工業界的圖往往具有數十億節點和數百億邊,有些場景甚至可以到數百億節點和數千億邊,在這樣規模的圖上單機訓練是不可行的。Euler支持圖分割和高效穩定的分散式訓練,可以輕鬆支撐數十億點、數百億邊的計算規模。 2)支持複雜異構圖的表徵 工業界的圖關係大都錯綜複雜,體現在節點異構、邊關係異構,另外節點和邊上可能有非常豐富的屬性,這使得一些常見的圖神經網路很難學到有效的表達。Euler在圖結構存儲和圖計算的抽象上均良好的支持異構點、異構邊類型的操作,並支持豐富的異構屬性,可以很容易的在圖學習演算法中進行異構圖的表徵學習。 3)圖學習與深度學習的結合 工業界有很多經典場景,例如搜索/推薦/廣告場景,傳統的深度學習方法有不錯效果,如何把圖學習和傳統方法結合起來,進一步提升模型能力是很值得探索的。Euler支持基於深度學習樣本的mini-batch訓練,把圖表徵直接輸入到深度學習網路中聯合訓練。 4)分層抽象與靈活擴展 Euler系統抽象為圖引擎層、圖操作運算元層、演算法實現層三個層次,可以快速地在高層擴展一個圖學習演算法。實際上,Euler也內置了大量的演算法實現供大家直接使用。

NLP自然語言處理tf-idf 三個基本應用【更新中】

Submitted by neurta on Sat, 05/11/2019 - 14:16
任務三:如何通過詞頻,對文章進行自動摘要 信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。 "自動摘要"就是要找出那些包含信息最多的句子。 句子的信息量用"關鍵詞"來衡量。如果包含的關鍵詞越多,就說明這個句子越重要。 Luhn提出用"簇"(cluster)表示關鍵詞的聚集。所謂"簇"就是包含多個關鍵詞的句子片段。

低緯度房價預測入門測試

Submitted by neurta on Thu, 04/25/2019 - 13:29
Utilities:第一個映入我眼帘的是Utilities,因為公共設施越齊全肯定越貴嘛,但是我又觀察了具體的訓練數據集,發現每一個房屋都是「AllPub」,即都具備基礎的公共設施,所以這一項不能入選。 LotArea:英文理解能力有限,並不知道這什麼意思,姑且認為是「地皮面積」,很好理解,面積越大肯定越貴嘛。。。 Neighborhood:這應表示房屋所處市區的位置,這個必選啊,合不合適在後面再具體分析。 OverallQual:對房子的整體材料和裝修進行評估 YearBuilt:建造年份 TotalBsmtSF&GrLivArea:訓練數據中有很多特徵都涉及到了面積,所以沒必要每個都考慮進去,為了簡化,選擇了TotalBsmtSF(地下室面積)&GrLivArea(生活面積) Heating:供暖方式應該很重要,但是數據顯示基本上都是GasA類型,所以不予考慮, CentralAir:中央空調這個可以考慮一下,因為有的有,有的沒有。 MiscVal: 在其他類別中未涉及的其他功能的價值,一般都是「shed(棚子)」,價格在400-1500美元之間,可以考慮一下 GarageCars&GarageArea:車庫可容納的車輛數以及其面積,這個可以算成單位車輛擁有的面積來計算

kaggle開放數據衛星圖片識別棕櫚種植園比賽

Submitted by neurta on Wed, 04/24/2019 - 12:52
訓練模型所要使用的數據標籤。 處理「圖像分類數據集」和「表格數據集」的主要區別在於標籤的存儲方式。這裡的標籤指的是圖像中的內容。在這個特定的數據集中,標籤以 CSV 文件格式存儲。 想要了解更多計算「分數」列的方法,點擊: http://success.figure-eight.com/hc/en-us/articles/201855939-How-to-Calculate-a-Confidence-Score。 我們將使用 seaborn 的 countplot 函數來觀察訓練數據的分佈。我們從下圖中看到,大約 14300 個圖像中沒有發現油棕種植園,而僅有 942 個圖像中發現了油棕種植園。這就是所謂的不平衡數據集,但我們在這裡不討論這個深度學習問題。我們此刻正邁出了一小步。

中央音樂學院首招音樂人工智慧方向博士生

Submitted by neurta on Wed, 04/24/2019 - 10:30

個人也注意到了最近不少結合深度學習進行音樂編曲、創作的paper和應用,歡迎大家來分享音樂與AI如何結合的想法。

相關問題:計算機音樂是否通過機器學習等方法進行過作曲、演奏?

中央音樂學院的招生細則:(中央音樂學院-中央音樂學院音樂人工智慧首招博士生!今天開始報名啦!俞峰院長攜手清華、北大專家組建跨學科導師陣容!)

科學技術是音樂發展的主要推動力之一,人工智慧將是未來音樂發展的又一重要契機。中央音樂學院將於2019年首次招收「音樂人工智慧與音樂信息科技」方向的博士生,著力培養音樂與理工科交叉融合的複合型拔尖創新人才,助力音樂與科技的融合,助力「一流學科」建設。歡迎計算機、智能和電子信息類考生報考!

一、學習年限

學制三年

二、導師隊伍

本方向將採取雙導師培養制(音樂導師+科技導師),以下是三位導師信息:

  俞峰,中央音樂學院院長,教授、博導,「萬人計劃」領軍人才,「四個一批」人才。中國指揮學會會長、全國藝術專業學位研究生教指委副主任、中國文聯第十屆全國委員會委員,享受國務院政府特殊津貼。

如何讓RNN神經元擁有基礎通用的注意力能力

Submitted by huzhenda on Sat, 09/22/2018 - 14:34

循環神經網路(RNNs)是序列建模中被廣泛使用的網路結構,它通過控制當前信息以及歷史信息的貢獻大小來實現序列信息的積累。RNN神經元將當前時刻的輸入向量作為一個整體,通過門設計控制其信息載入到模型的信息量。然而,輸入向量中的不同元素通常具有不同的重要性,RNNs忽略了對此重要屬性的探索及利用以加強網路能力。

為此,微軟亞洲研究院和西安交通大學合作,提出了通過對RNN層加入一個簡單有效的元素注意力門,使得RNN神經元自身擁有基礎通用的注意力能力,對不同的元素自適應地賦予不同的重要性來更加細粒度地控制輸入信息流。該注意力門設計簡單,並且通用於不同的RNN結構以及不同的任務。

RNN的網路結構

循環神經網路(Recurrent Neural Networks, 縮寫RNNs),例如標準RNN、LSTM、GRU等,已經被廣泛用於對時間序列數據的處理和建模,來解決許多應用問題,例如行為識別、機器翻譯、手寫識別等。RNN在對時域動態特性建模以及特徵學習上具有強大的能力。如圖1所示,在每個時間步,RNN神經元通過當前時刻的輸入x_t和前一時刻的隱狀態信息h_(t-1)來更新當前時刻的隱狀態h_t,從而具有對歷史信息的記憶性。

一文詳解深度學習在命名實體識別(NER)中的應用

Submitted by huzhenda on Sat, 09/15/2018 - 14:43

近幾年來,基於神經網路的深度學習方法在計算機視覺、語音識別等領域取得了巨大成功,另外在自然語言處理領域也取得了不少進展。在NLP的關鍵性基礎任務—命名實體識別(Named Entity Recognition,NER)的研究中,深度學習也獲得了不錯的效果。最近,筆者閱讀了一系列基於深度學習的NER研究的相關論文,並將其應用到達觀的NER基礎模塊中,在此進行一下總結,與大家一起分享學習。

1. NER 簡介

NER又稱作專名識別,是自然語言處理中的一項基礎任務,應用範圍非常廣泛。命名實體一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、組織機構名、日期時間、專有名詞等。NER系統就是從非結構化的輸入文本中抽取出上述實體,並且可以按照業務需求識別出更多類別的實體,比如產品名稱、型號、價格等。因此實體這個概念可以很廣,只要是業務需要的特殊文本片段都可以稱為實體。

曠視科技提出ExFuse——優化解決語義分割特徵融合問題

Submitted by huzhenda on Sat, 09/08/2018 - 11:38

導語

計算機視覺領域有著三項最為基本的任務——分類,檢測和分割,其中分割是指從像素層面識別出一張圖像上所有物體的位置和分類,使得機器之眼對一張圖像達到精確和充分的感知,這也是後續圖像認知技術的重要一環。分割分為語義分割、實例分割和全景分割,其中語義分割最為基礎,它為圖像之中的每個像素做分類,而不涉及實例或背景的區分。

本文發現,當前語義分割方法直接融合高、低特徵並不奏效,繼而提出新架構 ExFuse,轉而在低級特徵引入語義信息,在高級特徵嵌入空間信息,其性能超越 DeepLabv3,在 PASCAL VOC 2012 分割任務中奪得當前最優。

這一底層突破將在分割技術的適用領域帶來新進展,比如自動駕駛,無人機,倉儲機器人,醫療影像,無人超市、地理信息系統等。比如,曠視科技基於這一自身原創技術,進一步提升和完善了手機影像產品線,在人體扣像、手機打光、背景虛化等具體應用中不斷提升用戶體驗,這也恰恰是曠視科技一直踐行人工智慧驅動的行業物聯網構建者(AI+IoT)戰略定位的證明。

FAIR提出用聚類方法結合卷積網路,實現無監督端到端圖像分類

Submitted by huzhenda on Sun, 08/26/2018 - 16:30

聚類是一種在計算機視覺被廣泛應用和研究的無監督學習方法,但幾乎未在大規模數據集上的視覺特徵端到端訓練中被採用過。在本文中,Facebook AI 研究院提出了深度聚類(DeepCluster),一種聯合學習神經網路參數和獲取特徵的聚類分配的聚類方法。在 ImageNet 和 YFCC100M 等典型規模數據集上的卷積神經網路的無監督訓練的實驗結果表明,該方法在所有基準性能中都遠遠優於目前的技術。

推薦系統特徵構建新進展:極深因子分解機模型 | KDD 2018

Submitted by huzhenda on Sun, 08/26/2018 - 15:02

特徵(features)的構建對推薦系統來說至關重要,直接關係到推薦系統的精準性。在傳統的推薦系統中,高階交叉特徵通常由工程師手工提取,不僅人力成本高昂、維度空間極大,而且不可泛化。因此自動學習特徵的交互是十分有必要的 ,但目前已有的相關工作學習的是隱式的交互特徵,且特徵交互發生在元素級(bit-wise)而非向量級。為此,微軟亞洲研究院社會計算組在KDD 2018上提出一個新的模型——極深因子分解機(xDeepFM)。

近年來,隨著深度學習技術在語音識別、計算機視覺和自然語言理解等領域取得巨大成功,越來越多的學者們也在著手研究基於深度學習技術的推薦系統對於搭建精準的推薦系統而言,特徵(features)是至關重要的。從特徵構建的層面而言,現階段深度學習技術在推薦系統中的應用可以大致分為兩類:

(1)從原始數據中自動學習出蘊含語義的隱特徵,例如從本文、圖像或者知識網路中提取出有效的隱特徵;

(2)自動學習多個相關特徵之間的交互關係。