標簽:服務器,人工智能,浪潮,GPU,
2017年3月5日上午,國務院總理李克強發表2017政府工作報告,指出要加快培育壯大包括人工智能在內的新興產業,“人工智能”也首次被寫入了全國政府工作報告。結合上月科技部新聞-“科技創新2030—重大項目”或將新增“人工智能2.0”,人工智能在中國的政治、經濟、學術領域都成為重中之重。因此,可以預言,這是中國 AI人最好的時代——2017年,中國人工智能迎來真正的新紀元。
協處理計算加速是人工智能最佳架構
深度學習概念和淺層學習算法已經被提出多年,而人工智能近年才開始逐漸升溫,原因為何?因為人工智能技術進步受限于相關軟件、硬件、算法等性能。特別是人工智能硬件的變革:20世紀90年代,神經網絡的概念就成為熱點,但是受限于軟硬件計算平臺的限制,十余年間的進展極其緩慢,直到以GPU為核心的協處理加速設備的應用,人工智能應用效率才得以大大提升。
正如百度首席科學家吳恩達所言:“大概在十年前我們都通過普通的CPU進行深度學習的訓練,當時大概有100萬的連接,進步是非常慢的。2008年的時候我們寫了第一篇在CUDA(GPU平臺上)上進行神經網絡訓練的文章,當時是斯坦福大學的一個研究,已經有了10倍的轉變。”
▲相比CPU,更多核心的GPU更適合人工智能應用
GPU\FPGA\MIC帶來新的技術飛躍
從內部結構上來看,CPU 中 70%晶體管都是用來構建 Cache和一部分控制單元,負責邏輯運算的部分并不多,控制單元等模塊的存在都是為了保證指令能夠一條接一條的有序執行,這種通用性結構對于傳統的編程計算模式非常適合,但對于并不需要太多的程序指令,卻需要海量數據運算的深度學習的計算需求,這種結構就顯得有心無力了。
與 CPU 少量的邏輯運算單元相比,GPU\FPGA\MIC這種協處理加速設備整個就是一個龐大的計算矩陣,動輒具有數以千計的計算核心、可實現 10-100 倍應用吞吐量,而且它還支持對深度學習至關重要的并行計算能力,可以比傳統處理器更加快速,大大加快了訓練過程。
目前,高性能的GPU+CPU架構服務器已經成為實現深度學習必不可少的基礎硬件。但是,市場上目前有不同廠商提供的GPU服務器,例如:2U2卡,1U4卡,3U8卡,4U4卡,4U8卡等等服務器形態。如何做好選擇,搭建最合理的訓練架構,是開啟深度學習之路的第一步,這一步也會關系到后期訓練的性能。
浪潮GPU服務器在國內主流人工智能企業市場占有率超過80%。其中NF5568M4這種4U4卡的機型備受BAT在內的領先企業青睞,這是為何?
▲浪潮NF5568M4 GPU服務器
性能為王,但仍需考慮適用性
多卡GPU+CPU架構需要大量的GPU核心數,在單機內的選型原則,以最多卡數為主。理論上,單機越多GPU卡的堆疊,性能也會達到更高。但是,每塊GPU卡的功耗在235W—250W左右,加上服務器的CPU和其他部件,一臺4卡GPU機器在工作狀態會達到近2000W的功率,而8卡的甚至能達到3600W以上。
目前,大部分公司的機房都是租賃的IDC機房,現在國內機房提供的機柜一般為42U高度,電量10A,13A或者16A,換算為功率就是2200W,2860W或者3520W。而42U的機柜用電,被4U高度的GPU全部占用,這顯然不能被接受。因此,像浪潮NF5568M4這類單機4塊GPU卡的配置是目前互聯網行業的主流,既能達到足夠的計算能力,又能兼顧機房用電。
4U高度,給熱空氣一點出路
一臺4卡GPU服務器在工作狀態會達到近2000W的功率,而8卡的甚至能達到3600W以上,如此大的功率就有大量的散熱需求,一般情況下,GPU卡和服務器風扇的設計比例是1:1,以滿足散熱需求。但是根據實測1U或2U高度的服務器,一旦達到4卡或8卡跑滿,整機溫度曾經飆升到96攝氏度!
為了解決散熱問題,只能大幅度的提高機器風扇的轉速,這樣會大大提高機器的功耗,功耗問題還是其次,問題是提高風扇轉速之后帶來較大的噪音和震動,會嚴重縮減機器的壽命,甚至會發生宕機,給業務帶來嚴重影響。另外1U、2U由于空間受限,也會對擴展能力產生影響,沒有辦法實現雙網卡+RAID保護功能。
浪潮NF5568M4擁有4U的高度,因此內部有更多的空間和通道用于散熱,并且單機設計了多達10個散熱風扇,給熱空氣留一點出路,也就為GPU卡降低一點溫度。
硬件性能的發揮,更需要軟件的調優
為什么GPU服務器有如此好的性能,但是采用GPU作為協處理器加速的企業卻屈指可數?因為單純有了可靠的硬件平臺還不夠,還要將自己的業務應用能遷移到GPU上去,并且需要經過專業的軟件調優,最大的發揮GPU的性能。
目前很多互聯網公司希望運用GPU來加速其業務,但是由于沒有專門的軟件移植工程師,因此并不能發揮出GPU的并行計算性能。因此他們希望能有一套軟硬一體化的解決方案,能夠將自己的業務快速的部署到GPU集群中。為此,浪潮成立專門針對深度學習的軟件開發團隊,具備10萬核以上CPU+GPU的大規模并行算法設計、程序開發和軟件調優能力,并通過自主研發的開源版本CAFFE-MPI和ClusterEngine高性能計算管理平臺,面向人工智能和深度學習,幫助用戶進行軟件移植、算法調優等工作,加速深度學習應用在更多領域和企業落地。
目前,包含GPU服務器、FPGA定制硬件、caffe-MPI框架等在內的浪潮人工智能相關解決方案在國內主流AI領域的占有率超過80%,為百度、阿里巴巴、騰訊、奇虎、搜狗、科大訊飛、今日頭條、Face++等領先企業提供基于GPU/FPGA/KNL等協處理加速服務器和caffe-MPI等軟件、算法優化服務,加速中國人工智能應用的發展。
|