【中國數字視聽網訊】神經網絡、深度學習與神經生物學之間啟發式的聯系
19世紀末期20世紀初從事解剖學領域研究的科學家們提出的神經元理論奠定了現代神經系統研究的基礎,而這也成為了40年之后其它領域的科學家們設計神經網絡模型的靈感之源。從1940年至1980年這40年間,心理學家、數學家以及計算機科學家們基于此理論(與圖模型理論深度結合)不斷地改進模型,使人工神經網絡算法逐漸從理論探討邁向了工程實踐。具體來說,神經元理論提出的神經元和突觸概念被抽象化為DAG(或者UAG)中的頂點與邊,從而組成了一個完整的神經網絡模型(例如多層感知機);理論提出的聯結特異性原理(特定的神經元只能與另外一些特定神經元發生聯系)進一步激發了諸如嚴格玻爾茲曼機的研究;而動態極化原理(在神經元內部信號僅向一個方向傳遞)則幫助人們設計出了經典的前饋神經網絡結構。
而對靈長類動物初級視覺系統的研究,人們基于視網膜上的神經節細胞只能對視場中某一特定位置產生響應(感受野)這個事實,創造性地將卷積、池化等引入了神經網絡的結構中,如此簡潔精妙的設計構思有效限制了由于網絡結構的復雜而引起的參數爆炸性增長;同時還提高了算法的計算效率。
其余的例子不勝枚舉。神經元細胞彼此之間發生的抑制作用讓神經網絡(特別是深度學習)的設計者們創造出了各種技巧。視覺上的側抑制效應則催生了局部響應歸一化層的構造;而我們從ReLU、Dropout等設計上不難看出神經元細胞之間互補性控制的影子。
深度學習算法則是基于上述事實對人腦進一步的仿生方式。人類的大腦皮層由四個區域構成:額葉、頂葉、枕葉、顳葉。神經生物學研究表明,在枕葉中存在著兩條信息處理通路:腹側通路與背側通路,其中腹側通路從枕葉向下延伸至顳葉下部,加工對象或場景的視覺外觀,如形狀、顏色、亮度、質地和大小等。進一步的研究表明,腹側通路中,不同區域內的神經元僅對特定的視覺基元(visual primitives)產生響應。例如,V1區域對簡單的邊緣與紋理產生響應;V2區域對上述邊緣與紋理組合形成的簡單形狀產生響應;而V4區域則對上述形狀組合而成的更高級特征產生響應。連同將原始光信號轉換為生物電信號的人眼視網膜組織,腹側通路的這些區域形成了一條自底向上的信息處理鏈。信息從原始的像素開始,逐級抽象,從簡單到復雜,低級到高級,形成了人類的視覺認知。打個比方,卷積神經網絡好比是大腦皮層的枕葉(負責處理視覺信息),而循環神經網絡則是大腦皮層的顳葉(負責處理時域信息)。
安防監控產業與深度學習之間的聯系
現在讓我們將討論的話題切換到安防領域上來。安防監控系統是應用光纖、同軸電纜或微波在其閉合的環路內傳輸視頻信號,并從攝像到圖像顯示和記錄構成獨立完整的系統。它能實時、形象、真實地反映被監控對象,不但極大地延長了人眼的觀察距離,而且擴大了人眼的機能,它可以在惡劣的環境下代替人工進行長時間監視,讓人能夠看到被監視現場實際發生的一切情況,并通過錄像機記錄下來。同時報警系統設備對非法入侵進行報警,產生的報警信號輸入報警主機,報警主機觸發監控系統錄像并記錄。從對安防監控的描述中我們可以知道,信號的來源主要為視頻和圖像,換而言之主要的信號源與“視覺”相關。用通俗的話來進行描述,安防監控系統就是通過器械(攝像頭等)讓人們“看”到外部世界并對“感興趣”事件產生預警的系統。
傳統的安防監控系統以“人防”為主,但人防的缺點顯而易見:隨著需要監控的視頻通道數的增加,所需的人力也會相應增加,其直接影響就是遠高于收益的人力成本與遠低于回報的工作效率。正是由于這個原因,現在的安防監控系統都以“技防”為主,即用無間歇工作的智能算法來代替無法長時間保持高效的人力對視頻畫面進行監控。而讓智能算法徹底代替人力的愿景,在深度學習出現以前,如同科幻小說一般,僅僅停留在人們的腦海中,猶如紙上談兵,無法落地。雖然傳統的智能算法能夠在特定環境和特定時間下表現出良好的性能,但只要一項因子發生改變(畫質、環境等),傳統智能算法在應用上表現出的性能就會出現明顯的下降。換句話說,傳統的智能算法相比于人類的大腦,欠缺的是對于所學“知識”的遷移能力。欠缺這種能力的本質原因則需要讀者對機器學習具備一定的了解:實際問題中數據的分布呈現出高度的復雜性,我們感興趣的對象的特征往往位于嵌入在更高維度的空間中的低維流型上。流型的維度雖低,但其幾何結構并不簡單。更加嚴格地說,其超表面呈現高度的非線性性。傳統的智能算法背后其實對應著傳統的機器學習方法,而這些傳統的機器學習方法大多被設計使用線性超曲面來近似表征數據的流型;另外一些方法則通過所謂的核技巧來進行線性到非線性的“魔法”。這些方法雖然具有很好的數學定義,有些甚至具備優雅的解析解,但“現實往往是殘酷的”:數學是人們形式化用于描述自然界如何工作的途徑,但對于人類大腦而言,目前的科技水平并沒有解碼其工作原理。因此,確定的、有邏輯因果聯系的過程在目前看來并不適用于這個領域。
而深度學習則另辟蹊徑,在神經網絡設計之初人們就賦予了其仿生的屬性。這門學科與其說是一門科學,還不如說是一門藝術。目前大部分行之有效的技巧或方法往往來自于研究人員 的直覺,而不是嚴謹的推導。對此詳細的說明超出了本文的范疇,在這里省略。總而言之,深度學習中的一個重要分支——卷積神經網絡及其相關技巧解決了(在若干特定任務上,已經接近甚至超越了人類視覺系統)計算機如何“看世界”的問題;而智能安防產業的首要數據來源便是圖像和視頻,因此這兩者能夠獲得相當高的默契度。
雖然從引起工業界的關注至今僅過了4個年頭,深度學習已然得到了安防產業的青睞。由于其對人類視覺系統的模仿,凡是人眼能夠勝任的智能安防應用,都可以應用深度學習技術得以解決(不同程度上地)。往廣的范疇上來說,智能應用無非是檢測、跟蹤、識別三大主流方向;而如今無論是學術界還是工業界,這三大視覺主流方向已經牢牢地被深度學習占領了。相比于傳統的智能算法,融合了深度學習的智能算法所得到的性能往往是突破性的。毫不夸張地打個比方,就好像四缸渦輪增壓發動機與普通柴油發動機的區別。圍繞著這三大主流應用方向,深度學習的觸角觸及了行業的方方面面:人臉檢測、車輛檢測、非機動車檢測、人臉識別、車輛品牌識別、行人檢索、車輛檢測、人體屬性、異常人臉檢測、人群行為分析、各種感興趣目標的跟蹤……
讓深度學習能夠如此大行其道的關鍵要素是數據,這也是深度學習獨創性的哲學——從數據中學習特征(數據的表征)——的立命之本。也就是說,大數據造就深度學習。而占大數據總量60%以上的為視頻監控數據,同時每年仍舊以20%的速度遞增。這樣的速度與規模得益于監控視頻的高清化——1080P已經越來越普及,4K甚至更高的分辨率逐漸在重要場所得到應用——以及人們對營造智能安全的社會居所的迫切需求。
更加讓人們感到充滿希望的是,深度學習算法不僅僅被動地接受數據;相應地,它在吸收原有數據的基礎上,能夠增量式地提升模型的性能,給予數據的選擇過程一種反饋——形成一種數據選擇機制,能夠分辨哪種類型的數據有助于持續提升模型性能,哪種類型的數據則是毫無幫助的——從而最終形成一種良性循環體系。
未來的安防產業
歷史已經昭示,科學技術的發展趨勢呈現高度的指數性質,初始階段為線性或者次線性,而加速階段則是超線性。安防產業也不例外。
未來是不可預知的,因此對于未來安防產業的預測也是自由的。我認為未來的安防產業將呈現兩極化的趨勢:更加偏重于宏觀的智慧城市大安防化與更加側重于微觀的民用服務微安防化。這兩者的發展都離不開高度互聯的物聯網技術以及接近完美的人工智能技術。前者在很多安防類文獻或書籍中都被頻繁說明,在此由于篇幅所限不再贅述。由于所提甚少(即使被提起,也是在其它領域),我個人更加偏好于對后者的闡述。
安防始于對公共安全的防范與保護,其更加偏向于整體的概念,是以“集合”的安全來覆蓋“個體”的安全;而隨著人們生活質量的持續攀升,他們將不會僅滿足于能夠保護群體安全的方式,勢必產生對自身特殊化安全的需求。根據聯合國最新的人口數據預測,2011年以后的30年里,中國人口老齡化將呈現加速發展態勢,60歲及以上人口占比將年均增長16.55%,2040年60歲及以上人口占比將達28%左右。在這30年里,中國開始全面步入老齡化社會。到2050年,60歲及以上老人占比將超過30%,社會進入深度老齡化階段。這意味著“養老”將會成為那時社會的一個主要問題,而這個問題所帶來的市場也是無比廣闊的。能夠解決這一矛盾的重要一環便是人工智能技術(目前來看,深度學習技術已經讓人們看到了實現人工智能技術的可能性)。
未來的安防產業,靜態攝像頭將被動態的移動智慧安防服務型機器人所取代。這些機器人能夠通過嵌入在其身體上的各類傳感器搜集周遭環境中的信息,通過人工智能算法生成其對周圍環境的時空模型,從而理解環境并與環境發生交互。以養老產業來說,機器人能夠通過視覺傳感器提供的深度信息和RGB圖像信息,結合聲音傳感器提供的語音信息理解被服務對象的表情、感受,從而推斷出被服務對象的需求。無法自理又無人照料的老人將通過自然交談控制機器人為他們拿取藥品、生活必需品,為他們購物、烹飪、打掃、處理飲食起居。機器人個體之間也將進行自我驅動式的互聯,通過這種方式“分享”各自的經驗,通過學習不斷改進操作上述各類事務的技巧。所有個體的數據同時也能被上傳到數據中心,人們能夠實時監測每個老人的健康狀況,并據此做出及時正確的響應措施。
著名的未來學家雷•庫茲韋爾曾經預測過2045年人類科技發展將到達奇點。如果是這樣的話,安防產業勢必將成為這一新宇宙的璀璨星云。
(編輯:gaolq)
價格面議
[查看詳情]