上海論文網是一家老字号代寫網站,專業提供代寫碩士畢業論文服務。

面向視頻壓縮域的實時目标識别技術之計算機研究

發布時間:2019-09-08 10:25 論文編輯:vicky 價格: 所屬欄目:計算機論文 關鍵詞: 計算機論文視頻壓縮深度學習運動矢量

本文是一篇計算機論文,本文提出了一種基于圖像形态學的視頻運動矢量圖構建方法,以實現視頻數據的實時處理。通過對視頻壓縮過程的分析,提取出視頻壓縮域中宏塊的運動矢量數據,再利

本文是一篇計算機論文,本文在實現視頻運動矢量圖實時提取的基礎上,提出了一種面向視頻壓縮域的目标識别方法。該方法能夠在不解壓縮視頻的前提下,實現目标的有效識别,為智能交通、自動駕駛和視頻異常檢測等領域提供了新的技術。

1 緒論

1.1 背景和意義
近幾年物聯網技術的快速發展和互聯網技術的日趨完善,社會信息化已經成為當今國家和社會發展的大趨勢。視頻、圖像、音頻和文本等多媒體信息已經逐漸成為人們獲取最新國内外資訊的重要途徑。互聯網覆蓋範圍的增大、網絡速度的快速提升以及移動端 4G 和 5G 網絡的出現,使得我國進入了大數據時代的黃金時期。據國家關于移動互聯網流量數據的報告顯示,2018 年 1 月到 6 月的數據流量為 266 億 GB,文中所述如圖 1.1 所示。随着愛奇藝、優酷視頻和騰訊視頻等網絡視頻平台的推廣和普及,抖音短視頻、西瓜短視頻和火山小視頻等可以上傳視頻分享生活的手機應用出現,以及網絡用戶和移動端用戶的快速增長,使得移動端視頻的數據量規模呈指數型增長。

根據第 42 次《中國互聯網絡發展狀況統計報告》:如圖 1.2 所示,截止至2018 年 6 月,網絡視頻用戶規模達 6.09 億,較去年末增長 3014 萬,占網民總體的 76.0%。手機網絡視頻用戶規模達到 5.78 億,較去年末增加 2929 萬,占手機網民的 73.4%。各個短視頻應用的用戶規模達 5.94 億,合并短視頻應用的網絡視頻用戶使用率高達 88.7%[1]。在用戶規模和網絡視頻規模快速擴大和增長的同時,國家也會對網絡視頻平台的内容出台相關規章制度和定期的内容審查,但是對于網絡上個人發布短視頻大部分都是由每種應用軟件獨自對其進行審查,而現有的技術對網絡視頻審核速度無法匹配用戶發布網絡視頻的速度,同時也需要耗費人工進行操作,這樣會使得網絡上的視頻内容變得無法控制,大部分庸俗、無趣和虛假的網絡視頻流入到網絡上,對整個視頻網絡的生态環境産生了非常惡劣的影響。因此,針對短視頻的問題,國家相關管理部門頒布了一系列的措施和對部分不正規的應用軟件進行監督等辦法來對這些違規的視頻進行監控和整治,但同時也需要相應的手機應用在技術上提高對視頻内容的審核技術。對于技術方面的提升,可以在視頻上傳的終端位置來進行判斷,當視頻在壓縮上傳的過程中,針對壓縮信息做相應技術上的處理來進行判斷視頻内容是否符合現有的審查規定來決定當前視頻是否應該上傳。
.............................

1.2 國内外研究現狀
在全世界内,随着視頻監控系統的大範圍布署,視頻監控相關的領域近年來也逐漸受到了廣泛的研究。從視頻監控系統中獲取信息變得越來越重要,尤其是在一些特定的環境下視頻監控系統對内容信息的獲取[6]。視頻監控中運動物體識别是計算機視覺的一個重要研究領域,也是實現智能化監控的技術的熱點問題之一[7]。視頻中運動物體識别對于智能化視頻監控技術中的目标分類、目标跟蹤和行為理解等後續研究起着關鍵的作用。目前視頻中運動物體識别方法大約分為以下幾類,背景差分法、幀差法、光流法和使用深度學習技術的識别法。
(1)背景差分法
背景差分法是常用的運動物體識别方法之一,它的基本思想是通過計算當前幀與背景模型之間的差異來對運動區域進行提取,因此背景建模是實現背景減法的關鍵[8]。目前為止基于背景差分法已經設計了很多改進算法,常見的背景建模方法有:阈值法、碼本法、混合高斯模型、和均值模型等。其中,由 Stauffer和 Friedman 等人提出的高斯混合模型可以模拟場景中周期運動的存在,例如葉子搖擺,旗幟飄動,顯示閃爍,是最廣泛使用的背景模型之一[9]。陳鳳東等人[10]設置動态阈值的方法來解決複雜環境下光照變化對背景建模的影響,通過計算相鄰圖像中整體圖像光照變換的平均值作為更新背景模型的阈值,減少複雜環境下光照變換帶來的影響。R Zhang 等人[11]使用中值濾波器來實現視頻背景模型的構建,使用自适應背景差分法來檢測物體。Zang X 等人[12]使用高斯混合模型自适應地學習差異阈值來區分前景和背景,這樣可以使得建立的背景模型減少環境因素和運動物體輕微抖動所帶來的影響。
(2)幀差法
幀差法是另一種常用的視頻目标檢測方法,該算法的原理并不複雜,首先是在視頻序列中選擇前後相鄰的視頻幀,然後将相鄰的視頻幀進行像素級别的減法操作,最終出現像素變換大的區域就是運動物體的區域。幀差法對光線等場景變化不敏感,适應各種環境和場景。但是這種方法會在運動物體内部存在很多無法連接的空洞現象,也就是會出現無法連接空白區域。為了解決這個問題,IntanKartika 等人[13]引入了基于自适應阈值和陰影檢測處理技術來消除出現的空洞現象,Zhao M 等人[14]基于視頻幀中相鄰三幀差值和背景差分法的混合方法。WHuang 等人[15]通過求得的背景平均值和當前幀之間的數值差來補償空洞問題。雖然優化空洞現象的算法在逐漸完善,但是其所帶來的後果是改進的幀差法的計算量越來越大,運行速度也是越來越慢。
................................

2 深度學習與視頻壓縮

2.1 深度學習相關理論
2006 年加拿大多倫多大學的 Geofrey Hinton 教授在神經網絡方面提出深度學習模型訓練方法的改進模型,極大的提高了基于 BP 反饋神經網絡的訓練速度和訓練的最優問題[30],使得深度學習模型再次回歸到科研領域的視野中,此後開始了深度學習的崛起浪潮,目前深度學習已經應用于大部分領域中,本小結主要是對深度學習的發展曆史和當前深度學習的常用的網絡結構做理論分析。
2.1.1 深度學習
深度學習是機器學習模型之一,機器學習通過訓練樣本是否有對應的标簽數據可以分為監督學習和無監督學習兩大類[31]。在監督學習中,輸入到模型中的一組樣本,其對應輸出的結果是在何種範圍之内或者輸入和輸出需要保持某種特定的邏輯關系,都可以通過标簽給出準确的答案,監督學習根據其輸出是離散值還是連續值可分為分類問題模型和回歸問題模型[32]。無監督學習算法有聚類算法、主成分分析方法、局部線性嵌入方法和拉普拉斯特征映射方法等。其中聚類算法是無監督學習中最經典的算法,一般是将樣本數據集中每個樣本之間定義相似性度量,然後根據定義的相似性度量将距離相近的樣本組合到一起形成一個簇,一個不錯的聚類算法是可以在其分的每個簇族之内具有高類内相似性,簇與簇之間具有低類間相似性。聚類算法大緻可分為 7 類算法:分層聚類算法、基于密度的聚類算法、分區聚類算法、基于圖的聚類算法、基于網格的算法、基于模型的聚類算法和組合聚類算法[33],将聚類算法分成七大類是根據算法各自的基本思想,
研究人員根據不同應用的背景使用上述的聚類算法來獲得最優的結果。
近年來随着人工智能技術的快速發展,深度學習逐漸回歸到人們的視野裡,深度學習是指三層以上的人工神經網絡(Artificial Neural Network),看似一個突然出現的全新領域,其實在 19 世紀 50 年代就已經出現了,隻是這個技術的名稱随着時間的發展變換了很多次。深度學習的曆史發展進程與其名稱的變換有着相同的步伐。19 世紀 50 年代到 20 世紀 60 年代初,是人工智能發展的起點同時也是深度學習技術雛形的出現,這個時候深度學習叫做控制論;20 世紀 60 年代到20世紀90 年代人工智能技術從實驗室中的理論探讨開始逐步走向現實世界的應用中,包括在工業,農業和醫療等領域都取得了巨大的成功,此時的深度學習技術被叫做聯結主義;從 21 世紀初到現在,人工智能技術迎來了爆發式的發展階段,深度學習技術也迎來了蓬勃的發展并以深度學習的名字出現在人們的視線當中[34]。無論是爆發式的發展還是蓬勃的發展,其背後是得益于大數據和物聯網等當今主流技術的發展所帶來的大容量的數據規模,同時圖形圖像處理器等硬件技術的提升也将深度學習技術的訓練時間縮短至人們可以接受的範圍之内。深度學習是屬于機器學習技術領域的神經網絡中的一個分支。
.............................

2.2 視頻壓縮技術
2.2.1 視頻壓縮原理
視頻壓縮域技術廣泛的應用于不同的領域中,如視頻傳輸,廣播數字視頻,高清晰度電視業務等。視頻壓縮技術的目的是減少視頻圖像的數據量,視頻編碼是降低視頻比特率來減少資源的消耗進行傳輸和存儲,同時對解碼後的視頻有良好的恢複保證。視頻圖像壓縮是以頻繁的間隔采樣運動圖像,通常為每秒 25 幀,作為幀序列存儲。當前主流的視頻壓縮标準是 H.264/AVC,其框架是一種分層結構,按照功能共分為兩層,視頻編碼層(Video Coding Layer,VCL)和網絡提取層(Network Abstarction Layer,NAL),視頻編碼層主要是對視頻圖像數據進行有序的編解碼,網絡提取層将經過視頻編碼層處理過的視頻數據進行封裝起來,封裝之後的數據可以高效的通過網絡進行傳輸和在存儲硬件中進行存儲。