全面進入AI大模型時代,安防領(lǐng)域?qū)⒖缭绞缴?/h2>
發(fā)布日期:2023-11-16 瀏覽:530
近幾年來,隨著5G、AI、IoT、大數(shù)據(jù)、云計算等新興技術(shù)與安防行業(yè)的高度融合,讓安防的邊界越來越模糊,萬物互聯(lián)到萬物智聯(lián)時代主旋律下,智慧物聯(lián)(AIoT)打開了安防新的市場空間。
隨著安防行業(yè)的快速發(fā)展,傳統(tǒng)的安防方式已經(jīng)逐漸被以視頻為核心的智慧互聯(lián)所取代。這種轉(zhuǎn)變使得下游應用呈指數(shù)式增長,同時也對AI技術(shù)提出了更高的要求。在AIoT領(lǐng)域,如何將技術(shù)創(chuàng)新與市場需求有效結(jié)合成為了行業(yè)發(fā)展的關(guān)鍵。
在傳統(tǒng)安防時期,算法的針對性較強,主要依賴于小模型的專用算法。然而,隨著應用場景的不斷擴大和復雜化,這種小模型算法已經(jīng)無法滿足需求。因此,我們需要借助大模型的泛化能力來推動行業(yè)的發(fā)展。
一、AI賦能安防從看得清到看得懂,從傳統(tǒng)安防到智慧物聯(lián) AI賦能安防從“看得清”到“看得懂”,傳統(tǒng)安防逐步轉(zhuǎn)變?yōu)橹悄芪锫?lián)。安防視頻監(jiān)控分為“看得見”、“看得清”、“看得懂”三個階段。 以中國為例,在第一階段“看得見”中,主要的驅(qū)動力是以視頻作為常見事件的證據(jù)形式,作為安檢偵破的重要線索,目前全國已經(jīng)基本實現(xiàn)了主要城市街區(qū)的無死角監(jiān)控;在第二階段“看得清”中,主要的驅(qū)動力為十三五規(guī)劃、十九大報告、公安部雪亮工程以及《超高清視頻產(chǎn)業(yè)發(fā)展行動計劃》等,高清實時編碼SoC芯片成為市場主流助力高清需求實現(xiàn);在第三階段“看得懂”中,AI的發(fā)展使得安防系統(tǒng)從被動的記錄和查看轉(zhuǎn)化為“事前有預警、事中有處置、事后有分析”,車牌識別發(fā)展為車輛數(shù)據(jù)結(jié)構(gòu)化分析、人臉檢測發(fā)展到人臉比對、目標全結(jié)構(gòu)化分析、行為處事檢測分析等新技術(shù)逐步落地,強大算力運行AI算法,運用海量數(shù)據(jù),使得行業(yè)邊界逐漸模糊,需求也從安全轉(zhuǎn)變?yōu)榻当驹鲂?,傳統(tǒng)安防逐步擴大范圍,轉(zhuǎn)向智慧物聯(lián)大行業(yè)。 過去十幾年,國內(nèi)安防行業(yè)相繼解決了“看得見”、“看得清”、“看得懂”的問題。 尤其在解決“看得懂”的問題時,僅通過視頻手段已無法實現(xiàn),安防企業(yè)于是借助物聯(lián)網(wǎng)技術(shù),大大提高了識別的結(jié)果和效率。 在這個過程中,人工智能、大數(shù)據(jù)、數(shù)字通信、AIoT等技術(shù)與實體經(jīng)濟的深度融合,幾乎滲透進了安防企業(yè)的全系列產(chǎn)品中,技術(shù)創(chuàng)新和產(chǎn)品迭代升級加速。 二、安防企業(yè)為什么能成為AIoT的主力軍? 那么,安防企業(yè)為什么能成為AIoT的主力軍? 首先,智能安防是進入智慧物聯(lián)市場的絕佳通道。 在AIoT世界,一切智能都要以感知為基礎(chǔ),其中視頻是數(shù)據(jù)的一個強入口,源源不斷產(chǎn)生的高質(zhì)量數(shù)據(jù)是數(shù)字化時代的新的生產(chǎn)要素。安防行業(yè)一直在智慧物聯(lián)的典型場景中,天然的感知能力,順其自然成為一切智能與數(shù)字化的基礎(chǔ),經(jīng)過千錘百煉的視頻能力已成為他們的強項。 其次,安防企業(yè)有足夠的能力躋身智慧物聯(lián)行業(yè)。 從安防廠商,到以視頻為核心的智慧物聯(lián)解決方案提供商,到不再只強調(diào)視頻,增加非視頻的投入,他們一邊擴充產(chǎn)品線,一邊在智能技術(shù)上進一步投入感知智能、認知智能。對智慧物聯(lián)行業(yè)意義重大的大模型,也早有部署。比如大華,已經(jīng)利用AIoT和大模型技術(shù),廣泛地感知和連接以視頻為核心的泛在物聯(lián)數(shù)據(jù),讓客戶獲得高質(zhì)量的數(shù)據(jù)資源。 AIoT產(chǎn)業(yè)與安防產(chǎn)業(yè)極其相似,都是一場事關(guān)場景碎片化、硬件制造經(jīng)驗、整體解決方案的綜合能力的比拼。從安防場景中磨礪出來的傳統(tǒng)安防企業(yè),進入智慧物聯(lián)時代有較大優(yōu)勢。 再者,傳統(tǒng)安防企業(yè)已經(jīng)建立了廣泛的客戶基礎(chǔ)。 面對數(shù)字化升級愿望迫切的客戶,誰能“多快好省”地落地智慧物聯(lián)產(chǎn)品和方案,更穩(wěn)定的運行設(shè)備,誰就能在數(shù)字化的落地和升級上快走一步。 在安防行業(yè)發(fā)展過程中,一些公司已經(jīng)成長為世界著名品牌,獲得了包括政府機構(gòu)、企業(yè)和消費者的信任,因此客戶更容易接受他們的智慧物聯(lián)產(chǎn)品和服務(wù)。 安防自帶AI和物聯(lián)的屬性,好比是在安防領(lǐng)域與智慧物聯(lián)領(lǐng)域之間架起了一根管道,使前者向后者的過渡變得自然、順暢。 目前,傳統(tǒng)安防已經(jīng)發(fā)展為以視頻為核心的智慧互聯(lián),下游應用呈指數(shù)式增長,基于小模型的專用算法無法滿足需求,需要大模型的泛化能力助力行業(yè)發(fā)展。 三、通用大模型VS微調(diào)后的行業(yè)大模型? 根據(jù)中國信通院、騰訊云和騰訊標準發(fā)布的《行業(yè)大模型標準體系及能力架構(gòu)研究報告》,通用大模型在多任務(wù)與領(lǐng)域上可表現(xiàn)出較好性能,但無法精準解決行業(yè)的特定需求與問題。 通用大模型如果想在特定行業(yè)中發(fā)揮SOTA模型效果,其參數(shù)數(shù)量會比同樣效果的行業(yè)大模型多數(shù)十倍、甚至百倍,根據(jù)OpenCSG,在特定的垂直應用中,通用大模型千億甚至萬億參數(shù)達到的效果,垂直大模型百億參數(shù)也可以達到,成本相對較低,相比ChatGPT的10億人民幣以上的硬件投入(僅訓練),彭博金融大模型硬件端投入僅約1200萬元(僅訓練)。 以工業(yè)領(lǐng)域為例,該場景需求中精準測量、缺陷檢測等功能可以通過結(jié)合視覺能力、各類型裝備實現(xiàn),在大模型基礎(chǔ)上用更小樣本的訓練,可實現(xiàn)更加快速和準確的識別,且成本和效果平衡,有助于商業(yè)化落地。 以近期北大的ChatLaw為例,該團隊構(gòu)建了口語化咨詢訴求到法律專業(yè)詞匯抽取模型,在檢索端結(jié)合關(guān)鍵詞+向量檢索技術(shù),依靠13B的模型在2000條司法問答數(shù)據(jù)中,Elo評分機制下得分超越gpt4。其表現(xiàn)優(yōu)于gpt4的一大原因是構(gòu)建了類似于國家司法考試的多項選擇題來訓練本文的模型,這也表明了基于對細分行業(yè)的場景需求,選擇細分行業(yè)的數(shù)據(jù)進行訓練即可使得其表現(xiàn)優(yōu)于通用的大模型。 單模態(tài)VS多模態(tài)? 在智慧物聯(lián)的時代,數(shù)據(jù)呈現(xiàn)著多模態(tài)及復雜關(guān)聯(lián)的特性,如文本、圖像、聲音等,根據(jù)機器學習雜貨鋪3號店公眾號,視頻動作識別技術(shù)在泛安防有著廣泛的使用場景,由于攝像頭需要部署在各個地點,攝像機姿態(tài)各有不同,需要多視角挖掘共同表征,因此泛安防對于多視角視頻識別與分析有更急切的需求,而視頻理解存在數(shù)據(jù)集缺少,視頻語義復雜多變,視頻多模態(tài)語義融合,非線性流的視頻理解等多種問題。 在多模態(tài)模型下,對于標注的精準性要求更低,可以使用弱標注的圖片描述數(shù)據(jù),語義更為通用,且可以改善長尾問題,輸入多模態(tài)數(shù)據(jù)可提高模型精度,對語義相近的場景更加友好,減少誤判,因此我們認為,多模態(tài)模型將更適合智慧物聯(lián)。 (1)多模態(tài)可緩解長尾的標簽標注壓力。 以YouTube視頻數(shù)據(jù)為例,YouTube8M數(shù)據(jù)集具有6.1M的視頻量,共3862個標簽,平均每個視頻有3個標簽,呈現(xiàn)明顯的長尾分布。 Instructional數(shù)據(jù)集在WikiHow中挑選了23,611個howto任務(wù),為檢索詞query在YouTube上進行搜索,生成大規(guī)模的帶噪聲的文本-視頻樣本用于多模態(tài)任務(wù)預訓練,我們可以看到112個大類的howto視頻也呈現(xiàn)長尾分布,這類廣泛存在的長尾現(xiàn)象使得事無巨細的樣本標注不可行。 文本-視覺之間語義的橋梁分為語義對齊(Semanticalignment)和語義融合(Semanticfusion),通過語義對齊完成視覺元素映射(基礎(chǔ)視覺語義),并通過基礎(chǔ)視覺語義的融合形成復雜視覺語義與抽象的視覺氛圍,在多模態(tài)融合方法中,模型可以通過場景描述文本““treesina'wintersnowstorm”學到“tree”的概念,還有可能學到“snowstorm”,以此來緩解長尾問題導致的標簽標注壓力。 (2)多模態(tài)數(shù)據(jù)可提升模型精度。 以田間作物產(chǎn)量預測為例,相關(guān)研究團隊通過融合基于無人機的多模態(tài)數(shù)據(jù)(融合基于無人機的RGB、高光譜近紅外(HNIR)和熱成像圖像)進行田間作物產(chǎn)量預測,提出了MultimodalNet的新型模型,融合效果精度高于任意單一模態(tài)。 微調(diào)后的多模態(tài)行業(yè)大模型+邊側(cè)小模型或?qū)⑹俏磥韼啄曜钸m合智慧物聯(lián)的形式。 但單純依靠云端的多模態(tài)行業(yè)大模型會存在一些問題。 大模型規(guī)模較大,難以部署在邊緣設(shè)備上,只能以云的形式提供服務(wù),但云有較高的時延,一線生產(chǎn)中的數(shù)據(jù)處理和控制等網(wǎng)絡(luò)主要是內(nèi)網(wǎng),需要更加穩(wěn)定的網(wǎng)絡(luò)和及時的處理,將這類需求送至云端并不合適,且由于本地數(shù)據(jù)量大,全部“上云”成本高企且存在隱私風險。 邊側(cè)算力不足無法運行大模型,但是可以通過知識蒸餾等方法,用teacher模型訓練student模型,用教師模型的輸出作為軟標簽來指導學生模型的學習,且能較好保全原有模型的功能,實現(xiàn)云邊協(xié)同,保證私域安全性以及更好的實時性。 基于分析,我們認為,微調(diào)后的多模態(tài)行業(yè)大模型+邊側(cè)小模型或?qū)⑹俏磥韼啄曜钸m合以視頻為核心的智慧物聯(lián)行業(yè)的形式。