Limu-bert自監(jiān)督學習
在摘要中需要說
IMU數(shù)據(jù)需要大量的標記數(shù)據(jù)進行訓練,所以導致了很高的標注和訓練成本。
充分利用未標記的IMU數(shù)據(jù)做自監(jiān)督學習,提出了什么什么新方法能夠?qū)崿F(xiàn)什么什么的目的,有什么優(yōu)點而且在現(xiàn)實生活中有什么意義
摘要
其中主要說的是使用了BERT架構(gòu),但是不像自然語言處理一樣,而是將其改進為更適用于傳感器數(shù)據(jù)的BERT。
(原始的BERT算法不適合于移動IMU數(shù)據(jù)。 通過仔細觀察IMU傳感器的特性,我們提出了一系列技術(shù),并相應地使LIMU-BERT適應于IMU的傳感任務。)
解決方式:
為此,本文設(shè)計了包括數(shù)據(jù)融合與歸一化、有效的訓練方法、結(jié)構(gòu)優(yōu)化等在內(nèi)的多種技術(shù),并將其(IMU data)嵌入到Bert框架中,以提高IMU傳感應用的效能和效率
引言(需要包括自己貢獻以及數(shù)據(jù)集比較的結(jié)果以及介紹文章架構(gòu))
深度學習在傳統(tǒng)IMU數(shù)據(jù)的缺陷是什么導致阻礙了實踐中的應用
大多數(shù)現(xiàn)有的工作在很大程度上依賴于監(jiān)督學習過程,其中需要大量標記的IMU數(shù)據(jù)來訓練傳感模型。 由于兩個原因,對大量標記數(shù)據(jù)的要求阻礙了它們在實踐中的采用。 首先,標記的IMU數(shù)據(jù)很少,因為在現(xiàn)實環(huán)境中收集足夠的標記IMU樣本成本高,耗時長。 其次,移動設(shè)備、使用模式和環(huán)境的多樣性導致需要帶有電話型號、用戶和使用場景的各種組合的標記數(shù)據(jù),以獲得可推廣的模型。
自監(jiān)督需要做的實驗
在學習表征之后,可以用少量標記的IMU樣本訓練多個特定于任務的推理模型?!径鄠€下游任務,少量標記樣本進行訓練】
本文注重的IMU點
在仔細研究了IMU數(shù)據(jù)的特點之后,我們重點研究了兩類特征:IMU傳感器單個測量值的分布和連續(xù)測量值的時間關(guān)系。
本文的貢獻
本文設(shè)計了一種從無標記IMU數(shù)據(jù)中學習一般表示的自監(jiān)督方法。基于學習表示,任務特定模型可以用少量標注樣本進行訓練,這大大減少了標注數(shù)據(jù)的監(jiān)督訓練開銷。
本文提出了一系列關(guān)于BERT的調(diào)整和增強,以在移動傳感應用中最好地使用IMU數(shù)據(jù)。LIMU-BERT是輕量級的,可用于移動設(shè)備。
開發(fā)了一個原型系統(tǒng),并進行了實驗驗證。廣泛的評價結(jié)果表明了LIMU-BERT在學習可泛化數(shù)據(jù)表示方面的有效性。
預備(感覺有點像動機)
融合很重要
陀螺儀的讀數(shù)有明顯的波動,而加速度計的讀數(shù)更穩(wěn)定,因為陀螺儀對運動更敏感。 如果考慮加速度計讀數(shù)的變化,可以減輕陀螺儀波動的影響。 換句話說,多個傳感器的交叉引用可以提供更多的信息,提高整體性能,這已經(jīng)被先前的工作所證明。 因此,與當前多模態(tài)傳感器融合的研究方向相一致,表示學習模型應該支持多個IMU傳感器的數(shù)據(jù)融合,這不是原始BERT用于NLP的設(shè)計目標。
分布很重要
因此,我們認為IMU讀數(shù)的分布包含了豐富的信息,這是LIMU-BERT應該捕捉的一個特征。我們認為,如果要捕獲一般特征,在將原始IMU數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)之前,不應進行任何可能破壞原始IMU數(shù)據(jù)分布信息的變換。
上下文很重要
因為跑步和走的數(shù)據(jù)在圖中會顯示出對應的周期性??傊?,時間關(guān)系在IMU數(shù)據(jù)的表示學習中也扮演著重要的角色,這將很可能受益于BERT-like設(shè)計。
效率很重要
傳統(tǒng)的BERT參數(shù)數(shù)量太多了,我們要優(yōu)化模型讓其變得小一點,更有利于便攜性。
方法
融合與標準化
我們設(shè)計了一種簡單而有效的加速度計和磁強計讀數(shù)歸一化方法,以縮小距離差異,而不會嚴重改變它們的分布,可以表示為:
X: 張量 X^u:是未標記的樣本 X^l:是帶標簽的樣本 W = H_dim * S_dim(Hdim是大于Sdim的隱藏尺寸)
這個部分,寫的很基礎(chǔ),就是通過MLP讓原先比如(6, 128)的向量進行高維化到(64,128)類似是這樣的,同時得到的(64, 128)也需要針對其做一個LayerNorm操作,實現(xiàn)標準化。
學習表示
總之,我們認為MLM(bert里面的掩碼策略)有利于從IMU數(shù)據(jù)中提取我們的目標特征。【原因:首先,在MLM訓練過程之后,分類器能夠基于相應的表示重構(gòu)被掩蓋的讀數(shù),這意味著Limu-Bert學習的特征必須包含分布信息。 其次,需要Limu-Bert為屏蔽讀數(shù)生成表示,這樣的過程迫使它學習IMU數(shù)據(jù)中的上下文關(guān)系?!?/p>
遮蓋方法:(因為如果只有一個樣本子序列被屏蔽的話實際上模型能夠通過鏡像來重構(gòu)屏蔽的讀數(shù)==>所以我們要使用長時間的mask進行重建==>引出新的這種mask機制)
我們實現(xiàn)了一個Span Masking機制[15],它從????????處截取的幾何分布??????(??)中采樣子序列的長度(用??表示):
成功概率??,掩碼率????,掩碼概率??_m
掩碼方法的細節(jié)在算法1中進行了總結(jié)。第2、4行??[??,??)表示離散均勻分布,間隔[??,??]。????????是一個IMU序列中被屏蔽的讀數(shù)的最大數(shù)目,第7行中的方程保證每次都有????????讀數(shù)被屏蔽。??和??是每個子序列的開始和結(jié)束索引。在第2行中,我們從[0,1)中均勻隨機抽取一個????,只有當????<????時,IMU序列才會被屏蔽。換句話說,屏蔽的執(zhí)行概率為????。原因是在監(jiān)督學習階段輸入數(shù)據(jù)沒有掩碼,導致兩個學習階段的輸入數(shù)據(jù)存在差異。為了解決這個問題,LIMU-BERT可以學習如何通過概率掩蔽來處理未掩蔽和掩蔽數(shù)據(jù)。在第11行中,所選讀數(shù)的所有值都替換為0。屏蔽率????和屏蔽概率????分別設(shè)為0.15和0.8。掩碼位置設(shè)置??將用于丟失函數(shù)。
輕量級模型
因此,我們采用了更小的采樣率(即20 Hz),相比現(xiàn)有的作品[8,33,51],并相應地減小了輸入IMU序列的長度。
limu -BERT的表示維????????小于原始BERT的表示維1024,有助于縮小模型尺寸。
LIMU-BERT采用跨層參數(shù)共享機制[19],提高參數(shù)效率。LIMU-BERT由多個編碼器層組成,其中只對第一個編碼器層中的參數(shù)進行訓練。第一層的參數(shù)與其他層共享。這種機制大大減少了LIMU-BERT的參數(shù)數(shù)量。
架構(gòu)設(shè)計
其中??是????????×??矩陣。一開始,規(guī)范化的數(shù)據(jù)??在輸入LIMU-BERT之前需要被屏蔽。投影和范數(shù)分量共同實現(xiàn)了式2和式3中的傳感器融合和歸一化設(shè)計。請注意,所有的標準化組件(即圖3中的黃色矩形)表示層標準化。接下來,將位置編碼[43]添加到輸入數(shù)據(jù)中,以充分利用order信息。經(jīng)過第二層歸一化層后,隱藏特征表示如下:
其中????(·)是位置嵌入函數(shù),它將訂單(列)索引映射到長度為????????的向量。所有位置嵌入都是可訓練的變量。然后,一個注意-腸道塊(即圖3中的紫色矩形)將??作為輸入,并在輸出最終表示之前重復????????次。這個塊中的所有組件都是相同的,這個過程實現(xiàn)了跨層的參數(shù)共享機制。
其中??為[1,????????]中的整數(shù)。MultiAttn(·)是一個帶有????????注意頭的自我注意層[43]。注意層的查詢、鍵、值隱藏維度為????????。Proj(·)表示全連接層,其輸入和輸出尺寸均為????????。前饋(·)由兩個完全連通的層組成,隱維為????????,輸入輸出尺寸與Proj(·)相同(????????)。兩個完全連通層之間存在一個高斯誤差線性單元(GELU)[9]激活函數(shù)。最后,我們可以得到一個掩碼IMU序列????的表示??=??{????????}。
超參數(shù)設(shè)置:在LIMU-BERT中,????????和????????被設(shè)置為4。根據(jù)之前的設(shè)計,在20Hz的采樣率下,??設(shè)置為120。
解碼器
????????由三個組件組成:一個投影、一個激活的規(guī)范化層和一個預測頭。解碼器可以表示為:
Pred(·)和Proj(·)為單全連通層,單元號分別為????????和????????。最后,從被屏蔽的IMU序列中得到重建的IMU序列?????。
訓練
如前所述,重構(gòu)問題被視為回歸任務。因此,自監(jiān)督階段的損耗函數(shù)定義如下:
分類頭
在我們的框架中,我們用門控循環(huán)單元(GRU)[4]設(shè)計了一個輕量級分類器,如圖4所示。它包含三個疊加的GRU層,隱藏大小分別為20、20和10。GRU第一層輸入尺寸為????????。在GRU層上,只將最后一個位置的隱藏特征輸入dropout層,drop rate為0.5,目的是減少過擬合。接下來,在softmax層之前構(gòu)建兩個全連接的層,其中包含10個隱藏單元。最終的輸出大小與目標任務中的類的數(shù)量相同。GRU分類器是非常輕量級的,因為只有有限的標簽樣本可用。
實驗
數(shù)據(jù)集:
HHAR, UCI, MotionSense