HoloLens聯(lián)合發(fā)明人Avi Bar-Zeev分享:通往全天候AR眼鏡的道路
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)Nweon
通往全天候眼鏡之路
(映維網(wǎng)Nweon?2022年08月15日)全天候AR眼鏡是行業(yè)正在追逐的一個(gè)目標(biāo),諸如蘋(píng)果、Meta和微軟等科技巨頭都在積極進(jìn)行探索布局。但顯然,前方的挑戰(zhàn)眾多。日前,在XR領(lǐng)域有著30多年經(jīng)驗(yàn),并且是微軟HoloLens聯(lián)合發(fā)明人之一的艾維·巴茲夫(Avi Bar-Zeev)就撰文介紹了通往全天候AR眼鏡的道路:

圖源:Josh Calabrese
通往全天候XR眼鏡之路
30多年來(lái),我一直致力于XR、元宇宙和空間計(jì)算方面的工作,包括為10個(gè)不同的XR頭顯項(xiàng)目提供過(guò)協(xié)助或建議。我非常有幸地在早期就為一系列的項(xiàng)目做出了貢獻(xiàn),而大多數(shù)情況下都是通過(guò)證明或否定需求,并在團(tuán)隊(duì)花費(fèi)10億美元構(gòu)建它們之前定義關(guān)鍵用戶(hù)體驗(yàn)。在這個(gè)過(guò)程中,我學(xué)到了關(guān)于什么是有效的,什么又是無(wú)效的經(jīng)驗(yàn)教訓(xùn)。有時(shí)候,正確的答案是“尚未成熟”。
我不會(huì)披露過(guò)往雇主依然認(rèn)為是專(zhuān)有的任何信息。我將提供關(guān)于已發(fā)布專(zhuān)利的鏈接,而它們可以為我們提供一定的見(jiàn)解洞察。這就是專(zhuān)利的實(shí)際目的,信不信由你。當(dāng)然,我會(huì)避免我認(rèn)為會(huì)引起猜測(cè)的專(zhuān)利。
需要注意的是,不要把我說(shuō)的或?qū)懙娜魏卧捳Z(yǔ)當(dāng)作任何公司產(chǎn)品計(jì)劃的證據(jù),甚至是對(duì)任何人努力的任何批評(píng)。這根本不是我的本意。
作為背景,我建造的第一個(gè)真正的XR體驗(yàn)是一個(gè)CAVE。當(dāng)時(shí)我借了25萬(wàn)美元的電腦和巨型投影儀,又投入了3萬(wàn)美元購(gòu)買(mǎi)原材料。迪士尼在90年代出品,且價(jià)值10萬(wàn)美元的VR頭顯從未投入商業(yè)市場(chǎng)。它需要天花板吊下的線纜來(lái)承載重量,但有幾十萬(wàn)人嘗試過(guò)。
到2010年1月,我希望我們已經(jīng)準(zhǔn)備好開(kāi)始研發(fā)可用的消費(fèi)者XR眼鏡。是時(shí)候在這個(gè)發(fā)展緩慢的領(lǐng)域大顯身手了。另外,Google Glass和Magic Leap在同一時(shí)間冒頭。幸運(yùn)的是,我們?cè)谖④浄趸瘓F(tuán)隊(duì)接到的一個(gè)任務(wù)是為下一代XBox尋找新的構(gòu)想。
Xbox高管當(dāng)時(shí)表示:“激進(jìn)點(diǎn),甚至是令我們說(shuō)出‘真是瘋了’的話?!?/p>
我當(dāng)然有“激進(jìn)”的想法。我們的小團(tuán)隊(duì)很快就開(kāi)始研究一種新的產(chǎn)品概念“Screen Zero”:用一個(gè)屏幕來(lái)代替所有屏幕。我負(fù)責(zé)技術(shù)探索,并在第一個(gè)形成年幫助定義了體驗(yàn)。我離開(kāi)的理由不值得在本文中留下篇幅。但經(jīng)過(guò)一千多人的努力,HoloLens于2016年推出。
這是開(kāi)創(chuàng)性的設(shè)備。但它依然不是一款全天候的消費(fèi)者可穿戴設(shè)備。今天的Magic Leap 2、Snap?Spectacles、Varjo或Quest都不是。
所以,實(shí)現(xiàn)全天可佩戴的AR眼鏡到底需要什么?
1. 極多主義與極簡(jiǎn)主義
與HoloLens最終采用的方法一樣,極多主義方法是指將大量傳感器、算法和電源整合到一個(gè)高端系統(tǒng)中。當(dāng)我們確定了工程和用戶(hù)體驗(yàn),理論上我們可以縮小它。但這需要更多的時(shí)間,特定電子產(chǎn)品光是在優(yōu)化功率方面就需要長(zhǎng)達(dá)十年的時(shí)間。
Cambria和類(lèi)似的設(shè)備同樣采用了極多主義,以至于他們通過(guò)巨大的不透明VR顯示器和多個(gè)攝像頭來(lái)模擬AR,并對(duì)現(xiàn)實(shí)和模擬的混合進(jìn)行精確的逐像素控制。極多主義最適合高端應(yīng)用和核心研發(fā)。有人認(rèn)為,即便應(yīng)用更具工業(yè)性,它們都是目前唯一有效的工具。
然而,即使是當(dāng)今市場(chǎng)最昂貴的設(shè)備都不能實(shí)現(xiàn)全天佩戴,并且不能用于普通的社交互動(dòng),甚至不能在街道安全行走。諸如全息或光場(chǎng)顯示器等極多主義功能則尚未成熟。
另一方面,采用極簡(jiǎn)主義方法的設(shè)備包括亞馬遜Echo Frames、Snap Spectacles和Ray-Ban Stories等等。它們只打包符合可穿戴眼鏡形態(tài)當(dāng)前限制的技術(shù),通常會(huì)完全放棄顯示器。
不過(guò),沒(méi)有顯示器的眼鏡可以算是XR嗎?
如果它能夠增強(qiáng)一個(gè)人的情景視角,我會(huì)說(shuō)是的。播客或音樂(lè)組合不是XR,因?yàn)樗廊粺o(wú)法感知到你或你當(dāng)前的環(huán)境。GPS導(dǎo)航應(yīng)用有一點(diǎn)符合,但并不足夠。為人工智能和精確定位添加空間音頻和攝像頭肯定能算XR,即便沒(méi)有顯示器。
極簡(jiǎn)主義方法可以在短期內(nèi)賣(mài)出更多的產(chǎn)品,它們通常專(zhuān)注于特定方面并將其打造成一流解決方案。如果能夠做好,就像隨身聽(tīng)和iPhone一樣,你可以賣(mài)出數(shù)十億美元。但不要認(rèn)為極簡(jiǎn)主義容易,因?yàn)閺暮芏喾矫鎭?lái)說(shuō),要做好很難。
2. 最優(yōu)方法
我原本希望XBox的Screen Zero是極簡(jiǎn)主義眼鏡和極多主義控制臺(tái)的混合體。AR眼鏡的大小應(yīng)類(lèi)似于Oakley眼鏡或更小。下一主機(jī)將為同一個(gè)房間內(nèi)的最多四副眼鏡承擔(dān)大多數(shù)的繁重工作。

3. 人體工學(xué)、能耗和熱量
為什么要分開(kāi)呢?歸根結(jié)底是能耗,或者更準(zhǔn)確地說(shuō):熱量。
計(jì)算機(jī)的所有工作最終都以熱量的形式結(jié)束,其他或許包括光子和/或機(jī)械驅(qū)動(dòng),比如聲音。多少熱量?一副輕量級(jí)AR眼鏡可以產(chǎn)生大約一瓦特的能量。
典型的智能手機(jī)可以產(chǎn)生大約10瓦,然后發(fā)熱。一臺(tái)主機(jī)或PC可以比智能手機(jī)多消耗10倍-100倍的能量,因此比眼鏡多消耗100倍-1000倍的能量。想想小小的LED手電筒和巨大的干衣機(jī)。這是能耗方面的巨大差異。
為了平衡能耗,我們需要類(lèi)似于我從2010年開(kāi)始研究的解決方案,例如數(shù)據(jù)融合、分割渲染、優(yōu)化渲染流。對(duì)于較低的帶寬,基于眼動(dòng)追蹤的時(shí)間扭曲渲染效果很好,并且能覆蓋通信延遲。
CPU、攝像頭、顯示器和RAM消耗巨大的能量,并產(chǎn)生非常多的熱量。所以,秘訣是在大多數(shù)情況下都減少使用它們。想想低功耗的定制硬件:新型的情景傳感器、超低功耗顯示器,以及可以巧妙“喚醒”的算法。
這需要時(shí)間解決。例如,如果你的光學(xué)鼠標(biāo)和主機(jī)控制器不待機(jī),它們的電池就會(huì)耗盡,所以它們最開(kāi)始都是采用系留方案。今天,一個(gè)光學(xué)鼠標(biāo)可以依靠一枚小電池?fù)螏讉€(gè)月。
4. 客廳之外
為了廣泛支持各種用例,光學(xué)透明AR系統(tǒng)需要理想地阻擋來(lái)自明亮環(huán)境的光線(甚至是窗戶(hù)或客廳的照明),更好地個(gè)性化并將空間音頻與現(xiàn)實(shí)混合,調(diào)整光學(xué)焦點(diǎn),捕獲和再現(xiàn)他人的虛擬全息圖等等。
即便將設(shè)備分為主機(jī)和耳機(jī),我們的頭上依然會(huì)有太多“東西”。一個(gè)巨大的人體工學(xué)挑戰(zhàn)是擺脫大多數(shù)XR設(shè)備依然使用的、令頭顯看起來(lái)像是抱臉蟲(chóng)的巨大束帶。
任何一種要求拉緊的束帶都會(huì)限制用戶(hù)群的多樣性(考慮頭的大小變化和弄亂頭發(fā)的敏感性),并且這會(huì)降低穿戴眼鏡的可能性。這意味著全天候設(shè)備必須超輕,并且通常與普通眼鏡一樣合身。
達(dá)到Oakley眼鏡大小或更小的眼鏡通常意味著將系統(tǒng)的更多部分移動(dòng)到夾包或遙控器之中。Magic Leap提供了這樣一個(gè)夾包。我注意到有XR設(shè)備采用頸帶式設(shè)置,亦即將計(jì)算組件掛在消費(fèi)者的脖子。對(duì)于這種分體式設(shè)計(jì),分開(kāi)的工作越多,眼戴/頭戴組件就能越輕。
2010年,我個(gè)人對(duì)二頭肌更感興趣,因?yàn)樗且粋€(gè)錨定點(diǎn),如果需要,可以接一條短線。這可以令較重和較熱的組件遠(yuǎn)離頭部和頸部,并具有大量表面積來(lái)散熱。位于手臂的生物傳感器同時(shí)可以檢測(cè)手勢(shì),類(lèi)似于Meta使用Control+Labs設(shè)備從手腕讀取手勢(shì)的方式。對(duì)于這種方式,產(chǎn)品設(shè)計(jì)師依然可以說(shuō)“沒(méi)有線纜”。
5. 焦點(diǎn)
因?yàn)榇罅康某赡耆诵枰C正遠(yuǎn)近視力,所以一個(gè)全天可穿戴的形狀參數(shù)通常需要為我們放大和聚焦真實(shí)世界。至少,這意味著鏡片需要支持定制的視力參數(shù)光學(xué)元件。Snap收購(gòu)的一家波導(dǎo)公司早前宣布,計(jì)劃將相關(guān)的光學(xué)元件嵌入功能性視力鏡片之中,但這相當(dāng)困難。
但一個(gè)視力參數(shù)就足夠了嗎?不少成年人只在閱讀或駕駛(遠(yuǎn)視)時(shí)需要眼鏡,這意味著他們需要眼鏡能夠切換成不同的狀態(tài)。所以,我們需要兩副或三副昂貴的眼鏡嗎?或者雙焦點(diǎn),三焦點(diǎn),根據(jù)你看的地方不同而相應(yīng)地彎曲光線?(實(shí)用,但不理想)
我推動(dòng)的一個(gè)方案是動(dòng)態(tài)光學(xué)調(diào)整,允許同一副眼鏡可以支持閱讀或駕駛,甚至可以放大精細(xì)印刷品和遠(yuǎn)方標(biāo)志。這同時(shí)可以允許更多朋友輕松嘗試。想象一下,如果你的XBox只支持單人游戲,而房間里又有兩三位朋友?挺掃興的吧。
目前最好的動(dòng)態(tài)聚焦方法包括Alvarez(機(jī)械滑動(dòng))和充液可調(diào)透鏡。機(jī)械解決方案往往會(huì)降低可靠性。有相當(dāng)多的研發(fā)投入到堆疊特殊LCD并以電子方式改變焦點(diǎn)。Mega收購(gòu)了一家公司來(lái)負(fù)責(zé)這個(gè)任務(wù)。
然后還有一個(gè)問(wèn)題,就是基于當(dāng)前視線聚焦虛擬圖像。Avegant和Magic Leap向我們展示了如何在兩個(gè)焦距之間快速切換,從而模擬簡(jiǎn)單的光場(chǎng)顯示,這對(duì)于臂展范圍內(nèi)以適當(dāng)?shù)慕咕酁g覽“虛擬對(duì)象”非常重要。我之前研究過(guò)幾種連續(xù)掃描焦距的方法,但商業(yè)顯示器在實(shí)踐中不夠快。
追蹤你的眼睛可以為處理提供幫助,減少計(jì)算負(fù)載,并提供更自然的用戶(hù)輸入。我非常熟悉眼動(dòng)追蹤問(wèn)題,并在早期提醒決策者注意風(fēng)險(xiǎn)。
最后,在商業(yè)方面,Luxottica通過(guò)銷(xiāo)售低成本高標(biāo)價(jià)的眼鏡而獲利豐厚。它主宰著當(dāng)今的市場(chǎng),以及你所知道的大多數(shù)眼鏡品牌。XR眼鏡公司必須與他們合作或與他們對(duì)抗,這兩種選擇都不容易。Meta選擇與他們合作開(kāi)發(fā)雷朋眼鏡。這家公司的競(jìng)爭(zhēng)對(duì)手包括Warby Parke和其他小玩家。沒(méi)有好的分銷(xiāo)渠道和合作伙伴,你就無(wú)法銷(xiāo)售好的新品。
6. 對(duì)比度
Magic Leap 2提供了一種選擇性模糊自然世界的方法。我從2010年開(kāi)始研究這個(gè)問(wèn)題,但現(xiàn)在依然沒(méi)有完美的解決方案。一系列的光學(xué)工程師都不認(rèn)為這是必要項(xiàng)。原因如下:
人們普遍理解為什么透明的“加法”顯示器不能呈現(xiàn)“黑色”。黑色的RGB=0,0,0,這實(shí)際上沒(méi)有添加任何內(nèi)容,并且在現(xiàn)有光線下不可見(jiàn)。然而,我們可以很容易地通過(guò)接近較亮的區(qū)域來(lái)欺騙你感知黑色和陰影。
當(dāng)你把你的XR眼鏡帶到戶(hù)外,看著一堵被明媚陽(yáng)光照射的墻壁時(shí),真正困難的問(wèn)題就會(huì)出現(xiàn),可能是在黑暗或陰影區(qū)域附近。特定區(qū)域的亮度可能是其他區(qū)域的1000到10000倍。對(duì)比度在室內(nèi)非常顯著,以至于AR的視覺(jué)效果看起來(lái)非常可怕。光學(xué)工程師經(jīng)常爭(zhēng)辯說(shuō),要想克服這一問(wèn)題,你就需要輸出更多的光。他們的光學(xué)系統(tǒng)通常只有1%-10%的效率,這意味著大多數(shù)光甚至無(wú)法進(jìn)入你的眼睛,并且只是增加了更多的熱量。回憶一下,你不能僅僅圍繞光學(xué)設(shè)計(jì)一個(gè)系統(tǒng),因?yàn)闊崃渴亲畲蟮南拗埔蛩刂弧?/p>
現(xiàn)實(shí)情況是,任何一副透明AR或視頻透視眼鏡在進(jìn)行視覺(jué)增強(qiáng)時(shí)都需要考慮真實(shí)場(chǎng)景。在透明的情況下,眼鏡通常需要減去真實(shí)照明以獲得所需的最終顏色。在視頻透視的情況下,顯示器可以替換整個(gè)像素,但虛擬3D場(chǎng)景中的任何透明度依然需要將其與從攝像頭讀取的背景顏色混合。所以你基本上看到的是高能耗的攝像頭和電路,要么是透明的,要么是不透明的。這是一個(gè)巨大的設(shè)計(jì)約束,因?yàn)樗黾恿四芎暮椭亓?,同時(shí)遮擋了眼睛。
表面上看,用透明眼鏡選擇性遮光比增加顯示功率或增加攝像頭成本更低。2010年,我在波導(dǎo)前面放置了一個(gè)簡(jiǎn)單的單色LCD。它可以按預(yù)期工作,能夠以柔和的黑色輪廓渲染三維實(shí)體對(duì)象。但它有缺點(diǎn),包括需要?jiǎng)討B(tài)校準(zhǔn),LCD會(huì)扭曲真實(shí)光線(主要是控制線的折射)。它本身的動(dòng)態(tài)范圍很差。在室外,有時(shí)你需要接近100%的不透明度。在室內(nèi),尤其是在社交場(chǎng)合和遠(yuǎn)程臨場(chǎng)感中,你希望更透明,以直接看到人們的眼睛。
針對(duì)這種方法的主要反對(duì)意見(jiàn)是,LCD或其他空間光調(diào)制器通常離焦,距離眼睛只有一英寸。但畸變?nèi)绱?,只要有適當(dāng)?shù)募印p透明AR顯示屏和一定的快速低功耗傳感器,你的太陽(yáng)眼鏡就可以遮擋陽(yáng)光、強(qiáng)光或大燈,而不會(huì)令其他地方的視線變暗。你可以巧妙地將世界變暗,令推薦的書(shū)看起來(lái)閃閃發(fā)光。通過(guò)更先進(jìn)的減法(過(guò)濾),眼鏡甚至可以為世界重新著色,增強(qiáng)夜視,甚至在你感到不安或注意力不集中時(shí)提供生物特征反饋。
我制作了各種演示內(nèi)容,并花費(fèi)了很長(zhǎng)時(shí)間來(lái)尋找更好的方法。但它們都有一定的缺點(diǎn)。不過(guò),Magic Leap 2的實(shí)現(xiàn)給了我希望,核心問(wèn)題將能得到解決。
7. 網(wǎng)絡(luò)
無(wú)線電同樣需要能量,所以在分體式系統(tǒng)中總是有一個(gè)權(quán)衡。最有希望的未來(lái)在于使用更高端的無(wú)線電頻率來(lái)實(shí)現(xiàn)比今天更低的功率和更高的帶寬。但主要的挑戰(zhàn)是這種頻率無(wú)法穿過(guò)皮膚或墻壁(無(wú)論好壞)。所以,解決方案需要非常聰明,因?yàn)闊o(wú)線電波在房間和人周?chē)磸椇托纬刹ㄊ?,所以可能需要使用比今天更多的發(fā)射器。顯然,這增加了成本和復(fù)雜性。
對(duì)于全天可穿戴的情況,它同時(shí)要求在銷(xiāo)售依賴(lài)網(wǎng)絡(luò)的產(chǎn)品之前先提供網(wǎng)絡(luò)。這種限制是企業(yè)從未發(fā)布我所提倡的分割渲染解決方案的最大原因。5G更接近我們的需求,但至少在美國(guó),這主要解決了延遲較低以及更多人同時(shí)使用網(wǎng)絡(luò)的問(wèn)題。我們需要的不僅僅是5G,但這是一個(gè)好的開(kāi)端。
為了擺脫房間里原有的“主機(jī)”(或類(lèi)似設(shè)備),同時(shí)保持小巧輕便的外形,我們需要一種“邊緣”計(jì)算的方式,并以一種不侵犯我們隱私的方式結(jié)合在一起。對(duì)于任何人來(lái)說(shuō),將其生物特征傳感器數(shù)據(jù)發(fā)送到任何邊緣或云解決方案都非常令人擔(dān)憂,因?yàn)樗苋菀妆粸E用利用。
8. 攝像頭
把攝像頭放到眼鏡是一個(gè)棘手的問(wèn)題。Google Glass在社會(huì)接受度方面犯了諸多錯(cuò)誤,并遭受了普遍攻擊。但Snap似乎這方面的問(wèn)題很少。與此同時(shí),F(xiàn)acebook一直致力于全面采集每個(gè)人的生活細(xì)節(jié),想必是為了提供更個(gè)性化的廣告,無(wú)論我們是否愿意。
特定攝像頭的耗能很大,例如3D場(chǎng)景數(shù)字化,以及對(duì)人或物體進(jìn)行數(shù)字遮擋。為了正確放置3D圖形,你需要在空間連續(xù)追蹤頭部,而攝像頭依然是領(lǐng)先的解決方案。通過(guò)利用IMU傳感器,我們正在提升能耗。
拍照片或視頻是一種相當(dāng)流行的用例,尤其是如果它比其他設(shè)備更自然、更方便。然而,由于尺寸和功率的限制,照片的質(zhì)量將低于典型的智能手機(jī)。在鏡框提供一盞小白燈不足以解決復(fù)雜的社會(huì)認(rèn)可問(wèn)題。
場(chǎng)景理解更容易想象為帶攝像頭眼鏡的一個(gè)主要功能,部分原因是它不必拍攝其他人的照片,更重要的是它為全天佩戴眼鏡打開(kāi)了最重要的新用例:情景理解。
9. 體驗(yàn)
在2010年,我最希望展開(kāi)的研發(fā)是支持強(qiáng)大眼動(dòng)追蹤和身體追蹤功能的AR眼鏡,探索更自然的空間計(jì)算用戶(hù)界面,從而超越PC和鼠標(biāo)這種傳統(tǒng)的“矩形中的矩形”。盡管硬件肯定有其局限性,但XR的廣泛普及需要有人解決這個(gè)體驗(yàn)性問(wèn)題,即在未來(lái)“如何”進(jìn)行交互?“盒子里的3D盒子”顯然不是。所以我們還有很多工作要做。
盡管Meta正在將他們的VR重點(diǎn)放在通過(guò)所謂“視覺(jué)圖靈測(cè)試”,但全天可穿戴的XR眼鏡需要比其他眼鏡更有用。許多人想象AR層或通道滲透到我們的現(xiàn)實(shí)中,標(biāo)記我們看到的一切,添加信息,用3D講述空間故事,并重新繪制世界。盡管這很可能是按需提供,但那并不是我所期望的日常體驗(yàn)。
大多數(shù)情況下,人們希望改進(jìn)他們經(jīng)常做的事情:交流、導(dǎo)航、發(fā)現(xiàn)我們周?chē)氖澜纭⒗斫馍踔粮淖兡硞€(gè)地方、購(gòu)物、體驗(yàn)內(nèi)容和通過(guò)工作賺錢(qián)。為了取得成功,XR眼鏡需要比我們?cè)谥悄苁謾C(jī)或其他設(shè)備做得更好。
以下是智能手機(jī)所無(wú)法做到的事情。想象一下,一副外觀正常的眼鏡可以動(dòng)態(tài)地調(diào)整焦距并選擇性地遮擋光線。它們可以主動(dòng)地、隱私地與你交談,無(wú)需你鍵入文本或口頭詢(xún)問(wèn)。僅這一項(xiàng)就將是一個(gè)價(jià)值十億美元的產(chǎn)品。這種眼鏡可以幫助你記憶事項(xiàng),或者作為你日常體驗(yàn)的一部分提供值得信賴(lài)的推薦(與推送廣告相比)。
我在這方面做的最重要研究是,使用非視覺(jué)XR眼鏡進(jìn)行異步通信。在今天,智能手機(jī)的語(yǔ)音和文字功能已經(jīng)足夠好,但它們知道你什么時(shí)候在努力集中注意力嗎?它們能幫助你在正確的時(shí)間切換情景,以保持工作或娛樂(lè)的流暢性嗎?這就是所述眼鏡可以發(fā)光發(fā)熱的地方(假設(shè)我們可以信任制造商)。
我所描述的一切都非常難,相關(guān)技術(shù)幾乎尚不存在。它還沒(méi)有走上極簡(jiǎn)主義的軌道,但那是因?yàn)槲覀冞€沒(méi)有將其優(yōu)先于光學(xué)器件的小型化和視場(chǎng)的最大化。但如果你詢(xún)問(wèn)這樣一個(gè)問(wèn)題:什么樣的XR眼鏡可以在別人沒(méi)有成功的地方取得成功?我依然認(rèn)為我上面列出的一切會(huì)幫助你打造出一款優(yōu)秀的產(chǎn)品。
---
原文鏈接:https://news.nweon.com/99800