Monkey blog: 高效的多視圖深度表示圖像分割

摘要——多媒體領域的持續改進生產大大增加了用戶的需求

身臨其境的 3D 系統。方便實施然而，技術需要顯著減少

代表所需的信息量。深度基於圖像的渲染算法大大減少了

3D 場景重建所需的圖像數量，儘管如此，深度圖的壓縮仍然會造成一些

由於數據的特殊性而面臨挑戰。為此，本論文提出了一種新穎的深度表示方法，

利用顏色強度之間存在的內在相關性和自然場景的深度圖像。基於分段的

方法被實施，這減少了數量傳輸所需的信息 24 倍

相對於傳統的 JPEG 算法，同時保持3D 視圖的準相同重建質量。

介紹

過去幾年，多媒體演示領域在堅持不懈的努力中經歷了不懈的進步

呈現越來越好的體驗質量。驅動通過消費者登記的技術進步電子產品，以及大幅降低成本捕獲

硬件設備，客戶期望有更加沉浸式體驗的需求，通過引入三維 (3D)圖片。實現這樣的多媒體系

統需要同時捕捉多個場景中的獨特場景遍布現場的攝像機。然而，可行性限制決定了它的成功

實施需要的不僅僅是進步採集硬件及自動立體影像的進展全息渲染顯示。龐大的數據量從捕捉

相機獲得仍然是一個顯著的圖像處理和傳輸領域的挑戰此外，實施限制要求實際系統只能在儀

器數量的情況下才能實現用於場景採樣的被修剪，因為這也會構成原始視頻數據的線性減少，

這將需要處理。

基於深度圖像的渲染 (DIBR) 技術顯示出足夠的潛力來滿足這一限制。

方法通過從有限的空間生成 3D 場景來操作站點周圍戰略性放置的圖像數量及其

相應的深度信息。可以得到這個深度數據通過採用飛行時間測量的專用深度傳感器，或通過利

用立體對應算法來導出視差和因此，捕獲的每個對象的深度值圖像幀。該場景隨後由

採用中間視圖重建 (IVR)對顏色強度執行 3D 扭曲的方法圖像像素通過它們各自的深度值作為如

圖所示。因此，這向觀眾展示了從任意角度觀察場景的能力具體範圍限制

圖 1. 基於深度圖像的渲染框圖概述用於 3D 場景重建的技術

有效代表這一點的開創性方法獨特的多媒體數據是由歐洲設計的

ATTEST 項目和所涉及的兩者的結合多視圖加深度 (MVD) 中的圖像和深度數據

表示格式前者還表示深度圖像可以承受進一步的壓縮，因為

深度圖中像素值的特殊分佈。因此，建議標準 H.264/AVC 編解碼器可以

用於以 10% 的壓縮率表示深度數據 -20% 相對於圖像的顏色強度。申請

然而，傳統的圖像壓縮提出了幾個重建深度圖像上的偽影，因為這些技術

特別調整以消除心理視覺冗餘顏色和紋理，同時保持對用戶的視覺保真度

相反，深度圖呈現不同的情況，因為這些圖像不是用戶直接感知的，而是，

用於由 IVR 生成新的圖像透視圖方法論。後者對為了高質量而停止深度保存數據渲染，

而均勻深度區域中的不精確值可以合理承受，影響微乎其微。

這些獨特的問題以及獨特的屬性出現在深度圖中已經引起了人們的極大興趣

設計一種方法來保持準確的深度代表同時利用固有的冗餘。

圖像和視頻處理研究界因此提出了許多技術，其範圍從時間

利用對應的MPEG標準在深度和運動向量之間使用形狀深度自適應離散小波變換 (SA-DWT)編

碼。幾何建模領域也已研究了多視圖的細緻場景，與深度圖表示為基於體素的八叉樹或

基於網格的編碼算法。空間的深度圖像中存在的相似性也已通過以下方式解決

利用 JPEG-2000 和感興趣區域 (ROI) 編碼算法等主要方法。有趣的結果有也可以通過以區域為

基礎的就業來實現技術，但是這些都不可行由於需要大量的比特率來實現通過鍊式編碼準確地

表示區域輪廓方法。

為此，本文提出了一種新穎的深度編碼利用存在的固有冗餘的方法

真實場景的圖像和深度數據之間的關係。一個基於分段的方法被認為可以利用

深度圖和彩色圖像中存在的空間親和力類似，因此大大減少了所需的數據量

表示深度圖，同時仍保持關鍵準確的 3D 視圖重建所需的質量。

本文組織如下；第二節描述了用於表示深度圖的技術

有關在其中重建數據的方式的詳細信息解碼器。第三節解釋了

提出了算法並給出了得到的結果。最後，第四節得出結論

二、深度圖表示技術

本文提出的方法包括考慮到深度圖可以描述為

由包含在尖銳區域內的平滑變化的區域組成由場景中的對象邊界產生的輪廓這些

特殊的特性允許深度圖的表示通過分段過程有效地完成，

因為後者會產生一些任意形狀的封閉由具有準同質值的像素組成的區域。

此功能意味著每個內部的深度值的編碼區域可以用奇異的 8 位值表示

區域內像素的相應深度。然而，在深度圖像的解碼過程中，解碼器

沒有任何詳細說明形狀的信息需要生成的區域。代表準確的然而，每個邊界的輪廓都非常昂貴

在數據方面，因此會降低分割技術為此，本文克服了這種限制通過提出一種新技術利用

顏色之間存在的相關程度強度圖像和深度圖都描繪了從相同的角度看相同的場景。彩色圖像是

使用傳統的編碼算法提供給解碼器。該數據存在於系統的兩端，用於同時導出邊界輪廓分割過

程。因此，表示在解碼器處重建深度圖所必需的只是為結果獲得的一系列深度值的區域作為來

自編碼器的輔助信息提供。

可以注意到，如果這兩個對象具有非常相似的外觀特徵、前景和背景

圖像區域可以合併成一個單獨的欠分割跨越深度邊界的區域。然而，鑑於兩人

物體具有不同的深度值，它們在不同的場景中的位置，因此它們通常會受到

來自自然光源和人造光源的不同照明，導致至少依賴於照明的差異成分。

這在圖 2 中可以清楚地看到。

圖 2. RGB 彩色圖像 (a) 被分解為光照用（b）亮度分量分割之前的依賴顏色空間，

（c）藍差色度分量 (d) 紅差色度分量

為了保證場景中的物體獨立分段，適合此的算法

要求必須能夠產生獨特而明顯的標記的區域。因此，諸如 K-means 聚類之類的方法

以及基於邊界的分割技術不是合適的。通過利用滿足要求的標準基於歸一化圖割的分割。

這個算法將圖像 I 建模為加權無向圖G=(V,E,W) 將每個顏色像素描述為圖形節點 V

邊緣 E 到相鄰像素。一種可能性的度量屬於同一圖像區域的像素 i 和像素 j 是

使用由權重值 W(i,j) 計算：

其中強度和乾預輪廓的像素親和力，分別由下標 I 和 C 表示，計算如下：

其中 X 和 I 表示像素位置和強度分別地，line(i,j) 是連接兩個像素的直線，並且

Edge(x) 是位置 x 的邊緣強度。標準化的graph-cuts 隨後將圖像劃分為多個區域

沿圖像邊緣執行最小能量切割圖。

三、實施和結果

提出的 3D 數據表示技術是以確保落後的方式實施與傳統的 2D 框架兼容。系統因此認為要壓縮

的彩色圖像編碼器，然後在傳輸後解碼回來或使用標準圖像壓縮的存儲過程

JPEG 和 JPEG2000 表示等編解碼器。驗證所提出的算法，使用的基線泰迪圖像

以 450×375 像素的分辨率拍攝，需要分別用 JPEG 壓縮時為 157kB 和 79.8kB

和JPEG2000。因此，所提出的技術假設接收器已解碼顏色強度數據，並如所描繪的

在第 II 節中，沒有任何與分割前的深度圖進一步協助實施可行性以及採取

從數據格式的特殊性質的優勢是解碼後，分割算法使用 YCbCr

顏色模型，表示亮度和色度圖像的組成部分分別如圖 2 所示。執行歸一化圖割算法

同時在編碼器和解碼器終端與為每個組件通道執行並行實現在圖像中。縮短處理時間和計算量

複雜度，算法執行只執行 50 每個圖像分量的最大能量削減。這個數據是依次結合，

使得重疊區域被分割成單獨的片段具有共同的支持，如圖 3 所示。

圖 3. (a-c) 對所有 3 個組件分別執行的分割然後利用圖像色彩空間來推導

(d) 最終分割通過組合不同的分區來繪製區域圖。

如圖 3d 所示，來自圖像中不同區域的組合過度分割組件確保分區足夠精細描述場景深度的任何

強烈過渡。因此，深度表示是通過為解碼器提供的深度值列表，表示每個深度值的中值地區。

此列表由編碼器提供信息到壓縮的顏色強度圖像。數據使用標準霍夫曼編碼算法進一步編碼以

減少此邊信息的最終大小。提議的因此，方法規定解碼器，繼執行相同的分割過程，

分配給每個派生區域來自有序側的相應深度值信息。重建的深度圖，如圖如圖 4c 所示，3D 顯

示器相繼採用生成一個空間移位的新視圖，它與原始圖像產生一個立體圖像對，如圖 1 程序。

由於解碼的深度圖不是直接的，用戶在 3D 視覺期間查看的，比較指標深度圖未能提供成功的

定量深度圖像質量的表示。因此，作為文獻中描述，客觀比較通過考慮 PSNR 值獲得深度圖

從虛擬重建的觀點推導出來。這些由標準 IVR 算法生成的圖像，

根據 3D 系統的要求，採用解碼顏色圖像及其各自的深度圖。

圖 4. (a) 參考未壓縮深度圖，(b) 參考虛擬視圖渲染，(c) 提出的深度圖表示技術，

(d) 虛擬視圖利用建議的深度圖像進行渲染。

在這樣的 N 相機多視圖系統中，許多圖像 Ik，其中 k=1,2,...,N，可用於給定場景

使得每個圖像 Ik，代表來自 k 的視圖th相機。作為我們系統比較的基準參考，

為第 k+1 個攝像機渲染圖像 Ik 的解碼視圖使用未壓縮的方法獲得重建圖像 Ik+1'

深度圖。使用建議的方法重複此過程壓縮深度圖以獲得 Ik+1”。 Ik+1” 和 Ik+1' 都是

然後與可用的 Ik+1 圖像進行比較以估計

使用建議的深度圖渲染視圖質量關於未壓縮的表示技術

深度圖像如圖 4 所示。主觀地觀察圖 4(b) 和 4(d) 中的結果，

立即表明，所提出的算法提供了一個

與生成的視圖質量相當的渲染視圖質量來自未壓縮的深度圖。一致的質量結果

在執行建議的方法時也獲得了將其他眾所周知的基線圖像中的數據表示為

如表一所示。此外，為了進一步揭示減少壓縮深度圖像產生的數據速率，表 I

還描述了 JPEG 壓縮文件之間的比較保守品質因數為 75% 的圖像

表 I. 深度圖的 PSNR 和數據速率比較

表現技巧

表 I 中表示的值表明渲染的圖像從提出的深度圖派生

技術在客觀上與通過生成的技術具有可比性未壓縮的深度圖像。 PSNR 支持這一點

僅相差 0.7 dB 的值。此外，這是在 IVR 執行的極端插值下獲得將虛擬視圖映射到相鄰視圖的算

法相機會放大深度之間的差異圖片。此外，深度圖壓縮值證明新的方法導致編碼增益與 JPEG

相比，因子為 24，平均只需要 445字節來表示分辨率為 450×375 的密集深度圖。

四。結論

本文提出了一種新穎的、向後兼容的、深度圖表示技術將用於

在 3D 場景重建中生成虛擬視點。所提出的方法採用基於圖的進一步利用對應關係的分割方法

存在於顏色強度圖像和深度圖之間從自然場景中的獨特位置捕獲。實施結果表明，數據減少了

一個因子JPEG 壓縮算法達到 24同時在 PSNR 值中僅出現很小的損失與未壓縮深度相比渲染的

圖像地圖場景。

Monkey blog

2022年10月10日

高效的多視圖深度表示圖像分割

沒有留言:

張貼留言

標籤

2022年10月10日

高效的多視圖深度表示 圖像分割

沒有留言:

張貼留言

高效的多視圖深度表示圖像分割