MaGGIe 로드맵: 매트 모델의 데이터 일반화 극복

링크 표

초록 및 1. 서론

관련 작품
매기

3.1. 효율적인 마스크 가이드 인스턴스 매트

3.2. 기능-매트 시간적 일관성
인스턴스 매팅 데이터세트

4.1. 이미지 인스턴스 매팅 및 4.2. 비디오 인스턴스 매트
실험

5.1. 이미지 데이터에 대한 사전 학습

5.2. 비디오 데이터 교육
토론 및 참고자료

\
보충자료

아키텍처 세부정보
이미지 매트

8.1. 데이터 세트 생성 및 준비

8.2. 교육 세부정보

8.3. 정량적 세부정보

8.4. 자연스러운 이미지에 대한 보다 질적인 결과
비디오 매트

9.1. 데이터세트 생성

9.2. 교육 세부정보

9.3. 정량적 세부정보

9.4. 보다 질적인 결과

6. 토론

한계와 향후 작업. MaGGIe는 바이너리 마스크 안내를 통해 휴먼 비디오 인스턴스 매트에서 효과적인 성능을 보여주면서도 추가 연구 및 개발의 기회도 제공합니다. 한 가지 주목할만한 제한은 안내 마스크의 각 위치에 대한 원-핫 벡터 표현에 의존하므로 각 픽셀이 단일 인스턴스와 뚜렷하게 연결되어야 한다는 것입니다. 이러한 요구 사항은 특히 다양한 소스의 인스턴스 마스크를 통합할 때 문제를 야기할 수 있으며 잠재적으로 특정 지역에서 정렬 불량이 발생할 수 있습니다. 또한 복합 교육 데이터 세트를 사용하면 자연스럽고 실제 시나리오에 효과적으로 일반화하는 모델의 능력이 제한될 수 있습니다. 포괄적인 자연 데이터 세트를 생성하는 것이 여전히 중요한 목표이지만 우리는 임시 솔루션을 제안합니다. 즉, 자기 지도 또는 약한 지도 학습 기술과 결합된 분할 데이터 세트의 활용입니다. 이 접근 방식은 보다 다양하고 현실적인 설정에서 모델의 적응성과 성능을 향상시켜 해당 분야의 미래 발전을 위한 기반을 마련할 수 있습니다.

\
결론. 우리의 연구는 인간 대상을 넘어서는 초점을 맞춰 진화하는 인스턴스 매트 분야에 기여합니다. MaGGIe는 변환기 주의 및 희소 컨볼루션과 같은 고급 기술을 통합함으로써 이미지 및 비디오 입력 모두에 대한 세부 정확도, 시간적 일관성 및 계산 효율성 측면에서 이전 방법에 비해 유망한 개선을 보여줍니다. 또한 훈련 데이터를 합성하고 포괄적인 벤치마킹 스키마를 개발하는 우리의 접근 방식은 인스턴스 매트 작업에서 모델의 견고성과 효율성을 평가하는 새로운 방법을 제공합니다. 이 작업은 비디오 인스턴스 매트의 한 단계 발전을 나타내며 이 분야의 향후 연구를 위한 기반을 제공합니다.

\
승인. 귀중한 초기 토론을 해주신 Markus Woodson에게 진심으로 감사드립니다. 또한 세심한 교정과 피드백을 해준 아내 Quynh Phung에게도 깊은 감사를 드립니다.

참고자료

[1] 어도비 벽돌. 어도비 프리미어. products/premiere.html, 2023. 1

\
[2] 사과. 컷아웃 개체 iOS 16. apple.com/en-hk/102460, 2023. 1

\
[3] 니콜라스 발라스, 리 야오, 크리스 팔, 아론 쿠르빌. 비디오 표현 학습을 위한 컨볼루셔널 네트워크를 더 깊이 탐구합니다. arXiv 사전 인쇄 arXiv:1511.06432, 2015. 4

\
[4] 아리 버만(Arie Berman), 아르파그 다두리안(Arpag Dadourian), 폴 블라호스(Paul Vlahos). 이미지에서 선택된 객체 주변의 배경을 제거하는 방법, 2000. 미국 특허 6,134,346. 2

\
[5] Guowei Chen, Yi Liu, Jian Wang, Juncai Peng, Yuying Hao, Lutao Chu, Shiyu Tang, Zewu Wu, Zeyu Chen, Zhiliang Yu 등. Pp-매팅: 고정확도의 자연스러운 이미지 매트입니다. arXiv 사전 인쇄 arXiv:2204.09433, 2022. 2

\
[6] Xiangguang Chen, Ye Zhu, Yu Li, Bingtao Fu, Lei Sun, Ying Shan 및 Shan Liu. 의미론적 지침을 통한 강력한 휴먼 매트팅. ACCV에서는 2022. 2

\
[7] Bowen Cheng, Ishan Misra, Alexander G Schwing, Alexander Kirillov 및 Rohit Girdhar. 범용 이미지 분할을 위한 마스크 어텐션 마스크 변환기. CVPR에서는 2022. 2

\
[8] 호 케이 쳉(Ho Kei Cheng)과 알렉산더 G 슈윙(Alexander G Schwing). Xmem: Atkinson-shiffrin 메모리 모델을 사용한 장기 비디오 객체 분할. ECCV에서는 2022. 1, 5

\
[9] 조동현, 유윙 타이, 권인소. 심층 컨벌루션 신경망을 사용한 자연스러운 이미지 매트팅. ECCV에서, 2016. 2

\
[10] Spconv 기여자. Spconv: 공간적으로 희박한 컨볼루션 라이브러리입니다. spconv, 2022. 5

\
[11] Marco Forte와 Franc¸ois Pitie.´ f, b, 알파 매트. arXiv 사전 인쇄 arXiv:2003.07711, 2020. 1, 2

\
[12] Google. Google Pixel 8의 매직 편집기입니다. https : //pixel.withgoogle.com/Pixel8Pro/usemagic-편집기, 2023. 1

\
[13] Kaiming He, Xiangyu Zhang, Shaoqing Ren 및 Jian Sun. 이미지 인식을 위한 심층 잔여 학습. CVPR에서는 2016. 11

\
[14] Kaiming He, 조지아 Gkioxari, Piotr Dollar 및 Ross Girshick. 마스크 r-cnn. ICCV에서, 2017. 13

\
[15] 안나 카타리나 헤보른, 닐스 호너, 스테판 뮐러. 오클루전 매트: 증강 현실 애플리케이션을 위한 사실적인 오클루전 처리. 2017년 IEEE ISMAR(혼합 및 증강 현실에 관한 국제 심포지엄). IEEE, 2017. 1

\
[16] Qiqi Hou와 Feng Liu. 동시 전경 및 알파 추정을 위한 상황 인식 이미지 매트팅. ICCV에서는 2019. 1

\
[17] 황웨이륜과 리밍수. 트라이맵 전파를 통한 엔드투엔드 비디오 매트팅. CVPR, 2023. 1, 2, 3, 7, 23

\
[18] Chuong Huynh, Anh Tuan Tran, Khoa Luu 및 Minh Hoai. 점진적 의미론적 분할. CVPR에서는 2021. 2

\
[19] Chuong Huynh, Yuqian Zhou, Zhe Lin, Connelly Barnes, Eli Shechtman, Sohrab Amirghodsi 및 Abhinav Shrivastava. Simpson: 한 번의 클릭으로 방해가 되는 객체 분할 네트워크를 사용하여 사진 정리를 단순화합니다. CVPR에서는 2023. 2

\
[20] Sagar Imambi, Kolla Bhanu Prakash 및 GR Kanagachidambaresan. 파이토치. TensorFlow를 사용한 프로그래밍: 엣지 컴퓨팅 애플리케이션을 위한 솔루션, 2021. 5

\
[21] Lei Ke, Henghui Ding, Martin Danelljan, Yu-Wing Tai, ChiKeung Tang 및 Fisher Yu. 고품질 비디오 인스턴스 분할을 위한 비디오 마스크 트랜스파이너입니다. ECCV에서는 2022. 2

\
[22] Zhanghan Ke, Jiayu Sun, Kaican Li, Qiong Yan 및 Rynson WH Lau. Modnet: 객관적인 분해를 통한 실시간 트림맵 없는 초상화 매트입니다. AAAI에서는 2022. 2

\
[23] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollar 및 Ross Girshick. 무엇이든 분류하세요. ICCV, 2023. 2, 3

\
[24] 필립 리와 잉 우. 비국소적 매트. CVPR에서는 2011. 2

\
[25] Anat Levin, Dani Lischinski, Yair Weiss. 자연스러운 이미지 매트를 위한 폐쇄형 솔루션입니다. IEEE TPAMI, 30(2), 2007. 2

\
[26] Jizhizi Li, Sihan Sis Ma, St. Privation 초상화 매트. ACM MM, 2021. 2

\
[27] Jizhizi Li, Jing Zhang, Dacheng Tao. 깊은 자동 자연스러운 이미지 매트. IJCAI에서는 2021. 2

\
[28] Jicaen P, Marianna Ohanan, Thanse Navalna, Ynchao Wei 및 Humphire. Vivider: 엔드 투 엔드 비디오 매트. arXiv arXiv:220801, 2022. 3

\
[29] Jizhizi Li, Jing Zhang, Stephen J Maybank 및 Dacheng Tao. 합성 및 실제 연결: 엔드투엔드 딥 이미지 매트를 지향합니다. IJCV, 2022. 2, 13

\
[30] Jiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan 및 Humphrey Shi. 비디오 인스턴스 매트. WACV에서, 2024. 2

\
[31] 리 야오이와 루 홍타오. 안내된 상황별 주의를 통한 자연스러운 이미지 매트화. aai에서, 2020. 1,

\
[32] Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang 및 Zicheng Liu. 역동적인 비디오를 위한 적응형 휴먼 매트. CVPR에서는 2023. 2, 3

\
[33] Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta, Brian L Curless, Steven M Seitz 및 Ira KemelmacherShlizerman. 실시간 고해상도 배경 매트. CVPR에서는 2021. 2, 3, 5

\
[34] Shanchuan Lin, Linjie Yang, Imran Saleemi 및 Soumyadip Sengupta. 시간적 안내를 통한 견고한 고해상도 비디오 매트. WACV에서, 2022. 2, 3

\
[35] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar 및 C Lawrence ? Zitnick. Microsoft coco: 컨텍스트 내 공통 개체. ECCV에서는 2014. 2

\
[36] Baoyuan Liu, Min Wang, Hassan Foroosh, Marshall Tappen 및 Marianna Pensky. 희소 컨벌루션 신경망. CVPR에서는 2015. 2

\
[37] Hao Lu, Yutong Dai, Chunhua Shen 및 Songcen Xu. 인덱스 중요: 깊은 이미지 매트를 위한 인덱스 학습. CVPR에서는 2019. 1, 2

\
[38] 오승욱, 이준영, 쉬닝, 김선주. 시공간 기억 네트워크를 이용한 비디오 객체 분할. ICCV에서는 2019. 1

\
[39] 박관용, 우상현, 오성욱, 권인소, 이준영. 야생에서의 마스크 유도 매트. CVPR에서는 2023. 1, 2, 3, 6, 19

\
[40] Khoi Pham, Kushal Kafle, Zhe Lin, Zhihong Ding, Scott Cohen, Quan Tran 및 Abhinav Shrivastava. 변환기를 사용하여 폐쇄형 및 개방형 어휘 속성 예측을 개선합니다. ECCV에서는 2022. 2

\
[41] Khoi Pham, Chuong Huynh, Abhinav Shrivastava. 이미지-텍스트 매칭을 위한 객체관계와 속성을 구성합니다. CVPR에서는 2024년.

\
[42] Quynh Phung, Songwei Ge, Jia-Bin Huang. 주의 재초점을 통한 기반 텍스트-이미지 합성. CVPR에서는 2024. 2

\
[43] Olgo Russakovsky, Hao Deng, Hao Su, Jonathan Krause, Sanjesk, 상원, Sean Ma, Zhiheng Huang, Andrej Karpathy, Korpathy, Adity Khosla, A Khosla 장관, Michael Bernstein 등 Imagent Imagent는 시각적 인식입니다. IJCV, 2015. 13

\
[44] Soumyadip Sengupta, Vivek Jayaram, Brian Curless, Steven M Seitz 및 Ira Kemelmacher-Shlizerman. 배경 매트: 세상은 녹색 화면입니다. CVPR에서는 2020. 1

\
[45] 성홍제, 오성욱, 브라이언 프라이스, 김은태, 이준영. 단일 트라이맵 비디오 매트. ECCV에서는 2022. 1, 2, 3, 5, 6, 7, 23

\
[46] Xiaoyong Shen, Xin Tao, Hongyun Gao, Chao Zhou 및 Jiaya Jia. 깊은 자동 초상화 매트. ECCV에서, 2016. 2

\
[47] 그렇기 때문에 Chi-Ang Tang과 Yings가 있습니다. 좌석 이미지가 매트입니다. CVPR, 2021. 2 [48] 관즈(Guanzhi)입니다. 시공간 정렬 및 일치가 포함된 심층 비디오. CVPR, 2021. 3, 6

\
[49] 그렇기 때문에 Chi-Ang Tang과 Yings가 있습니다. 인간은 상호 지침과 다중 인스턴스 개선을 통해 즉각적으로. CVPR, 2022. 1, 3, 5, 11, 13, 16, 18, 20, 20, 20,

\
[50] Yanan Sun, Chi-Keung Tang 및 Yu-Wing Tai. 시공간 희소성을 갖춘 초고해상도 이미지/비디오 매트. CVPR에서는 2023. 2, 3, 4, 5, 6, 7, 12, 13, 16, 17, 18, 20

\
[51] Ashish vaswani, noam shazer, niki parmar, jakob uszkoreit, llion jones, Aidan n gomez, łukasz kaiser 및 Illia polosukhin. 주의가 필요한 전부입니다. 뉴립스, 30, 2017.

\
[52] 랜드이고 야페티안, 카이, 아워훙쑤안양이다. 합의 정규 그라프 신경망을 통한 Mattin 비디오. CACCV, 2021. 3, 5

\
[53] Yumeng Wang, Bo Xu, Ziwen Li, Han Huang, Cheng Lu 및 Yandong Guo. 계층적 시공간 의미론적 안내를 통한 비디오 객체 매트팅. WACV에서, 2023. 2, 3

\
[54] 닝 쉬(Ning Xu), 브라이언 프라이스(Brian Price), 스콧 코헨(Scott Cohen), 토마스 황(Thomas Huang). 깊은 이미지 매트. CVPR에서는 2017. 2

\
[55] 양종신, 웨이윤차오, 이양. 비디오 객체 분할을 위해 객체를 변환기와 연결합니다. NeurIPS, 2021. 2, 3, 11

\
[56] Qihang Yu, Jianming Zhang, He Zhang, Yilin Wang, Zhe Lin, Ning Xu, Yutong Bai 및 Alan Yuille. 진보적인 개선 네트워크를 통한 마스크 유도 매트. CVPR에서는 2021. 1, 2, 3, 5, 6, 7, 11, 13, 16, 17, 18, 19

\
[57] Yunke Zhang, Chi Wang, Miaomiao Cui, Peiran Ren, Xuansong Xie, Xian-Sheng Hua, Hujun Bao, Qixing Huang 및 Weiwei Xu. 주의에 따라 시간적으로 일관된 비디오 객체 매트팅. ACM MM, 2021. 3, 5, 6, 7

:::정보
저자:

(1) 메릴랜드 대학교 칼리지 파크 Chuong Huynh ([email protected]);

(2) 오승욱, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, 메릴랜드 대학교, 칼리지 파크([email protected]);

(4) 이준영, Adobe Research ([email protected]).

:::

:::info 이 논문은 arxiv에서 사용 가능 4.0 Deed(Attribution 4.0 International) 라이센스에 의한 CC에 따라.

:::

출처 참조