양자 비전 변환기

양자 비전 변환기

엘 아민 체라트1, 요르다니스 케레니디스1,2, 나탄시 마투르1,2, 조나스 랜드맨3,2, 마틴 스트람4, 윤 이보나 리4

1IRIF, CNRS – Université Paris Cité, 프랑스
2QC Ware, Palo Alto, 미국 및 파리, 프랑스
3영국 스코틀랜드 에딘버러 대학교 정보학부
4F. 호프만 라로슈 AG

이 논문이 흥미 롭거나 토론하고 싶습니까? SciRate에 댓글을 달거나 댓글 남기기.

추상

본 연구에서는 자연어 처리 및 이미지 분석 분야에서 뛰어난 성능을 발휘하는 것으로 알려진 최첨단 고전 트랜스포머 신경망 아키텍처를 확장하여 양자 트랜스포머를 상세하게 설계하고 분석한다. 데이터 로딩 및 직교 신경층을 위해 매개변수화된 양자 회로를 사용하는 이전 작업을 기반으로, 양자 주의 메커니즘의 이론적 이점을 보장하는 복합 행렬 기반 양자 변환기를 포함하여 훈련 및 추론을 위한 세 가지 유형의 양자 변환기를 소개합니다. 점근적 실행 시간과 모델 매개변수 수 측면에서 기존 모델과 비교됩니다. 이러한 양자 아키텍처는 얕은 양자 회로를 사용하여 구축할 수 있으며 질적으로 다른 분류 모델을 생성할 수 있습니다. 제안된 세 가지 양자 주의 층은 고전적인 변환기를 밀접하게 따르는 것과 더 많은 양자 특성을 나타내는 것 사이의 스펙트럼에 따라 다릅니다. 양자 변환기의 구성 요소로서 우리는 행렬을 양자 상태로 로드하는 새로운 방법과 양자 컴퓨터의 다양한 수준의 연결 및 품질에 적응할 수 있는 두 개의 새로운 훈련 가능한 양자 직교 계층을 제안합니다. 우리는 동급 최고의 클래식 비전 변환기를 포함하여 클래식 벤치마크에 비해 경쟁력 있고 때로는 더 나은 성능을 보여주는 표준 의료 이미지 데이터 세트에 대해 양자 변환기에 대한 광범위한 시뮬레이션을 수행했습니다. 이러한 소규모 데이터 세트에 대해 교육한 양자 변환기에는 표준 클래식 벤치마크에 비해 더 적은 매개 변수가 필요합니다. 마지막으로 우리는 초전도 양자 컴퓨터에 양자 변환기를 구현하고 최대 6개의 큐비트 실험에 대한 고무적인 결과를 얻었습니다.

본 연구에서는 언어 처리 및 이미지 분석과 같은 작업에서 효율성이 뛰어난 것으로 알려진 변환기에 중점을 두고 신경망 아키텍처를 향상시키기 위한 양자 컴퓨팅의 잠재력을 탐구합니다. 매개변수화된 양자 회로와 직교 신경층을 활용하는 세 가지 유형의 양자 변환기를 소개합니다. 이러한 양자 변환기는 일부 가정(예: 하드웨어 연결)에 따라 이론적으로 런타임 및 모델 매개 변수 측면에서 기존에 비해 이점을 제공할 수 있습니다. 이러한 양자 회로를 만들기 위해 우리는 행렬을 양자 상태로 로드하는 새로운 방법을 제시하고 서로 다른 양자 컴퓨터 기능에 적응할 수 있는 두 개의 훈련 가능한 양자 직교 계층을 도입합니다. 얕은 양자 회로가 필요하며 고유한 특성을 가진 분류 모델을 만드는 데 도움이 될 수 있습니다. 의료 이미지 데이터세트에 대한 광범위한 시뮬레이션은 더 적은 매개변수로도 기존 벤치마크에 비해 경쟁력 있는 성능을 보여줍니다. 또한 초전도 양자 컴퓨터에 대한 실험에서는 유망한 결과가 나왔습니다.

► BibTeX 데이터

► 참고 문헌

[1] Jacob Biamonte, Peter Wittek, Nicola Pancotti, Patrick Rebentrost, Nathan Wiebe, Seth Lloyd. "양자 기계 학습". 자연 549, 195–202(2017).
https : / /doi.org/ 10.1038 / nature23474

[2] Iris Cong, 최순원, Mikhail D Lukin. "양자 컨벌루션 신경망". 자연 물리학 15, 1273–1278 (2019).
https:/​/​doi.org/​10.1038/​s41567-019-0648-8

[3] Kishor Bharti, Alba Cervera-Lierta, Thi Ha Kyaw, Tobias Haug, Sumner Alperin-Lea, Abhinav Anand, Matthias Degroote, Hermanni Heimonen, Jakob S Kottmann, Tim Menke 등. "시끄러운 중간 규모 양자 알고리즘". Modern Physics 94, 015004(2022)의 리뷰.
https : / /doi.org/10.1103/ RevModPhys.94.015004

[4] Marco Cerezo, Andrew Arrasmith, Ryan Babbush, Simon C Benjamin, Suguru Endo, Keisuke Fujii, Jarrod R McClean, Kosuke Mitarai, Xiao Yuan, Lukasz Cincio 등 “변이 양자 알고리즘”. 자연 리뷰 물리학 3, 625–644(2021).
https:/​/​doi.org/​10.1038/​s42254-021-00348-9

[5] Jonas Landman, Natansh Mathur, Yun Yvonna Li, Martin Strahm, Skander Kazdaghli, Anupam Prakash 및 Iordanis Kerenidis. “신경망을 위한 양자 방법과 의료 영상 분류에의 응용”. 양자 6, 881(2022).
https:/​/​doi.org/​10.22331/​q-2022-12-22-881

[6] 보박 키아니, 랜달 발레스트리에로, 얀 르쿤, 세스 로이드. "projunn: 단일 행렬을 사용하여 심층 네트워크를 훈련하는 효율적인 방법". 신경 정보 처리 시스템의 발전 35, 14448–14463(2022).

[7] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, Illia Polosukhin. "주의는 당신이 필요로하는 전부입니다". 신경 정보 처리 시스템의 발전 30(2017).

[8] 제이콥 데블린, 장밍웨이, 켄튼 리, 크리스티나 투타노바. "Bert: 언어 이해를 위한 심층 양방향 변환기 사전 훈련"(2018).

[9] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit 및 Neil Houlsby. "이미지는 16×16 단어의 가치가 있습니다: 대규모 이미지 인식을 위한 변환기". 학습 표현에 관한 국제 컨퍼런스(2021). URL: openreview.net/​forum?id=YicbFdNTTy.
https:/​/​openreview.net/​forum?id=YicbFdNTTy

[10] 이 타이(Yi Tay), 모스타파 데가니(Mostafa Dehghani), 다라 바흐리(Dara Bahri), 도널드 메츨러(Donald Metzler). “효율적인 변압기: 설문조사”. ACM 컴퓨팅 설문조사(CSUR)(2020).
https : / /doi.org/ 10.1145 / 3530811

[11] 드미트리 바다나우(Dzmitry Bahdanau), 조경현, 요슈아 벤지오(Yoshua Bengio). “정렬 및 번역을 공동 학습하여 신경 기계 번역”(2016). arXiv:1409.0473 [cs, 통계].
arXiv : 1409.0473

[12] J. Schmidhuber. "완전 반복 네트워크에서 학습 복잡성과 시간에 따라 변하는 변수 수 사이의 비율 줄이기". 편집자 Stan Gielen과 Bert Kappen, ICANN '93. 460~463페이지. 런던(1993). 뛰는 것.
https:/​/​doi.org/​10.1007/​978-1-4471-2063-6_110

[13] 위르겐 슈미트후버. "빠른 가중치 메모리 제어 방법 학습: 동적 순환 네트워크의 대안". 신경 계산 4, 131–139 (1992).
https : / /doi.org/ 10.1162 / neco.1992.4.1.131

[14] 피터 차, 폴 진스파그, 펠릭스 우, 후안 카라스퀼라, 피터 L 맥맨, 김은아. “주의 기반 양자 단층 촬영”. 기계학습: 과학과 기술 3, 01LT01(2021).
https://doi.org/10.1088/2632-2153/ac362b

[15] Riccardo Di Sipio, Jia-Hong Huang, Samuel Yen-Chi Chen, Stefano Mangini 및 Marcel Worring. “양자 자연어 처리의 시작”. ICASSP 2022-2022 IEEE 음향, 음성 및 신호 처리에 관한 국제 컨퍼런스(ICASSP). 8612~8616페이지. IEEE(2022).
https:/​/​doi.org/​10.1109/​ICASSP43922.2022.9747675

[16] 리광시(Guangxi Li), 자오 쉬안치앙(Xuanqiang Zhao), 왕신(Xin Wang). “텍스트 분류를 위한 양자 자기 주의 신경망”(2022).

[17] 파비오 산체스, 숀 웨인버그, 이데 타카노리, 카미야 카즈미츠. “차량 경로 문제에 대한 강화 학습 정책의 짧은 양자 회로”. 실제 검토 A 105, 062403(2022).
https : / /doi.org/10.1103/ PhysRevA.105.062403

[18] 양 위안푸(YuanFu Yang)와 민선(Min Sun). “하이브리드 클래식-양자 딥러닝을 통한 반도체 결함 탐지”. CVPR페이지 2313–2322(2022).
https:/ / doi.org/ 10.1109/ CVPR52688.2022.00236

[19] 맥스웰 헨더슨, 삼리디 샤키아, 샤신드라 프라단, 트리스탄 쿡. “양진화 신경망: 양자 회로를 이용한 이미지 인식 강화”. 양자 기계 지능 2, 1–9(2020).
https : / /doi.org/ 10.1007 / s42484-020-00012-y

[20] 에드워드 파리와 하르트무트 네벤. "단기 프로세서에서 양자 신경망을 사용한 분류"(2018). URL: doi.org/ 10.48550/ arXiv.1802.06002.
https://​/​doi.org/​10.48550/​arXiv.1802.06002

[21] 미타라이 코스케, 네고로 마코토, 키타가와 마사히로, 후지이 케이스케 "양자 회로 학습". 물리적 검토 A 98, 032309(2018).
https : / /doi.org/10.1103/ PhysRevA.98.032309

[22] Kui Jia, Shuai Li, Yuxin Wen, Tongliang Liu 및 Dacheng Tao. "직교 심층 신경망". 패턴 분석 및 머신 인텔리전스에 관한 IEEE 트랜잭션(2019).
https : / /doi.org/10.1109/ TPAMI.2019.2948352

[23] 로저 A 혼과 찰스 R 존슨. “매트릭스 분석”. 케임브리지 대학 출판부. (2012).
https : / /doi.org/ 10.1017 / CBO9780511810817

[24] Iordanis Kerenidis와 Anupam Prakash. "부분 공간 상태를 사용한 양자 기계 학습"(2022).

[25] Brooks Foxen, Charles Neill, Andrew Dunsworth, Pedram Roushan, Ben Chiaro, Anthony Megrant, Julian Kelly, Zijun Chen, Kevin Satzinger, Rami Barends 등 "단기 양자 알고리즘을 위한 연속적인 125큐비트 게이트 세트 시연". 실제 검토 편지 120504, 2020(XNUMX).
https : / /doi.org/10.1103/ PhysRevLett.125.120504

[26] Sonika Johri, Shantanu Debnath, Avinash Mocherla, Alexandros Singk, Anupam Prakash, 김정상, Iordanis Kerenidis. "갇힌 이온 양자 컴퓨터의 가장 가까운 중심 분류". npj 양자 정보 7, 122(2021).
https:/​/​doi.org/​10.1038/​s41534-021-00456-5

[27] 제임스 W 쿨리와 존 W 투키. “복잡한 푸리에 계열의 기계 계산을 위한 알고리즘”. 계산 수학 19, 297-301(1965).
https:/​/​doi.org/​10.1090/​S0025-5718-1965-0178586-1

[28] Li Jing, Yichen Shen, Tena Dubcek, John Peurifoy, Scott A. Skirlo, Yann LeCun, Max Tegmark 및 Marin Soljacic. “조정 가능한 효율적인 단일 신경망(eunn) 및 이를 rnns에 적용”. 머신러닝에 관한 국제 컨퍼런스에서. (2016). URL: api.semanticscholar.org/​CorpusID:5287947.
https:/ / api.semanticscholar.org/ CorpusID:5287947

[29] Léo Monbroussou, Jonas Landman, Alex B. Grilo, Romain Kukla 및 Elham Kashefi. "기계 학습을 위한 해밍 웨이트 보존 양자 회로의 훈련 가능성 및 표현성"(2023). arXiv:2309.15547.
arXiv : 2309.15547

[30] 엔리코 폰타나, 딜런 허먼, 쇼바닉 차크라바티, 니라즈 쿠마르, 로미나 얄로베츠키, 제이미 헤리지, 슈리 하리 수레쉬바부, 마르코 피스토이아. "수반이 필요한 전부입니다: 양자 안세체에서 불모의 고원 특성화"(2023). arXiv:2309.07902.
arXiv : 2309.07902

[31] Michael Ragone, Bojko N. Bakalov, Frédéric Sauvage, Alexander F. Kemper, Carlos Ortiz Marrero, Martin Larocca 및 M. Cerezo. "깊이 매개변수화된 양자 회로를 위한 불모의 고원에 대한 통합 이론"(2023). arXiv:2309.09342.
arXiv : 2309.09342

[32] Xuchen You와 Xiaodi Wu. “양자 신경망에서 기하급수적으로 많은 국소 최소값”. 머신러닝에 관한 국제 컨퍼런스에서. 12144~12155페이지. PMLR(2021).

[33] 에릭 R. 안슈에츠(Eric R. Anschuetz)와 보박 투시 키아니(Bobak Toussi Kiani). "양자 변이 알고리즘은 함정으로 가득 차 있습니다." 네이처 커뮤니케이션즈 13(2022).
https:/​/​doi.org/​10.1038/​s41467-022-35364-5

[34] Ilya O. Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Daniel Keysers, Jakob Uszkoreit, Mario Lucic 및 Alexey Dosovitskiy. "Mlp-mixer: 비전을 위한 모든 MLP 아키텍처". NeurIPS에서. (2021).

[35] Jiancheng Yang, Rui Shi, Bingbing Ni. "Medmnist 분류 2020종 경기: 의료 이미지 분석을 위한 경량 automl 벤치마크"(XNUMX).
https://doi.org/10.1109/ISBI48211.2021.9434062

[36] Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister 및 Bingbing Ni. "Medmnist v2 - 2D 및 3D 생체 의학 이미지 분류를 위한 대규모 경량 벤치마크". 과학자료 10, 41(2023).
https:/​/​doi.org/​10.1038/​s41597-022-01721-8

[37] 앙겔로스 카타로풀로스, 아푸르브 비아스, 니콜라오스 파파스, 프랑수아 플뢰레. "Transformers is rnns: 선형 주의를 기울이는 빠른 자기회귀 변환기입니다." 머신러닝에 관한 국제 컨퍼런스에서. 5156~5165페이지. PMLR(2020).

[38] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne 및 Qiao Zhang. “JAX: Python+NumPy 프로그램의 구성 가능한 변환”. Github (2018). URL: http://​/​github.com/​google/​jax.
http : / / github.com/ google / jax

[39] Diederik P. Kingma와 지미 바. “Adam: 확률론적 최적화를 위한 방법”. CoRR 절대/​1412.6980 (2015).

[40] 노현우, 유택근, 문종환, 한보형. "노이즈에 의한 심층 신경망 정규화: 해석 및 최적화". 신경IPS(2017).

[41] 쉬에잉. “과적합과 그 해결책의 개요”. 물리학 저널: 컨퍼런스 시리즈. 1168권, 022022페이지. IOP 출판(2019).
https:/​/​doi.org/​10.1088/​1742-6596/​1168/​2/​022022

인용

[1] David Peral García, Juan Cruz-Benito 및 Francisco José García-Peñalvo, "체계적 문헌 검토: 양자 기계 학습 및 그 응용", arXiv : 2201.04093, (2022).

[2] El Amine Cherrat, Snehal Raj, Iordanis Kerenidis, Abhishek Shekhar, Ben Wood, Jon Dee, Shouvanik Chakrabarti, Richard Chen, Dylan Herman, Shaohan Hu, Pierre Minssen, Ruslan Shaydulin, Yue Sun, Romina Yalovetzky 및 Marco Pistoia, “퀀텀 딥 헤징”, 퀀텀 7, 1191 (2023).

[3] Léo Monbroussou, Jonas Landman, Alex B. Grilo, Romain Kukla 및 Elham Kashefi, "기계 학습을 위한 해밍 가중치 보존 양자 회로의 훈련 가능성 및 표현성", arXiv : 2309.15547, (2023).

[4] Sohum Thakkar, Skander Kazdaghli, Natansh Mathur, Iordanis Kerenidis, André J. Ferreira-Martins 및 Samurai Brito, "양자 기계 학습을 통한 재무 예측 개선", arXiv : 2306.12965, (2023).

[5] Jason Iaconis 및 Sonika Johri, "Tensor 네트워크 기반의 효율적인 이미지 양자 데이터 로딩", arXiv : 2310.05897, (2023).

[6] Nishant Jain, Jonas Landman, Natansh Mathur 및 Iordanis Kerenidis, "모수적 PDE를 해결하기 위한 양자 푸리에 네트워크", arXiv : 2306.15415, (2023).

[7] Daniel Mastropietro, Georgios Korpas, Vyacheslav Kungurtsev 및 Jakub Marecek, "Fleming-Viot는 불모의 고원이 있는 곳에서 변형 양자 알고리즘의 속도를 높이는 데 도움이 됩니다.", arXiv : 2311.18090, (2023).

[8] Aliza U. Siddiqui, Kaitlin Gili 및 Chris Ballance, "최신 양자 하드웨어 강조: 성능 평가 및 실행 통찰력", arXiv : 2401.13793, (2024).

위의 인용은 SAO / NASA ADS (마지막으로 성공적으로 업데이트 됨 2024-02-22 13:37:43). 모든 출판사가 적절하고 완전한 인용 데이터를 제공하지는 않기 때문에 목록이 불완전 할 수 있습니다.

가져올 수 없습니다 Crossref 인용 자료 마지막 시도 중 2024-02-22 13:37:41 : Crossref에서 10.22331 / q-2024-02-22-1265에 대한 인용 데이터를 가져올 수 없습니다. DOI가 최근에 등록 된 경우 이는 정상입니다.

타임 스탬프 :

더보기 양자 저널