음성 클로닝 AI 모델을 사용한 BCI 음성 합성

음성 클로닝 AI 모델을 사용한 BCI 음성 합성

신경 신호를 분석함으로써, BCI (Brain-Computer Interface)는 이제 신경 퇴행성 질환으로 인해 목소리를 잃어버린 사람의 연설을 거의 즉시 합성 할 수 있다고 새로운 연구에 따르면 새로운 연구에 따르면.

연구자들은 마비 된 환자들과의 언어를 회복시킬 수있는 장치가 일상적인 의사 소통에 사용되기까지는 여전히 오랜 시간이 걸릴 것입니다. 그럼에도 불구 하고이 연구는“이 작업이 이러한 시스템을 더욱 개선하기위한 경로로 이어질 것이며, 예를 들어, 기술 전달을 통해 산업으로의 기술 전달을 통해 경로를 이끌어 낼 것”이라고 캘리포니아 대학의 Davis의 Neuroprosthetics Lab의 프로젝트 과학자 인 Maitreyee Wairagkar는 말합니다.

뇌-컴퓨터 인터페이스에 대한 주요 잠재적 응용 프로그램은 더 이상 질병이나 부상으로 말할 수없는 사람들과 의사 소통합니다. 예를 들어, 과학자들은 신경 신호를 텍스트로 변환하는 데 도움이되는 많은 BCI를 개발했습니다.

그러나 텍스트만으로도 의미를 전달하는 데 도움이되는 억양과 같은 인간의 말의 많은 주요 측면을 포착하지 못합니다. 또한 Wairagkar는 텍스트 기반 커뮤니케이션이 느리다고 말합니다.

이제 연구원들은 신경 활동을 실시간으로 사운드로 해독 할 수있는 뇌 대음 신경 소포소스라고 부르는 것을 개발했습니다. 그들은 6 월 11 일 저널에서 그들의 발견을 자세히 설명했다 자연.

Wairagkar는“신경계 질환으로 인해 말할 수있는 능력을 잃는 것은 치명적입니다. “음성을 회복하기 위해 신경계의 손상된 경로를 우회 할 수있는 기술을 개발하면 언어 상실이있는 사람들의 삶에 큰 영향을 줄 수 있습니다.”

음성 복원을위한 신경지도

새로운 BCI는 4 개의 마이크로 전극 어레이를 사용하여 신경 활동을 매핑했습니다. 과학자들은 총 256 개의 미세 전극 어레이를 3 개의 뇌 영역에 배치했으며, 그 중에서도 복부 중질 이랑 (Ventral Precentral Gyrus)은 언어의 근본적인 근육을 제어하는 ​​데 중요한 역할을합니다.

Wairagkar는“이 기술은 ‘마음을 읽거나’내면의 생각을 읽지 않습니다. “우리는 언어 근육을 제어하는 ​​뇌 영역에서 기록합니다. 따라서 시스템은 참가자가 자발적으로 말하려고 할 때만 음성을 생성합니다.”

연구원들은 45 세의 자원 봉사자에게 근 위축성 측면 경화증 (ALS)이있는 자원 봉사자에게 BCI를 이식했다. 자원 봉사자는 여전히 보컬 사운드를 생성 할 수 있었지만 BCI 전에 몇 년 동안 스스로 이해할 수있는 연설을 할 수 없었습니다.

Neuroprosthesis는 환자가 화면에서 문장을 크게 읽으려고 시도했을 때 발생하는 신경 활동을 기록했습니다. 그런 다음 과학자들은이 데이터에 대한 깊은 학습 AI 모델을 훈련시켜 의도 한 연설을했습니다.

연구원들은 또한 BCI가 자신의 사전 ALS 음성을 합성 할 수 있도록 환자의 상태 전에 환자에 대한 기록에 대한 음성 클로닝 AI 모델을 훈련시켰다. 환자는 합성 된 목소리를 듣는 것이“행복하다고 느끼게되었고, 진짜 목소리처럼 느껴졌다”고 연구에 따르면 지적했다.

https://www.youtube.com/watch?v=fdfl5p4n6vc Neuroprosthesis는 사람의 연설을 재현합니다 UC Davis

실험에서 과학자들은 BCI가 의도 된 보컬 억양의 주요 측면을 감지 할 수 있음을 발견했습니다. 그들은 환자가 피치에 변화가없는 진술 또는 문장 끝에서 피치가 상승하는 것을 포함하는 문장 세트를 말하려고 시도했습니다. 그들은 또한 환자가“나는 그녀가 내 돈을 훔쳤다고 말한 적이 없다”는 문장에서 7 개의 단어 중 하나를 강조했다. (문장에는 어떤 단어가 강조되는지에 따라 7 가지 의미가 있습니다.)이 테스트는 질문의 끝과 단어를 강조하기 전에 신경 활동이 증가한 것으로 나타났습니다. 결과적으로, 이것은 환자가 자신의 BCI 목소리를 질문하기에 충분히 그의 BCI 목소리를 통제하고, 문장의 특정 단어를 강조하거나, 3 피치 멜로디를 부릅니다.

Wairagkar는“우리가 말하는 것뿐만 아니라 우리가 말하는 방식도 마찬가지로 중요합니다. “연설의 억양은 효과적으로 의사 소통하는 데 도움이됩니다.”

Wairagkar는 새로운 BCI가 신경 신호를 획득하고 25 밀리 초의 지연으로 사운드를 생성하여 거의 불완전한 음성 합성을 가능하게 할 수 있다고 말했다. BCI는 또한“AHH”,“EWW”,“OHH”및“HMM”과 같은 중재뿐만 아니라 메이크업 의사 소드를 말할만큼 유연한 것으로 판명되었습니다.

결과적인 목소리는 종종 이해하기 쉬웠지만 지속적으로는 그렇지 않았습니다. 인간의 청취자가 BCI의 말을 전사해야했던 테스트에서, 그들은 환자가 BCI를 사용하지 않았을 때의 약 3 %에서 약 56 %의 시간을 말한 것을 이해했습니다.

여러 그래프 플롯에서 신경 신호 데이터를 표시하는 컴퓨터 화면. 화면에 표시된 BCI 참가자의 신경 기록.UC Davis

Wairagkar는“우리는이 시스템이 말할 수있는 능력을 잃은 사람의 말을하고 대화 할 준비가되어 있다고 주장하지 않습니다. “오히려 우리는 현재 BCI 기술로 가능한 것이 무엇인지에 대한 개념 증명을 보여주었습니다.”

앞으로 과학자들은 더 많은 전극과 더 나은 AI 모델을 사용하여 장치의 정확성을 향상시킬 계획입니다. 또한 BCI 회사 가이 기술을 통합 한 임상 시험을 시작하기를 희망합니다. Wairagkar는“이 BCI가 완전히 갇힌 사람들과 함께 일할 것인지는 아직 알려지지 않았다” – 거의 완전히 마비되어 눈의 움직임과 깜박임을 절약 할 수 있다고 덧붙였다.

또 다른 흥미로운 연구 방향은 이러한 언어 BCI가 실어증과 같은 언어 장애가있는 사람들에게 유용 할 수 있는지 여부를 연구하는 것입니다. Wairagkar는“현재 대상 환자 집단은 근육 마비로 인해 말할 수 없습니다. “그러나 언어와 인식을 생산하는 능력은 그대로 남아 있습니다.” 대조적으로, 그녀는 미래의 작업은 언어를 생성하는 뇌 영역에 손상을 입거나 어린 시절부터 학습하는 것을 방해하는 장애가있는 사람들에게 연설을 회복하는 것을 조사 할 수 있다고 지적했다.

사이트 기사에서

웹 주변의 관련 기사

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다