banner

소식

Aug 22, 2023

Meta, 오픈 소스 AI 오디오 도구 AudioCraft 출시

벤지 에드워즈 - 2023년 8월 2일 오후 8:56 UTC

수요일에 Meta는 텍스트 프롬프트에서 음악과 오디오를 생성하기 위한 생성 AI 도구 제품군인 AudioCraft를 오픈 소스로 발표했습니다. 콘텐츠 제작자는 이 도구를 사용하여 간단한 텍스트 설명을 입력하여 복잡한 오디오 풍경을 생성하고, 멜로디를 작곡하고, 심지어 전체 가상 오케스트라를 시뮬레이션할 수도 있습니다.

AudioCraft는 세 가지 핵심 구성 요소로 구성됩니다. 다양한 오디오 효과와 사운드스케이프를 생성하는 도구인 AudioGen; 설명을 통해 음악 작곡과 멜로디를 만들 수 있는 MusicGen 신경망 기반 오디오 압축 코덱인 EnCodec이 있습니다.

특히 Meta는 지난 11월 처음 다루었던 EnCodec이 최근 개선되어 "아티팩트가 적고 더 높은 품질의 음악 생성"이 가능하다고 말합니다. 또한 AudioGen은 개가 짖는 소리, 자동차 경적을 울리는 소리, 나무 바닥의 발자국 소리와 같은 오디오 사운드 효과를 생성할 수 있습니다. 그리고 MusicGen은 "해변에 딱 맞는 매력적인 멜로디, 트로피컬 타악기, 경쾌한 리듬이 포함된 팝 댄스 트랙"과 같은 설명을 기반으로 다양한 장르의 노래를 처음부터 다시 만들 수 있습니다.

Meta는 평가를 위해 웹사이트에 여러 오디오 샘플을 제공했습니다. 결과는 최첨단 라벨링과 일치하는 것처럼 보이지만 전문적으로 제작된 상업용 오디오 효과나 음악을 대체할 만큼 품질이 높지는 않습니다.

Meta는 텍스트와 스틸 사진을 중심으로 한 생성적 AI 모델이 많은 관심을 받았지만(사람들이 온라인으로 실험하기 상대적으로 쉬움), 생성적 오디오 도구의 개발은 뒤처져 있다고 지적합니다. "몇 가지 작업이 있지만 매우 복잡하고 개방적이지 않아 사람들이 쉽게 사용할 수 없습니다"라고 그들은 썼습니다. 그러나 그들은 MIT 라이센스에 따른 AudioCraft의 출시가 오디오 및 음악 실험을 위한 접근 가능한 도구를 제공함으로써 더 넓은 커뮤니티에 기여할 수 있기를 바라고 있습니다.

"이 모델은 연구 목적과 기술에 대한 사람들의 이해를 높이기 위해 사용할 수 있습니다. 연구자와 실무자가 처음으로 자신의 데이터 세트로 자신의 모델을 훈련하고 최첨단 기술을 발전시킬 수 있도록 액세스할 수 있게 되어 기쁩니다. "라고 메타가 말했다.

Meta가 AI 기반 오디오 및 음악 생성기를 실험한 최초의 회사는 아닙니다. 가장 주목할 만한 최근 시도 중 일부는 OpenAI가 2020년에 Jukebox를 출시했고, Google이 1월에 MusicLM을 출시했으며, 지난 12월에 독립적인 연구팀이 Stable Diffusion 기반을 사용하여 Riffusion이라는 텍스트-음악 생성 플랫폼을 만들었습니다.

이러한 생성 오디오 프로젝트 중 이미지 합성 모델만큼 많은 관심을 끌었던 프로젝트는 없지만 Meta가 웹 사이트에서 언급한 것처럼 개발 프로세스가 덜 복잡하다는 의미는 아닙니다.

모든 종류의 고음질 오디오를 생성하려면 다양한 규모의 복잡한 신호와 패턴을 모델링해야 합니다. 음악은 일련의 음표부터 여러 악기가 포함된 전역 음악 구조에 이르기까지 국부적이고 장거리 패턴으로 구성되어 있기 때문에 생성하기 가장 어려운 오디오 유형일 것입니다. AI를 사용하여 일관된 음악을 생성하는 작업은 MIDI나 피아노 롤과 같은 상징적 표현을 사용하여 해결되는 경우가 많습니다. 그러나 이러한 접근 방식으로는 음악에서 발견되는 표현적 뉘앙스와 스타일 요소를 완전히 파악할 수 없습니다. 보다 최근의 발전은 자가 감독 오디오 표현 학습과 다양한 계층적 또는 계단식 모델을 활용하여 음악을 생성하고, 고품질 오디오를 생성하는 동시에 신호의 장거리 구조를 캡처하기 위해 원시 오디오를 복잡한 시스템에 공급합니다. 하지만 우리는 이 분야에서 더 많은 일을 할 수 있다는 것을 알고 있었습니다.

Stable Diffusion, DALL-E 및 Midjourney와 같은 이미지 합성 모델을 만드는 데 사용되는 공개되지 않고 잠재적으로 비윤리적인 교육 자료에 대한 논란이 있는 가운데, Meta가 MusicGen이 "Meta가 소유하거나 이를 위해 특별히 라이선스를 받은 20,000시간의 음악에 대해 교육을 받았다"고 말한 것은 주목할 만합니다. 목적." 표면적으로 이는 생성 AI에 대한 일부 비평가들을 기쁘게 할 수 있는 보다 윤리적인 방향으로의 움직임처럼 보입니다.

공유하다