Lyria | AI 음악 생성기

Lyria를 사용하면 Google Cloud 콘솔에 제공하는 텍스트 프롬프트에서 새 악기 음악 트랙을 생성하거나 Vertex AI API의 Gemini API에 요청을 보낼 수 있습니다.

Vertex AI(Vertex AI Studio)에서 Lyria 사용해 보기

Lyria 기능 및 출시 단계

Lyria는 음악 제작을 위한 생성형 AI 기능을 제공합니다.

다음 표에는 모든 사용자에게 일반적으로 제공(정식 버전)되는 기능이 설명되어 있습니다.

기능 설명 출시 단계
텍스트에서 음악 생성 설명 텍스트 입력으로부터 인스트루멘탈 음악 트랙을 생성합니다. 정식 버전
부정 프롬프트 작성 생성된 음악에서 특정 요소를 피하도록 모델을 안내합니다. 정식 버전
재현성을 위한 시드 시드를 사용하여 동일한 프롬프트와 매개변수에 대해 일관된 생성 출력을 보장합니다. 정식 버전

위치

위치는 데이터가 영구 저장되는 위치를 제어하기 위해 요청에서 지정할 수 있는 리전입니다. Lyria 2는 전 세계에서 제공됩니다. Vertex AI 서비스의 사용 가능한 리전 목록은 Vertex AI의 생성형 AI 위치를 참고하세요.

성능 및 제한사항

한도
형식 텍스트를 음악으로 생성(인스트루멘탈만 해당)
API 호출(프로젝트별 분당 프롬프트) 표준 Vertex AI 예측 한도에 관한 자세한 내용은 [할당량 및 한도 문서](/vertex-ai/generative-ai/docs/quotas)를 참고하세요.
요청 지연 시간(생성 시간) 오디오 클립은 일반적으로 10~20초 이내에 생성됩니다. 사용량이 급증하는 경우 일부 요청이 대기열에 추가될 수 있습니다.
요청당 반환되는 최대 오디오 클립 수 지정된 sample_count까지 (sample_count의 최대 값은 미정이며 일반적으로 작은 정수입니다(예: 1-4).
클립당 오디오 길이 30초
지원되는 반환 오디오 형식 48kHz 샘플링 레이트의 WAV 오디오
입력 프롬프트 언어 미국 영어(en-us)

책임감 있는 AI

Lyria는 텍스트 프롬프트에서 악기 음악을 생성합니다. Lyria는 콘텐츠 안전 필터, 낭독 확인, 아티스트 의도 확인을 비롯한 안전 조치를 적용하여 유해하거나 부적절한 콘텐츠의 입력 및 생성을 방지합니다. 생성된 오디오에 SynthID 워터마킹이 사용됩니다. 책임감 있는 AI 가이드라인을 위반하는 프롬프트는 차단될 수 있습니다.

Lyria Vertex AI 모델 버전 및 수명 주기

Lyria 모델 및 버전은 다음과 같습니다.

모델 이름 식별자
Lyria 2 lyria-002

텍스트에서 음악 생성

설명 텍스트를 입력으로 사용하여 새로운 악기 음악 트랙을 생성할 수 있습니다.

시작하기 전에

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Enable the Vertex AI API.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Enable the Vertex AI API.

    Enable the API

  6. 환경에 대한 인증을 설정하세요.

    Select the tab for how you plan to use the samples on this page:

    Console

    When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

    REST

    로컬 개발 환경에서 이 페이지의 REST API 샘플을 사용하려면 gcloud CLI에 제공한 사용자 인증 정보를 사용합니다.

      After installing the Google Cloud CLI, initialize it by running the following command:

      gcloud init

      If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

    자세한 내용은 Google Cloud 인증 문서의 REST 사용을 위한 인증을 참조하세요.

    콘솔

    1. Google Cloud 콘솔에서 Vertex AI Studio > Media Studio 페이지로 이동합니다.

      Media Studio

    2. Lyria 모델 또는 음악 생성 옵션을 선택합니다.

    3. 선택사항: 설정 창에서 다음 설정을 구성합니다.

      • 모델: 사용 가능한 버전이 여러 개인 경우 lyria-002를 선택합니다.
      • 샘플 수(sample_count): 프롬프트에 생성할 오디오 클립 수를 조정합니다. (시드와 함께 사용할 수 없음)
      • 시드: 재현 가능한 출력을 위한 정수를 입력합니다. (샘플 수와 함께 사용할 수 없음)
    4. 프롬프트 작성 상자에 생성할 음악을 설명하는 미국 영어 텍스트 프롬프트를 입력합니다.

    5. 선택사항: 부정 프롬프트 상자에 생성된 음악에서 제외할 용어 또는 설명을 입력합니다.

    6. 생성을 클릭합니다.

    7. 생성된 오디오 클립은 WAV 파일로 미리 보고 다운로드할 수 있습니다.

    REST

    predict 메서드를 사용하여 음악 생성 요청을 전송합니다. 응답에는 오디오 데이터가 직접 포함되며, 일반적으로 응답이 JSON인 경우 base64로 인코딩됩니다.

    lyria-002 모델 요청에 대한 자세한 내용은 lyria-002 모델 API 참조를 확인하세요.

    음악을 생성하려면 모델의 predict 엔드포인트에 POST 요청을 전송합니다.

    요청:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002:predict \
      -d '{
        "instances": [
          {
            "prompt": "An uplifting and hopeful orchestral piece with a soaring string melody and triumphant brass.",
            "negative_prompt": " dissonant, minor key",
            "seed": 12345
          }
        ],
        "parameters": {
          // "sample_count": 1 // Use either seed or sample_count
        }
      }'
    

    응답:

    요청이 성공하면 생성된 오디오 데이터가 포함된 JSON 객체가 반환됩니다. 다음과 같이 표시됩니다.

    {
      "predictions": [
        {
          "audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_1",
          "mimeType": "audio/wav"
        },
        {
          "audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_2",
          "mimeType": "audio/wav"
        }
      ],
      "deployedModelId": "xxxxxxxxxxxxxxx",
      "model": "projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002",
      "modelDisplayName": "Lyria 2"
    }
    

    그런 다음 audioContent(base64)를 디코딩하여 WAV 오디오 파일을 가져옵니다. 각 클립의 길이는 30초입니다.

    다음 단계