Lyria API

Lyria는 고품질 오디오 생성을 위한 새로운 파운데이션 모델로, 텍스트 프롬프트에서 다양한 사운드스케이프와 음악을 만들 수 있습니다. Lyria를 사용하면 사용자가 텍스트 프롬프트에서 고품질 악기 음악을 생성할 수 있습니다.

콘솔에서 이 모델을 살펴보려면 Model Garden의 Lyria 모델 카드(Media Studio 탭을 사용하여 액세스 가능)를 참조하세요.

Vertex AI(Vertex AI Studio)에서 Lyria 사용해 보기

Colab에서 Lyria 사용해 보기

지원되는 모델

Lyria API는 다음 모델을 지원합니다.

lyria-002

HTTP 요청

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  https://LOCATION[-aiplatform.googleapis.com/v1/projects/](https://-aiplatform.googleapis.com/v1/projects/)PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002:predict \
  -d '{
    "instances": [
      {
        "prompt": "string",
        "negative_prompt": "string", // Optional
        "seed": 0 // Optional. Cannot be used with sample_count.
      }
    ],
    "parameters": {
      "sample_count": 1 // Optional. Cannot be used with seed.
    }
  }'

Lyria 모델에 대해 다음 파라미터를 사용합니다. 자세한 내용은 Lyria Model Garden 카드 세부정보를 참조하세요.

파라미터

파라미터
`prompt` (`instances` 객체)	`string` 필수 항목입니다. 생성할 오디오에 대한 미국 영어(en-us) 텍스트 설명입니다. 예: '빠른 템포의 활기찬 일렉트로닉 댄스곡'
`negative_prompt` (`instances` 객체)	`string` 선택사항입니다. 생성된 오디오에서 제외할 항목에 대한 설명입니다. 예: '보컬, 느린 템포'
`seed` (`instances` 객체)	`integer` 선택사항입니다. 결정론적 생성을 위한 시드입니다. 제공된 경우 모델은 동일한 프롬프트와 기타 파라미터를 사용하여 동일한 오디오를 생성하려고 시도합니다. 동일한 요청에서 `sample_count`와 함께 사용할 수 없습니다. 예: `12345`
`sample_count` (`parameters` 객체)	`integer` 선택사항입니다. 생성할 오디오 샘플 수입니다. 지정되지 않고 시드가 사용되지 않으면 기본값은 1입니다. 동일한 요청에서 `seed`와 함께 사용할 수 없습니다. 예: `2`

prompt

(instances 객체)

string

필수 항목입니다. 생성할 오디오에 대한 미국 영어(en-us) 텍스트 설명입니다.

예: '빠른 템포의 활기찬 일렉트로닉 댄스곡'

negative_prompt

(instances 객체)

string

선택사항입니다. 생성된 오디오에서 제외할 항목에 대한 설명입니다.

예: '보컬, 느린 템포'

seed

(instances 객체)

integer

선택사항입니다. 결정론적 생성을 위한 시드입니다. 제공된 경우 모델은 동일한 프롬프트와 기타 파라미터를 사용하여 동일한 오디오를 생성하려고 시도합니다.

동일한 요청에서 sample_count와 함께 사용할 수 없습니다.

예: 12345

sample_count

(parameters 객체)

integer

선택사항입니다. 생성할 오디오 샘플 수입니다. 지정되지 않고 시드가 사용되지 않으면 기본값은 1입니다.

동일한 요청에서 seed와 함께 사용할 수 없습니다.

예: 2

샘플 요청

다음 요청을 사용하여 텍스트 프롬프트에서 악기 음악을 생성합니다.

텍스트 음악 변환 생성 요청

curl

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/lyria-002:predict \
-d '{
  "instances": [
    {
      "prompt": "A calm acoustic folk song with a gentle guitar melody and soft strings.",
      "negative_prompt": "drums, electric guitar",
      "seed": 98765
    }
  ],
  "parameters": {}
}'

JSON

이 예시에서는 재현 가능한 출력을 위해 seed를 사용합니다.


{
  "instances": [
    {
      "prompt": "A calm acoustic folk song with a gentle guitar melody and soft strings.",
      "negative_prompt": "drums, electric guitar",
      "seed": 98765
    }
  ],
  "parameters": {}
}

sample_count가 포함된 JSON

이 예에서는 sample_count를 사용하여 여러 샘플을 생성합니다.

Lyria API를 사용하여 텍스트 프롬프트를 테스트하려면 게시자 모델 엔드포인트에 POST 요청을 보냅니다. 다음 예시에서는 instances 객체에서 seed를 생략하고 parameters 객체에서 sample_count를 사용하여 여러 샘플을 생성합니다.


{
  "instances": [
    {
      "prompt": "A calm acoustic folk song with a gentle guitar melody and soft strings.",
      "negative_prompt": "drums, electric guitar"
    }
  ],
  "parameters": {
    "sample_count": 2
  }
}

응답 본문

요청이 성공하면 생성된 오디오 데이터가 포함된 JSON 객체가 반환됩니다. 생성된 각 오디오 클립의 길이는 30초이며 48kHz 샘플링 레이트의 WAV 오디오 파일로 제공됩니다.

{
  "predictions": [
    {
      "audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_1",
      "mimeType": "audio/wav"
    }
    // Additional audio samples will be listed here if sample_count > 1
    // e.g.,
    //{"audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_2",
    // "mimeType": "audio/wav"
    //}
  ],
  "deployedModelId": "xxxxxxxxxxxxxxx", // Actual ID may vary based on deployment
  "model": "projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002",
  "modelDisplayName": "Lyria 2"
}

응답 요소
`predictions`	`array` 생성된 오디오 샘플의 배열입니다. 배열의 각 객체는 하나의 오디오 클립을 나타냅니다.
`predictions[].audioContent`	`string` 생성된 WAV 오디오 데이터의 Base64 인코딩 문자열입니다.
`predictions[].mimeType`	`string` 오디오 데이터의 MIME 유형입니다. Lyria의 경우 `"audio/wav"`입니다.
`deployedModelId`	`string` 요청을 처리한 배포된 모델의 ID입니다(엔드포인트 유형에 해당하는 경우).
`model`	`string` 요청을 처리한 모델의 전체 리소스 이름입니다.
`modelDisplayName`	`string` 모델의 표시 이름입니다.

권장사항 및 제한사항

프롬프트, 언어 지원(프롬프트는 미국 영어만 지원), 생성 시간, 출력 형식(WAV, 48kHz, 30초 연주 클립), 안전 조치, 배포 정보에 관한 자세한 권장사항은 Lyria 모델 카드를 참조하세요.

핵심 사항:

자세한 프롬프트: 일반적으로 더 나은 오디오를 생성합니다.
지정: 장르, 분위기, 악기, 템포
부정 프롬프트 작성: negative_prompt를 사용하여 요소를 제외합니다.
출력: 30초 길이의 WAV 오디오 클립, 48kHz, 연주곡만 해당
안전: 콘텐츠 안전 필터, 낭독 확인, 아티스트 의도 확인, SynthID 워터마크가 적용됩니다.

가격 책정

Lyria 2 사용 요금은 생성된 출력 음악 30초당 $0.06입니다. 가격 책정 세부정보는 Vertex AI 가격 책정을 참조하세요.

추가 정보

Vertex AI의 생성형 AI에 대해 자세히 알아보세요.
Lyria 개요는 Model Garden(Media Studio)에서 제공되는 모델 카드를 참조하세요.

다음 단계

Vertex AI Studio에서 Lyria 사용해 보기
Google Cloud 서비스 약관 검토하기
생성형 AI 제품에 대한 추가 약관 읽어보기