Modelos de IA da Mistral

Os modelos da Mistral AI na Vertex AI oferecem modelos totalmente gerenciados e sem servidor modelos como APIs. Para usar um modelo do Mistral AI na Vertex AI, envie uma solicitação diretamente ao endpoint da API Vertex AI. Devido ao Os modelos de IA do Mistral usam uma API gerenciada. Não é necessário provisionar nem gerenciar a infraestrutura.

É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Você paga pelos modelos de IA do Mistral conforme o uso (pagamento por utilização). Para pagamento por utilização, consulte "Preços do modelo de IA da Mistral" Preços da Vertex AI .

Modelos da Mistral AI disponíveis

Os modelos a seguir estão disponíveis na Mistral AI para uso na Vertex AI. Para acessar um modelo do Mistral AI, acesse o card de modelo do Model Garden.

Mistral Large (24.11)

O Mistral Large (24.11) é a versão mais recente do modelo Large da Mistral AI, agora com recursos aprimorados de raciocínio e chamada de função.

  • Centrada no agente: melhores recursos de agente com função nativa chamada e saídas JSON.
  • Multilíngue por design: dezenas de idiomas disponíveis, incluindo inglês, francês, alemão, espanhol, italiano, chinês, japonês, coreano, português, holandês e polonês.
  • Proficiência em programação: treinado em mais de 80 linguagens de programação, como Python, Java, C, C++ e JavaScript. Também treinado em linguagens mais específicas como Swift e Fortran
  • Raciocínio avançado: recursos de cálculo e raciocínio de última geração.
Acessar o card de modelo do Mistral Large (24.11)

Mistral Large (2407)

O Mistral Large (2407) é o principal modelo da Mistral AI para a geração de textos. Ele atinge capacidades de raciocínio de nível superior e pode ser usado para tarefas multilíngues, incluindo compreensão de texto, transformação e programação geração de imagens. Para mais informações, consulte a postagem da Mistral AI sobre Mistral Large (2407).

O Mistral Large (2407) se destaca nas seguintes dimensões:

  • Padrão multilíngue: há suporte para vários idiomas, incluindo inglês, francês, alemão, espanhol, italiano, chinês, japonês, coreano, português, holandês e polonês.
  • Proficiência em programação: treinado em mais de 80 linguagens de programação, como Python, Java, C, C++ e JavaScript. Também treinado em linguagens mais específicas como Swift e Fortran.
  • Centrada no agente: melhores recursos de agente com função nativa chamada e saída JSON.
  • Raciocínio avançado: recursos de cálculo e raciocínio de última geração.
. Acessar o card do modelo do Mistral Large (2407)

Mistral Nemo

O Mistral Nemo é o produto reservado mais econômico da Mistral AI um modelo de machine learning. É a escolha ideal para cargas de trabalho de baixa latência e tarefas simples que podem ser feitas em massa, como classificação, suporte ao cliente e geração de imagens. Para mais informações, consulte a documentação do Mistral AI.

O Mistral Nemo é otimizado para os seguintes casos de uso:

  • Gerar e classificar textos.
  • Criar agentes para cenários de suporte ao cliente.
  • Gerar código, preenchimento, revisão e comentários. Oferece suporte a todas as linguagens de programação mais usadas.
. Acessar o card de modelo do Mistral Nemo

Codestral

O Codestral é um modelo generativo projetado especificamente e otimizado para tarefas de geração de código, incluindo fill-in-the-middle e preenchimento de código. O Codestral foi treinado em mais de 80 linguagens de programação, o que permitiu que ele tivesse um bom desempenho em linguagens comuns e menos comuns. Para saber mais, consulte a geração de código da Mistral AI Documentação.

O Codestral é otimizado para os seguintes casos de uso:

  • Gerar código, fornecer preenchimento de código, sugestões e tradução.
  • Entender seu código para fornecer um resumo e uma explicação.
  • Revisar a qualidade do código ajudando a refatorá-lo, corrigindo bugs e gerar casos de teste.
. Acessar o card do modelo da Codestral

Usar modelos do Mistral AI

Ao enviar solicitações para usar os modelos do Mistral AI, use o modelo a seguir nomes:

  • Para Mistral Large (24.11), use mistral-large-2411.
  • Para Mistral Large (2407), use mistral-large@2407.
  • Para o Mistral Nemo, use mistral-nemo@2407.
  • Para o Codestral, use codestral@2405.

Para mais informações sobre como usar o SDK da Mistral AI, consulte a documentação da Mistral AI Vertex AI.

Antes de começar

Para usar os modelos do Mistral AI com a Vertex AI, faça o etapas a seguir. A API Vertex AI (aiplatform.googleapis.com) precisa estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com a API do Vertex AI ativada, poderá usar esse projeto em vez de criar um novo.

Verifique se você tem as permissões necessárias para ativar e usar de modelos de machine learning. Para mais informações, consulte Conceder as permissões necessárias.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Acesse um dos cards de modelo do Model Garden da Mistral AI e clique em Ativar.

Fazer uma chamada de streaming para um modelo Mistral AI

O exemplo a seguir faz uma chamada de streaming para um modelo de IA do Mistral.

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • LOCATION: uma região compatível com Modelos da Mistral AI.
  • MODEL: o nome do modelo que você quer usar. No corpo da solicitação, exclua o número da versão do modelo @.
  • ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
  • STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
  • CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
  • MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.

    Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Corpo JSON da solicitação:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Para enviar a solicitação, escolha uma destas opções:

curl

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Fazer uma chamada unária para um modelo de IA do Mistral

O exemplo a seguir faz uma chamada unária para um modelo de IA do Mistral.

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • LOCATION: uma região compatível com Modelos da Mistral AI.
  • MODEL: o nome do modelo que você quer usar. No corpo da solicitação, exclua o número da versão do modelo @.
  • ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
  • STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
  • CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
  • MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.

    Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Corpo JSON da solicitação:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Para enviar a solicitação, escolha uma destas opções:

curl

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Disponibilidade e cotas das regiões do modelo de IA da Mistral

Para modelos de IA Mistral, uma cota se aplica a cada região onde o modelo é disponíveis. A cota é especificada em consultas por minuto (QPM) e tokens por minuto (TPM). O TPM inclui tokens de entrada e saída.

As regiões com suporte, as cotas padrão e o comprimento máximo de contexto para cada modelo da Mistral AI estão listadas nas tabelas a seguir:

Mistral Large (24.11)

Região Sistema de cotas Tamanho de contexto compatível
us-central1 60 QPM, 200.000 TPM 128.000 tokens
europe-west4 60 QPM, 200.000 TPM 128.000 tokens

Mistral Large (2407)

Região Sistema de cotas Tamanho de contexto compatível
us-central1 60 QPM, 200.000 TPM 128.000 tokens
europe-west4 60 QPM, 200.000 TPM 128.000 tokens

Mistral Nemo

Região Sistema de cotas Tamanho de contexto compatível
us-central1 60 QPM, 200.000 TPM 128.000 tokens
europe-west4 60 QPM, 200.000 TPM 128.000 tokens

Codestral

Região Sistema de cotas Tamanho de contexto compatível
us-central1 60 QPM, 200.000 TPM 32.000 tokens
europe-west4 60 QPM, 200.000 TPM 32.000 tokens

Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console do Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.