Teste os modelos do Gemini 1.5, os modelos multimodais mais recentes na Vertex AI, e veja o que é possível criar com uma janela de contexto de até 2 milhões de tokens . Teste os modelos do Gemini 1.5, os modelos multimodais mais recentes na Vertex AI, e veja o que é possível criar com uma janela de contexto de até 2 milhões de tokens.

IA responsável e diretrizes de uso do Imagen

O Imagen na Vertex AI oferece recursos de IA generativa de última geração do Google para desenvolvedores de aplicativos. Como uma tecnologia em estágio inicial, o Imagen em relação às capacidades e aos usos em evolução criam um potencial para má aplicação, uso indevido e consequências não intencionais ou imprevistas na Vertex AI. Por exemplo, o Imagen na Vertex AI pode gerar um resultado inesperado, como imagens ofensivas, insensíveis ou contextualmente incorretas.

Considerando esses riscos e complexidades, o Imagen na Vertex AI foi projetado considerando os Princípios de IA do Google. No entanto, é importante que os desenvolvedores entendam e testem os modelos para implantá-los com segurança e responsabilidade. Para ajudar os desenvolvedores, o Imagen na Vertex AI tem filtros de segurança integrados para ajudar os clientes a bloquear resultados potencialmente prejudiciais nos casos de uso. Consulte a seção filtros de segurança para saber mais.

Quando o Imagen na Vertex AI é integrado a casos de uso e contextos exclusivos de um cliente, outras considerações de IA responsável e limitações de modelo podem precisar ser consideradas. Incentivamos os clientes a usar as práticas recomendadas de imparcialidade, interpretabilidade, privacidade e segurança.

Diretrizes de uso do Imagen

Leia os seguintes atributos do produto gerais e considerações legais antes de usar o Imagen na Vertex AI.

Filtros e saídas de imagem e texto: as imagens (geradas ou enviadas) pelo Imagen na Vertex AI são avaliadas em relação aos filtros de segurança. O objetivo do Imagen é filtrar (gerado ou enviado) que violem nossa política de uso aceitável (AUP) ou outras restrições de produtos de IA generativa. Além disso, nossos modelos de imagens generativas têm como objetivo gerar conteúdo original e não replicar o conteúdo existente. Projetamos nossos sistemas para limitar as chances de esse problema ocorrer e vamos continuar a melhorar o funcionamento deles. Como todos os provedores de serviços de nuvem, o Google mantém uma Política de Uso aceitável que proíbe os clientes de usar nossos serviços de maneiras que violem os direitos de IP de terceiros.
Suporte à geração de pessoas agora: esse recurso permite a geração de rostos sintéticos e fotorrealistas, mas não permite a geração de celebridades. Em alguns casos, rostos sintéticos podem parecer semelhantes aos indivíduos. Caso você acredite que esse recurso está gerando saídas incorretas, informe o problema usando o mecanismo de denúncia de abuso mencionado nas Informações gerais da IA generativa na Vertex AI.
Geração de crianças: este recurso permite que usuários selecionados aprovados gerem rostos sintéticos de crianças. Para solicitar a capacidade de usar esse recurso, entre em contato com a equipe de conta do Google Cloud.
Limites de filtro de segurança configuráveis: o Google bloqueia as respostas de modelo que excedem as pontuações de confiança designadas para determinados atributos de segurança. Para solicitar a capacidade de modificar um limite de segurança, entre em contato com a equipe de conta do Google Cloud.
Adição de texto compatível com determinadas versões de modelo: o Imagen não oferece suporte para adição de texto a imagens (enviadas ou geradas) usando um prompt de texto ao usar as versões de modelo imagegeneration@004 ou anteriores.
Denunciar suspeita de abuso: é possível denunciar uma suspeita de abuso do Imagen na Vertex AI ou em qualquer saída gerada que contenha material inadequado ou informações imprecisas usando a opção Denunciar abuso suspeito na formulário do Google Cloud.
Desativação do programa Trusted Tester: se você permitiu anteriormente que o Google usasse seus dados para melhorar serviços de IA/ML pré-GA como parte dos termos do programa Trusted Tester, pode ativar usando o formulário do programa Trusted Tester: solicitação de desativação.

Filtros de segurança

As solicitações de texto fornecidas como imagens e entradas (geradas ou enviadas por upload) pelo do Imagen na Vertex AI são avaliadas em relação a uma lista de filtros de segurança, que incluem "categorias prejudiciais" (por exemplo, violence, sexual, derogatory e toxic). Esses filtros de segurança filtram o conteúdo (gerado ou enviado) que viola nossa Política de Uso Aceitável (AUP, na sigla em inglês) .Política de uso proibido de IA generativa ou Princípios de IA.

Se o modelo responder a uma solicitação com uma mensagem de erro, como "Não foi possível enviar a solicitação" ou "talvez ela viole nossas políticas", a entrada vai acionar um filtro de segurança. Se menos imagens do que o solicitado forem retornadas, algumas saídas geradas serão bloqueadas por não atender aos requisitos de segurança.

Você pode escolher a intensidade da filtragem de conteúdo sensível ajustando o parâmetro safetySetting.

Atributos de segurança

Os atributos e os filtros de segurança não têm uma relação de mapeamento um para um. Os atributos de segurança são o conjunto de atributos que retornamos ao usuário quando includeSafetyAttributes é definido. Filtros de segurança são o conjunto de filtros que usamos para filtrar conteúdo. Não filtramos todas as categorias de atributos de segurança. Por exemplo, para a categoria do atributo de segurança "Saúde", não filtramos o conteúdo com base na pontuação de confiança de saúde. Além disso, não mostramos as pontuações de confiança de alguns dos nossos filtros internos de segurança sensível.

Configurar filtros de segurança

Há vários parâmetros de filtragem de segurança que podem ser usados com os modelos de geração de imagens. Por exemplo, é possível permitir que o modelo informe códigos de filtro de segurança para conteúdo bloqueado, desative a geração de rostos ou pessoas, ajuste a sensibilidade da filtragem de conteúdo ou retorne pontuações de segurança arredondadas da lista de atributos de segurança para entrada e saída. Para mais informações técnicas sobre campos individuais, consulte a referência da API do modelo de geração de imagens.

A resposta varia de acordo com os parâmetros definidos. Alguns parâmetros afetam o conteúdo produzido, enquanto outros afetam a filtragem de conteúdo e como a filtragem é informada a você. Além disso, o formato de saída depende se os dados de entrada são filtrados ou se a saída da imagem gerada é filtrada.

Parâmetros que filtram conteúdo

Os parâmetros opcionais a seguir afetam a filtragem de conteúdo ou a maneira como a filtragem é informada a você:

safetySetting^*: permite definir a intensidade da filtragem de conteúdos de saída possivelmente sensíveis.
includeRaiReason: fornece informações mais detalhadas sobre a saída filtrada.
personGeneration: uma configuração que permite mais controle sobre a geração de pessoas, rostos e crianças.
disablePersonFace: descontinuado. Uma opção para permitir geração de rostos e pessoas. Em vez disso, os usuários precisam definir personGeneration.
includeSafetyAttributes: fornece informações completas de atributo de segurança para texto de entrada, imagem de entrada (para edição) e todas as imagens geradas. Essas informações incluem a categoria de segurança (por exemplo, "Firearms & Weapons", "Illicit Drugs" ou "Violence") e as pontuações de confiança.

^* Disponível apenas para o modelo imagegeneration@006.

Entrada filtrada

Se a entrada de texto ou a imagem (para edição) for filtrada, você vai receber uma resposta com um código de erro 400. Uma solicitação com entrada filtrada por RAI retornará esse formato de saída se você definir includeRaiReason ou includeSafetyAttributes.

A saída depende da versão do modelo usada. Veja a seguir a saída quando ela é filtrada por diferentes versões do modelo:

Modelo

{
  "error": {
    "code": 400,
    "message": "Image generation failed with the following error: The prompt could not be submitted. This prompt contains sensitive words that violate Google's Responsible AI practices. Try rephrasing the prompt. If you think this was an error, send feedback."
    "status": "INVALID_ARGUMENT",
    "details": [
      {
        "@type": "type.googleapis.com/google.rpc.DebugInfo",
        "detail": "[ORIGINAL ERROR] generic::invalid_argument: Image generation failed with the following error: The prompt could not be submitted. This prompt contains sensitive words that violate Google's Responsible AI practices. Try rephrasing the prompt. If you think this was an error, send feedback. [google.rpc.error_details_ext] { message: \"Image editing failed with the following error: The prompt could not be submitted. This prompt contains sensitive words that violate Google's Responsible AI practices. Try rephrasing the prompt. If you think this was an error, send feedback. Support codes: 42876398\" }"
      }
    ]
  }
}

Modelos

{
  "error": {
    "code": 400,
    "message": "Image generation failed with the following error: The prompt could not be submitted. This prompt contains sensitive words that violate Google's Responsible AI practices. Try rephrasing the prompt. If you think this was an error, send feedback.",
    "status": "INVALID_ARGUMENT",
    "details": [
      {
        "@type": "type.googleapis.com/google.rpc.DebugInfo",
        "detail": "[ORIGINAL ERROR] generic::invalid_argument: Image generation failed with the following error: The prompt could not be submitted. This prompt contains sensitive words that violate Google's Responsible AI practices. Try rephrasing the prompt. If you think this was an error, send feedback. [google.rpc.error_details_ext] { message: \"Image generation failed with the following error: The prompt could not be submitted. This prompt contains sensitive words that violate Google\\'s Responsible AI practices. Try rephrasing the prompt. If you think this was an error, send feedback.\" }"
      }
    ]
  }
}

Saída filtrada

O conteúdo da saída filtrada varia de acordo com o parâmetro RAI que você definir. Os exemplos de saída a seguir mostram o resultado do uso dos parâmetros includeRaiReason e includeSafetyAttributes.

Saída filtrada usando `includeRaiReason`

Se você não adicionar includeRaiReason ou definir includeRaiReason: false, sua resposta vai incluir apenas objetos de imagem gerados que não são filtrados. Todos os objetos de imagem filtrados são omitidos da matriz "predictions": []. Por exemplo, veja a seguir uma resposta a uma solicitação com "sampleCount": 4, mas duas das imagens são filtradas e, consequentemente, omitidas:

{
  "predictions": [
    {
      "bytesBase64Encoded": "/9j/4AAQSkZJRgABA[...]bdsdgD2PLbZQfW96HEFE/9k=",
      "mimeType": "image/png"
    },
    {
      "mimeType": "image/png",
      "bytesBase64Encoded": "/9j/4AAQSkZJRgABA[...]Ct+F+1SLLH/2+SJ4ZLdOvg//Z"
    }
  ],
  "deployedModelId": "MODEL_ID"
}

Se você definir includeRaiReason: true e várias imagens de saída forem filtradas, sua resposta incluirá objetos de imagem gerados e objetos raiFilteredReason para qualquer imagem de saída filtrada. Por exemplo, veja a seguir uma resposta a uma solicitação com "sampleCount": 4 e includeRaiReason: true em que duas das imagens são filtradas: Consequentemente, dois objetos incluem informações de imagem geradas, e o outro inclui uma mensagem de erro.

Modelo

{
  "predictions": [
    {
      "bytesBase64Encoded": "/9j/4AAQSkZJRgABA[...]bdsdgD2PLbZQfW96HEFE/9k=",
      "mimeType": "image/png"
    },
    {
      "mimeType": "image/png",
      "bytesBase64Encoded": "/9j/4AAQSkZJRgABA[...]Ct+F+1SLLH/2+SJ4ZLdOvg//Z"
    },
    {
      "raiFilteredReason": "Your current safety filter threshold filtered out 2 generated images. You will not be charged for blocked images. Try rephrasing the prompt. If you think this was an error, send feedback."
    },
  ],
  "deployedModelId": "MODEL_ID"
}

Modelos

{
  "predictions": [
    {
      "bytesBase64Encoded": "/9j/4AAQSkZJRgABA[...]bdsdgD2PLbZQfW96HEFE/9k=",
      "mimeType": "image/png"
    },
    {
      "mimeType": "image/png",
      "bytesBase64Encoded": "/9j/4AAQSkZJRgABA[...]Ct+F+1SLLH/2+SJ4ZLdOvg//Z"
    },
    { 
      "raiFilteredReason": "56562880"
    },
    { 
      "raiFilteredReason": "56562880"
    }
  ],
  "deployedModelId": "MODEL_ID"
}

Saída filtrada usando `includeSafetyAttributes`

Se você definir "includeSafetyAttributes": true, a matriz de resposta "predictions": [] vai incluir as pontuações de RAI (arredondadas para uma casa decimal) dos atributos de segurança de texto do comando positivo. Os atributos de segurança da imagem também são adicionados a cada saída não filtrada. Se uma imagem de saída for filtrada, os atributos de segurança dela não serão retornados. Por exemplo, isto é uma resposta a uma solicitação sem filtro, e uma imagem é retornada:

{
  "predictions": [
    {
      "bytesBase64Encoded": "/9j/4AAQSkZJRgABA[...]bdsdgD2PLbZQfW96HEFE/9k=",
      "mimeType": "image/png", 
      "safetyAttributes": {
        "categories": [
          "Porn",
          "Violence"
        ],
        "scores": [
          0.1,
          0.2
        ]
      } 
    }, 
    {
      "contentType": "Positive Prompt",
      "safetyAttributes": {
        "categories": [
          "Death, Harm & Tragedy",
          "Firearms & Weapons",
          "Hate",
          "Health",
          "Illicit Drugs",
          "Politics",
          "Porn",
          "Religion & Belief",
          "Toxic",
          "Violence",
          "Vulgarity",
          "War & Conflict"
        ],
        "scores": [
          0,
          0,
          0,
          0,
          0,
          0,
          0.2,
          0,
          0.1,
          0,
          0.1,
          0
        ]
      }
    }, 
  ],
  "deployedModelId": "MODEL_ID"
}

Categorias de código de filtro de segurança

Dependendo dos filtros de segurança configurados, a saída pode conter um código de motivo semelhante ao seguinte:

    {
      "raiFilteredReason": "ERROR_MESSAGE. Support codes: 56562880""
    }

O código listado corresponde a uma categoria nociva específica. Esses códigos para os mapeamentos de categoria são os seguintes:

Código do erro	Categoria de segurança	Descrição	Conteúdo filtrado: entrada de comando ou saída de imagem
58061214 17301594	Filho(a)	Detecta conteúdo infantil onde ele não é permitido devido às configurações de solicitação da API ou à lista de permissões.	input (prompt): 58061214 output (imagem): 17301594.
29310472 15236754	Celebridade	Detecta uma representação fotorrealista de uma celebridade na solicitação.	input (prompt): 29310472 output (imagem): 15236754.
62263041	Conteúdo perigoso	Detecta conteúdo que é potencialmente perigoso por natureza.	Entrada (prompt)
57734940 22137204	Incita o ódio	Detecta conteúdo ou tópicos relacionados a incitação ao ódio.	entrada (comando): 57734940 saída (imagem): 22137204
74803281 29578790 42876398	Outro	Detecta outros problemas de segurança diversos com a solicitação	entrada (prompt): 42876398, saída (imagem): 29578790, 74803281
39322892	Pessoas/Rosto	Detecta uma pessoa ou um rosto quando isso não é permitido devido às configurações de segurança da solicitação.	saída (imagem)
92201652	Informações pessoais	Detecta informações de identificação pessoal (PII) no texto, como a menção de um número de cartão de crédito, endereços residenciais ou outras informações.	Entrada (prompt)
89371032 49114662 72817394	Conteúdo proibido	Detecta a solicitação de conteúdo proibido.	input (prompt): 89371032 output (imagem): 49114662, 72817394.
90789179 63429089 43188360	Conteúdo sexual	Detecta conteúdo de natureza sexual.	input (prompt): 90789179 output (imagem): 63429089, 43188360.
78610348	Tóxico	Detecta temas ou conteúdo tóxico no texto.	Entrada (prompt)
61493863 56562880	Violência	Detecta conteúdo relacionado à violência na imagem ou no texto.	input (prompt): 61493863 output (imagem): 56562880.
32635315	Vulgar	Detecta temas ou conteúdo vulgar no texto.	Entrada (prompt)

Limitações

Os limites a seguir se aplicam a diferentes tarefas:

Limitações de geração de imagem

Amplificação de vieses: embora o Imagen na Vertex AI possa gerar imagens de alta qualidade, pode haver possíveis vieses no conteúdo gerado. As imagens geradas dependem dos dados de treinamento do produto, que podem incluir intencionalmente vieses que podem perpetuar estereótipos ou discriminar determinados grupos. É necessário um monitoramento e uma avaliação cuidadosos para garantir que os resultados estejam alinhados à Política de Uso Aceitável do Google e ao seu caso de uso.
Transparência e divulgação: pode ser difícil para os usuários diferenciar imagens geradas por IA de imagens não geradas por IA. Ao usar imagens geradas por IA em um caso de uso, é importante divulgar claramente aos usuários que as imagens foram geradas por um sistema de IA para garantir transparência e manter a confiança no processo. Aplicamos rotulagem de metadados às imagens geradas por IA para ajudar a combater o risco de desinformação e como parte da nossa abordagem responsável de IA.
Contexto insuficiente: o Imagen na Vertex AI pode não ter o contexto necessário para gerar imagens apropriadas para todas as situações ou públicos-alvo em um caso de uso. Verifique se as imagens geradas estão alinhadas ao contexto, ao propósito e ao público-alvo pretendidos.

Limitações de edição de imagem

Declarações falsas e autenticidade: editar imagens usando o Imagen na Vertex AI pode resultar em deturpação ou manipulação de imagens, o que pode levar à criação de conteúdo enganador ou enganoso. É importante garantir que o processo de edição seja usado de maneira responsável, sem comprometer a autenticidade e a veracidade das imagens editadas. Aplicamos rotulagem de metadados às imagens geradas por IA para ajudar a combater o risco de desinformação e como parte da nossa abordagem responsável de IA.

Limitações das legendas visuais

Sensibilidade de precisão e contexto: as legendas visuais podem apresentar desafios ao descrever com precisão imagens complexas ou ambíguas. As descrições geradas nem sempre compreendem o contexto completo ou as nuances do conteúdo visual. É importante reconhecer que os sistemas de legendagem automáticos têm limitações na compreensão de imagens com níveis variados de complexidade, e as descrições devem ser usadas com cuidado, especialmente em contextos críticos ou sensíveis.
Ambiguidade e interpretações subjetivas: as imagens muitas vezes podem estar abertas a várias interpretações, e as legendas geradas nem sempre se alinham à compreensão ou expectativas humanas. Indivíduos diferentes podem perceber e descrever imagens de maneiras diferentes com base nas experiências subjetivas e a cultura deles. É fundamental considerar o potencial para ambiguidade e subjetividade nas descrições de imagem e fornecer mais contexto ou interpretações alternativas, quando necessário.
Considerações sobre acessibilidade: embora as legendas de imagens automatizadas possam oferecer suporte à acessibilidade fornecendo descrições para pessoas com deficiência visual, é importante reconhecer que elas podem não substituir totalmente o texto ou as descrições geradas por humanos adaptados a necessidades específicas de acessibilidade. As legendas automáticas podem não ter o nível de detalhamento ou compreensão contextual necessário para determinados casos de uso de acessibilidade.

Limitações da respostas visuais a perguntas (VQA, na sigla em inglês)

Confiança e incerteza: às vezes, os modelos de VQA podem fornecer respostas não confiáveis, mesmo quando a resposta correta está incerta ou ambígua. É essencial comunicar a incerteza do modelo e fornecer respostas adequadas ou respostas alternativas quando houver ambiguidade, em vez de transmitir uma falsa sensação de certeza.

Práticas recomendadas

Para utilizar essa tecnologia com segurança e responsabilidade, também é importante considerar outros riscos específicos para o caso de uso, usuários e contexto empresarial, além das salvaguardas técnicas integradas.

Recomendamos seguir estas etapas:

Analise os riscos de segurança do aplicativo.
Faça ajustes para evitar riscos de segurança.
Realize testes de segurança de acordo com seu caso de uso.
Peça o feedback do usuário e monitore os conteúdos.

Outros recursos de IA responsável

Saiba mais sobre a IA responsável por modelos de linguagem grande (LLMs, na sigla em inglês).
Saiba mais sobre as recomendações do Google para práticas de IA responsável.
Leia nosso blog Uma programação compartilhada para o progresso responsável da IA

Enviar feedback sobre o Imagen na Vertex AI

Se você receber uma saída ou resposta imprecisa ou que não seja segura, envie um feedback para nós. Seu feedback pode ajudar a melhorar o Imagen na Vertex AI e os esforços mais amplos do Google em IA.

Como o feedback pode ser legível, não envie dados que contenham informações pessoais, confidenciais ou sensíveis.

Versões de modelos do Imagen e ciclo de vida

IA responsável e diretrizes de uso do Imagen

Diretrizes de uso do Imagen

Filtros de segurança

Atributos de segurança

Configurar filtros de segurança

Parâmetros que filtram conteúdo

Entrada filtrada

Modelo

Modelos

Saída filtrada

Saída filtrada usando includeRaiReason

Modelo

Modelos

Saída filtrada usando includeSafetyAttributes

Categorias de código de filtro de segurança

Limitações

Limitações de geração de imagem

Limitações de edição de imagem

Limitações das legendas visuais

Limitações da respostas visuais a perguntas (VQA, na sigla em inglês)

Práticas recomendadas

Outros recursos de IA responsável

Enviar feedback sobre o Imagen na Vertex AI

Saída filtrada usando `includeRaiReason`

Saída filtrada usando `includeSafetyAttributes`