이 페이지에서는 데이터 커넥터를 사용해서 Cloud Storage, Google Drive, Slack, Jira에 저장된 데이터에 액세스하고 RAG에 대해 Vertex AI 기반 LlamaIndex에서 이 데이터를 사용하는 방법을 보여줍니다. Rag 파일 가져오기 API는 이러한 데이터 소스에 대한 데이터 커넥터를 제공합니다.
Cloud Storage 또는 Google Drive에서 파일 가져오기
Cloud Storage 또는 Google Drive에서 코퍼스로 파일을 가져오려면 다음을 수행합니다.
- RAG 코퍼스 만들기의 안내에 따라 코퍼스를 만듭니다.
- 템플릿을 사용하여 Cloud Storage 또는 Google Drive에서 파일을 가져옵니다.
Slack에서 파일 가져오기
Slack에서 코퍼스로 파일을 가져오려면 다음을 수행합니다.
- 검색용으로 데이터를 구조화하고 최적화하는 색인인 코퍼스를 만듭니다. RAG 코퍼스 만들기의 안내를 따릅니다.
- Slack 채널 ID에서
CHANNEL_ID
를 가져옵니다. - RAG에 대해 Vertex AI 기반 LlamaIndex에 사용하도록 앱을 만들고 설정합니다.
- Slack UI의 특성 및 기능 추가 섹션에서 권한을 클릭합니다.
- 다음 권한을 추가합니다.
channels:history
groups:history
im:history
mpim:history
- 작업공간에 설치를 클릭하여 Slack 작업공간에 앱을 설치합니다.
- 복사를 클릭하여 ID를 인증하고 API에 대해 액세스 권한을 부여하는 API 토큰을 가져옵니다.
- Secret Manager에 API 토큰을 추가합니다.
- 저장된 보안 비밀을 보려면 RAG 서비스 계정에 대해 Vertex AI 기반의 프로젝트 LlamaIndex에 Secret Manager 보안 비밀 접근자 역할을 부여합니다.
다음 curl 및 Python 코드 샘플은 Slack 리소스에서 파일을 가져오는 방법을 보여줍니다.
curl
특정 채널에서 메시지를 가져오려면 CHANNEL_ID
를 변경합니다.
API_KEY_SECRET_VERSION=SLACK_API_KEY_SECRET_VERSION
CHANNEL_ID=SLACK_CHANNEL_ID
PROJECT_ID=us-central1
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${ ENDPOINT }/v1beta1/projects/${ PROJECT_ID }/locations/${ PROJECT_ID }/ragCorpora/${ RAG_CORPUS_ID }/ragFiles:import \
-d '{
"import_rag_files_config": {
"slack_source": {
"channels": [
{
"apiKeyConfig": {
"apiKeySecretVersion": "'"${ API_KEY_SECRET_VERSION }"'"
},
"channels": [
{
"channel_id": "'"${ CHANNEL_ID }"'"
}
]
}
]
}
}
}'
Python
지정된 시간 범위에 대해 또는 특정 채널에서 메시지를 가져오려면 다음 필드를 변경합니다.
- START_TIME
- END_TIME
- CHANNEL1 또는 CHANNEL2
# Slack example
start_time = protobuf.timestamp_pb2.Timestamp()
start_time.GetCurrentTime()
end_time = protobuf.timestamp_pb2.Timestamp()
end_time.GetCurrentTime()
source = rag.SlackChannelsSource(
channels = [
SlackChannel("CHANNEL1", "api_key1"),
SlackChannel("CHANNEL2", "api_key2", START_TIME, END_TIME)
],
)
response = rag.import_files(
corpus_name="projects/my-project/locations/us-central1/ragCorpora/my-corpus-1",
source=source,
chunk_size=512,
chunk_overlap=100,
)
Jira에서 파일 가져오기
Jira에서 코퍼스로 파일을 가져오려면 다음을 수행합니다.
- 검색용으로 데이터를 구조화하고 최적화하는 색인인 코퍼스를 만듭니다. RAG 코퍼스 만들기의 안내를 따릅니다.
- API 토큰을 만들려면 Atlassian 사이트에 로그인합니다.
- 요청에서 SERVER_URI로 {YOUR_ORG_ID}.atlassian.net을 사용합니다.
- 요청에서 EMAIL로 Atlassian 이메일을 사용합니다.
- 요청에
projects
또는customQueries
를 제공합니다. 커스텀 쿼리에 대한 자세한 내용은 Jira 쿼리 언어(JQL)에 고급 검색 사용을 참조하세요.projects
를 가져오면 전체 프로젝트를 가져오기 위해projects
가 해당 쿼리로 확장됩니다. 예를 들어MyProject
는project = MyProject
로 확장됩니다. - 복사를 클릭하여 ID를 인증하고 API에 대해 액세스 권한을 부여하는 API 토큰을 가져옵니다.
- Secret Manager에 API 토큰을 추가합니다.
- RAG 서비스 계정에 대해 Vertex AI 기반의 프로젝트 LlamaIndex에 Secret Manager 보안 비밀 접근자 역할을 부여합니다.
curl
EMAIL=JIRA_EMAIL
API_KEY_SECRET_VERSION=JIRA_API_KEY_SECRET_VERSION
SERVER_URI=JIRA_SERVER_URI
CUSTOM_QUERY=JIRA_CUSTOM_QUERY
PROJECT_ID=JIRA_PROJECT
REGION= "us-central1"
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${ ENDPOINT }/v1beta1/projects/${ PROJECT_ID }/locations/REGION>/ragCorpora/${ RAG_CORPUS_ID }/ragFiles:import \
-d '{
"import_rag_files_config": {
"jiraSource": {
"jiraQueries": [{
"projects": ["'"${ PROJECT_ID }"'"],
"customQueries": ["'"${ CUSTOM_QUERY }"'"],
"email": "'"${ EMAIL }"'",
"serverUri": "'"${ SERVER_URI }"'",
"apiKeyConfig": {
"apiKeySecretVersion": "'"${ API_KEY_SECRET_VERSION }"'"
}
}]
}
}
}'
Python
# Jira Example
jira_query = rag.JiraQuery(
email="xxx@yyy.com",
jira_projects=["project1", "project2"],
custom_queries=["query1", "query2"],
api_key="api_key",
server_uri="server.atlassian.net"
)
source = rag.JiraSource(
queries=[jira_query],
)
response = rag.import_files(
corpus_name="projects/my-project/locations/REGION/ragCorpora/my-corpus-1",
source=source,
chunk_size=512,
chunk_overlap=100,
)
다음 단계
- 그라운딩에 대한 자세한 내용은 그라운딩 개요를 참조하세요.
- RAG용 Vertex AI 기반 LlamaIndex에 대해 자세히 알아보려면 RAG용 Vertex AI 기반 LlamaIndex 사용을 참조하세요.
- 그라운딩 및 RAG에 대한 자세한 내용은 RAG를 사용하여 응답 그라운딩을 참조하세요.