Data Cloud Summit에서 데이터베이스, 분석, AI의 최신 혁신 기술에 대해 알아보세요. 5월 26일부터 실시간 및 주문형으로 제공됩니다.

Dataprep by Trifacta

분석 및 머신러닝에 사용할 데이터를 시각적으로 탐색, 정리, 준비하는 지능형 클라우드 데이터 서비스입니다.

이 제품의 문서 보기

Dataprep 아이콘은 오른쪽에는 웹페이지 스택, 왼쪽에는 Trifacta 로고가 있는 스프레드시트, 뒤쪽에는 클라우드에 막대 그래프가 있는 열린 노트북 앞에 있습니다.

지능형 데이터 준비

Cloud Dataprep by Trifacta는 구조화된 데이터와 구조화되지 않은 데이터를 시각적으로 탐색하고 정리하여 분석, 보고, 머신러닝용으로 준비하는 지능형 데이터 서비스입니다. Dataprep은 서버리스 방식이며 규모와 상관없이 작동하기 때문에 배포하거나 관리해야 할 인프라가 없습니다. UI 입력마다 가장 이상적인 데이터 변환을 제안하고 예측하므로 코드를 작성할 필요가 없습니다.

새로운 소식

디스플레이에 데이터가 있는 컴퓨터 모니터

서버리스의 단순함

Dataprep은 Trifacta에서 운영하는 통합 파트너 서비스이며 업계 최고의 데이터 준비 솔루션을 기반으로 합니다. Google은 Trifacta와 긴밀하게 협력하여 소프트웨어를 미리 설치할 필요가 없고 별도의 라이선스 비용이나 지속적인 운영 오버헤드가 발생하지 않는 원활한 사용자 환경을 제공합니다. Dataprep은 완전 관리형 서비스이며 준비할 데이터 양에 따라 확장되므로 고객은 분석에만 집중할 수 있습니다.

스톱워치 아이콘이 있는 스타일 그래프

빠른 탐색 및 이상 감지

데이터 분포를 시각적으로 파악하여 즉시 데이터를 이해하고 탐색할 수 있습니다. Dataprep은 자동으로 스키마와 데이터 유형, 잠재적 조인을 인식하고 값의 누락 또는 이상점, 중복 등과 같은 이상 내역을 감지합니다. 따라서 시간 소모가 큰 데이터 프로파일링을 건너뛰고 바로 데이터 탐색 및 분석을 시작할 수 있습니다.

오른쪽 여백에 텍스트와 파란색 체크표시가 있는 페이지가 열린 판지 상자에서 나타납니다. Dataprep 아이콘은 왼쪽에 있습니다.

쉽고 효과적인 데이터 준비

Cloud Dataprep은 UI의 각 동작으로 가장 이상적인 데이터 변환을 자동으로 제안하고 예측해 줍니다. 변환 시퀀스를 정의하면 Dataprep에서 내부적으로 Dataflow 또는 BigQuery를 사용하여 코드 없이 클릭만으로 간편하게 구조화되거나 구조화되지 않은 모든 규모의 데이터 세트를 처리할 수 있도록 해줍니다.

Dataprep의 장점

Starter, Professional, Enterprise 버전

예측 변환

Dataprep은 독점 추론 알고리즘을 사용해 사용자가 선택한 데이터의 데이터 변환 인텐트를 해석합니다. 일치시킬 선택 항목의 순위가 지정된 제안 집합 및 패턴을 자동으로 생성합니다.

다양한 변환

수백 개의 변환 기능을 활용해 데이터를 원하는 애셋으로 만드세요. 한 번의 클릭만으로 집계, 피벗, 피벗 해제, 조인, 통합, 추출, 계산, 비교, 조건 추가, 병합, 정규 표현식 등의 기능을 적용하세요.

최적화된 처리량

Dataprep은 데이터를 최대한 빠르게 변환할 수 있는 최적의 기본 Google Cloud 처리 엔진을 자동으로 선택합니다. Dataprep은 데이터 지역 및 볼륨을 기준으로 BigQuery(인플레이스 ELT 변환)를 활용하여 데이터, Dataflow 또는 Dataprep의 소규모 메모리 내 엔진을 준비합니다.

활성 프로파일링

대화형 시각적 데이터 분포를 사용하여 데이터를 확인하고 탐색함으로써 데이터 검색, 정리, 변환에 도움이 됩니다. 시각적 표현을 통해 대규모 데이터의 해석이 용이해지고, Dataprep의 혁신적인 프로파일링 기법을 활용하여 중요한 통계 정보를 사용하기 쉬운 동적 형식으로 시각화할 수 있습니다.

데이터 품질 규칙

데이터 품질 규칙은 데이터의 정확도, 완전성, 일관성, 유효성, 고유성을 모니터링 및 조정할 수 있도록 데이터 품질 지표를 제시하며 데이터의 깨끗한 정도를 포괄적으로 볼 수 있도록 합니다.

공동작업

팀 환경에서는 여러 사용자가 동일한 애셋에 대해 작업할 수 있도록 하거나 좋은 품질의 작업을 사본으로 만들어 다른 사용자에게 템플릿으로 제공하면 유용합니다. Dataprep에서는 사용자가 동일한 흐름 객체에 대해 실시간으로 공동작업을 수행하거나 다른 사용자들이 독립적으로 작업에 사용할 사본을 만들 수 있습니다.

포괄적인 연결

BigQuery, Cloud Storage, Microsoft Excel, Google 스프레드시트 표준 연결 외에도 Salesforce, Oracle, Microsoft SQL Server, MySQL, PostgreSQL과 같은 수백 개의 데이터 소스로 셀프서비스 분석을 강화할 수 있습니다.

데이터 파이프라인 조정

데이터 준비 작업을 순차적 및 조건부 순서로 연결하여 데이터 준비 작업을 예약하고 자동화합니다. 사용자에게 성공 또는 실패를 알리고 외부 작업(예: Cloud Functions)을 트리거할 수 있습니다. 포괄적인 API를 활용하여 Dataprep을 엔드 투 엔드 솔루션의 일부로 통합할 수 있습니다.

엔터프라이즈 규모 운영화

버전에 걸친 레시피 가져오기/ 내보내기, 흐름 매개변수, Dataflow 또는 BigQuery 커스텀 구성, 성능 조정, 고급 API를 통해 지속적인 배포 사례를 채택하여 소프트웨어 개발 수명 주기와 모니터링을 자동화합니다.

일반적인 데이터 유형

메가바이트 단위부터 페타바이트 단위까지 CSV, JSON, 관계형 테이블 형식 또는 모든 크기의 SaaS 애플리케이션 데이터에 저장된 구조화된 또는 구조화되지 않은 데이터 세트를 쉽고 간편하게 변환할 수 있습니다.

패턴 일치

열 형식 패턴 일치를 활용해서 사용자가 관심을 가질 수 있는 데이터 패턴을 식별하고 레시피를 빌드할 때 사용할 수 있도록 인터페이스에 이를 표시합니다. 또한 레시피 단계에서 정규 표현식 또는 Dataprep 패턴을 적용하여 패턴을 찾아내고 데이터 세트에서 일치하는 데이터를 변환할 수 있습니다.

표준화

맞춤법이나 언어 독립적 발음을 기반으로 한 유사성에 따라 값을 그룹화하고 일관적인 값의 표준화된 클러스터를 생성합니다.

샘플링

성능 최적화를 위해 Dataprep에서는 클라이언트 애플리케이션에서 표시 및 조작할 수 있는 하나 이상의 데이터 샘플이 자동으로 생성됩니다. 하지만 샘플 크기, 샘플 범위, 샘플 생성 방법을 쉽게 변경할 수 있습니다.

고급 보안

액세스를 확인할 수 있도록 Google IAM 역할과 BigQuery, Cloud Storage, Google 스프레드시트 액세스 권한의 조합을 사용하여 개별 데이터 액세스 제어를 제공하여 현재 보안 표준을 확장합니다.

Dataprep ELT 파이프라인 아키텍처

왼쪽의 수집 열에는 BigQuery, Cloud Storage, Google Sheets, Microsoft Excel, 데이터베이스, 애플리케이션, 파일 업로드의 원시 데이터가 포함됩니다. 흐름은 준비 및 스토리지 열을 통해 Cloud Dataprep 및 Dataflow로 이동하며 BigQuery 및 Cloud Storage에서 데이터가 개선됩니다. 이 열 아래에는 거버넌스 및 자동화(Data Catalog, Cloud Functions, Cloud Composer)가 있습니다. 흐름은 BigQuery/BigQueryML, Looker, Google 데이터 스튜디오, Partner BI 서비스(Qlik 로고), Cloud AI Platform을 사용하여 분석 도구 및 ML 열에서 바로 이어집니다.

Dataprep 덕분에 새로운 데이터 세트를 빠르게 탐색할 수 있게 되었습니다. 또한 이 제품은 모든 데이터 변환 요구를 지원하는 유연성도 갖추고 있습니다. Merkle에서는 데이터 준비 작업이 몇 시간이나 며칠이 아닌 단 몇 분 만에 완료되면서 데이터 준비 시간이 90%나 단축되었습니다.

헨리 컬버, Merkle IT 설계자

고객 사례

리소스

가격 책정

Dataprep은 사용자가 데이터 샘플과 상호작용하여 데이터 준비 규칙을 정의하는 대화형 웹 애플리케이션입니다. 전체 데이터 세트에 대한 흐름을 실행할 때 이 흐름을 Dataprep 작업으로 실행할 수 있습니다(Dataflow 사용).가격은 설계와 실행의 두 가지 변수로 구분하여 책정됩니다. 설계는 사용자 수에 제한 없이 프로젝트 단위로 가격이 책정됩니다. 실행 가격은 Dataprep으로 작업을 실행하기 위한 Dataflow 사용량으로 구성됩니다. 자세한 내용과 전체적인 세부정보는 Google Cloud Marketplace의 가격 책정 페이지를 참조하세요. 

다음 단계 수행

$300의 무료 크레딧과 20여 개의 항상 무료 제품으로 Google Cloud에서 빌드하세요.

시작하는 데 도움이 필요하신가요?
신뢰할 수 있는 파트너 지원