Google Cloud 데이터 히어로 시리즈: 생물정보학 연구원이 GCP에서 게놈 확장 데이터 파이프라인을 사용할 수 있도록 지원한 클라우드 설계자 린과의 만남
Maria Snaider
Data Analytics Associate Product Marketing Manager
* 본 아티클의 원문은 2022년 2월 23일 Google Cloud 블로그(영문)에 게재되었습니다.
Google Cloud 데이터 히어로는 Google Cloud 데이터 분석 도구를 사용해 획기적인 성과를 거둔 우리 주변 영웅들의 사례를 공유하는 시리즈입니다. 여느 슈퍼히어로 이야기와 마찬가지로 Google Cloud 데이터 히어로 스토리의 기원, 데이터 혼돈 상태에서 데이터 기반 환경으로 발전한 과정, 현재 극복 중인 프로젝트와 도전과제, 커뮤니티에 기여하고 있는 방식 등을 살펴봅니다.
시리즈 첫 게시물에서는 Google Cloud 데이터 히로인, 린 란깃트를 소개합니다. 린은 컨설팅 회사인 Lynn Langit Consulting LLC의 설립자이며 미네소타에서 이 회사를 11년째 운영하고 있는 노련한 사업가입니다. 린은 클라우드 설계자, 개발자, 교육자 등 다양한 분야의 데이터 전문가로 왕성하게 활동하고 있습니다. 바쁜 와중에도 계절에 상관없이 자전거를 즐기고 있습니다(아래 사진). 자전거용 스노우 타이어가 필요할 정도면 얼마나 거친 운동인지 짐작이 갈 것입니다.
데이터 실무자가 된 과정이 궁금합니다. 어떤 경험을 했고 어떤 과정을 통해 GCP를 사용하게 되었나요?
저는 수년 간 기술 업계에 종사했습니다. 그러던 중 실무자들이 데이터의 가치를 활용하게 되면 세밀한 질문을 제기하고 정교한 의사결정을 내린다는 점에 흥미를 느꼈습니다. 처음에는 흥미롭게 다가왔던 것이 강한 호기심으로 발전하여 결국 15년에 걸쳐 비즈니스 종사자에서 데이터 실무자로 변신했습니다. 제가 언어학 및 독일어 학사 학위를 취득했다는 점을 감안하면 경력상에 거대한 변화가 일어났다고 할 수 있습니다. 처음에는 작은 일에서 시작했습니다. 지금도 그렇지만 처음에는 온라인 리소스, 과정, 자료를 통해 대부분의 지식을 독학했습니다. 초창기에는 데이터베이스와 데이터 웨어하우징, 특히 여러 엔터프라이즈 데이터베이스를 빌드하고 조정하는 작업을 익혔습니다. Hadoop/NoSQL을 사용할 수 있게 되면서 빅데이터로 방향을 전환했어요.
당시 저는 진도에 맞춰 Microsoft 기술을 학습하며 부족한 부분을 보충했고 1년 만에 모든 Microsoft 자격증을 취득했습니다. 그러다 업계가 온프레미스에서 클라우드로 이전하는 것을 보고 저도 프로그래밍에서 클라우드로 학습 방향을 전환했습니다. 퍼블릭 클라우드에서 작업한지 어느덧 10년이 넘었습니다.
“처음에는 AWS를 사용했는데 최근에는 거의 모든 작업을 GCP에서 처리했습니다. 저는 특히 데이터 파이프라인, 데이터 운영, 머신러닝을 구현하는 작업을 좋아합니다.”
제품 심층 정보 및 문서, 과정, 기술, 자격증 등 Google Cloud 데이터 기술 발전 기회를 활용하여 어떻게 독학을 보완했나요?
제가 반했던 첫 번째 Google Cloud 데이터 분석 제품 중 하나는 BigQuery였습니다. BigQuery는 데이터 분석, 데이터베이스, AI/ML, 비즈니스 인텔리전스가 결합된 제품으로 가득한 훨씬 더 큰 개방형 인텔리전트 통합 데이터 플랫폼으로 안내해 준 제품이었습니다.
항상 BigQuery를 사용해 왔습니다. 최초 출시 버전부터 만족도가 높았는데 지금도 계속 개선되고 있습니다. 그러다 Dataproc과 BigTable에 대해 알게 되었습니다. Dataproc은 Apache Spark 프로젝트에 자주 사용하며 BigTable도 여러 프로젝트에 사용했습니다. 또한 TensorFlow와 AutoML도 많이 사용하고 있습니다.
저는 BigQuery, 데이터 분석 등의 기술 배지를 획득했습니다. 아울러 Google의 프로페셔널 데이터 엔지니어 자격증을 취득했고 2012년부터 Google Developer Expert로 활동해 왔습니다.
최근에는 Google Cloud Innovators 프로그램에서 선정한 데이터 분석 혁신가 챔피언에 이름을 올렸습니다. 데이터 실무자들이 탐내는 타이틀이자 Google 직원들이 혁신가 멤버십에서 챔피언 타이틀로 올라서기 위해 필요한 과정이라고 들었기 때문에 더욱 기뻤습니다.
커뮤니티에서 데이터 분석 분야의 오피니언 리더로 인정받고 계시는데요. 데이터 기술을 학습자에서 데이터 부문의 마스터로 성장했다고 느낀 건 언제였나요? 가장 인상 깊었던 데이터 프로젝트는 무엇인가요?
평소 다루던 영역이 아닌 애드테크와 핀테크 등에서도 중요한 데이터 작업을 자신 있게 수행할 수 있게 되었을 때 데이터 설계 분야를 마스터했다고 느꼈습니다.
예를 들어, 지난 몇 년간은 코로나19 팬데믹 대응 등 인간의 건강과 관련된 작업을 수행했습니다. 게놈 확장 데이터 파이프라인으로 과학자와 생물정보학 연구원들을 지원하고 있습니다. 이 일을 시작하기 전에는 유전체학에 대한 지식이 전무했습니다. 생물정보학을 독학하면서 학습한 내용을 GitHub에 기록했습니다. 그러다가 GCP를 처음 사용하는 연구원을 대상으로 하는 GitHub의 오픈소스 GCP 과정을 이수했습니다. 이 과정이 좋은 점은 기초적인 GCP 계정 설정 방법부터 시작한다는 것입니다. 이후 BigQuery 및 기타 Google Cloud 데이터 제품을 사용해 게놈 확장 데이터 워크플로, 파이프라인, 분석, 일괄 작업 등을 매핑하는 방법을 익혔습니다.
연구원들이 대량의 데이터를 빠르게 처리하고 합성하는 데 이 저장소가 긍정적인 영향을 미쳤다는 피드백을 받았습니다. 또한 이 저장소는 GCP와 같은 퍼블릭 클라우드에 대한 접근성을 넓힌다는 더 큰 목표도 달성하고 있습니다.
데이터 커뮤니티에 가치를 환원하는 나만의 방법은 무엇이라고 생각하나요? 데이터 커뮤니티에 환원하는 것이 중요한 이유는 무엇인가요?
저는 제가 배운 지식을 커뮤니티와 공유하느라 늘 바쁘게 지냅니다. YouTube에 올릴 클라우드 및 빅데이터 기술 스크린캐스트(데모)를 녹화하고 있으며 데이터 및 클라우드를 주제로 한 25개의 LinkedIn Learning 과정을 집필했습니다. 클라우드 기술과 일상 속에서 떠오른 생각을 담은 미디어 기사도 이따금씩 쓰고 있습니다. 중고등학교 교사들에게 우수한 자바 프로그래밍 커리큘럼을 제공한다는 사명 아래 설립된 Teaching Kids Programming의 공동 설립자이기도 합니다.
데이터 커뮤니티에 가치를 환원하는 것이 중요한 이유를 묻는다면 이런 답을 드리고 싶습니다. 저는 막 60세가 되었지만 지금도 계속해서 첨단 기술을 배우고 있습니다. 최근에 도전하고 있는 분야는 클라우드 양자 컴퓨팅입니다. 생활 속 경험에 호기심이 더해질 때 우리는 기술이 제공하는 혜택을 누릴 수 있습니다. 그래서 계속 학습하고 개인적인 발전과 성공 스토리를 공유해야 한다는 막중한 의무감을 갖고 있습니다.
나만의 히어로 여정을 시작하세요
Google Cloud 데이터 여정을 시작할 준비가 되셨나요? 배지와 자격증을 획득할 수 있는 GCP의 추천 학습 과정을 이수하여 나만의 히어로 여정을 시작하세요. Cloud Innovators 프로그램에 가입하여 데이터 실무자를 위한 최신 도움말, 유용한 정보, 이벤트를 확인하세요.
곧 열릴 가상 이벤트인 '최신 Google Cloud 데이터 분석 혁신'에서 Google 데이터 커뮤니티와 교류하세요. 지금 등록하고 예약하여 GCP의 최고 데이터 리더로부터 데이터 질문에 대한 답을 실시간으로 받고 BigQuery, Dataproc, Dataplex, Dataflow 등의 최신 Google 제품의 시연을 보세요. 린이 이번 이벤트의 MC로 무대에 오르니 기회를 놓치지 마세요.
마지막으로, 공유할 만한 데이터 히어로 사례가 있다면 알려주세요. 이 시리즈에서 여러분을 소개할 수 있기를 바랍니다.