article thumbnail image
Published 2022. 8. 23. 22:54

GCP를 사용해보기 위해서 공부하던 중 Big Query에 대해서 아게 되었고 이에대해서 공부한 내용을 적어보려한다. 이름에서 알 수 있듯 큰 SQL 쿼리를 빠르게 수행해주도록 도와주는 GCP의 서비스였는데 직관적인 이름에 비해 생각보다 어려운 내용을 의미하는 듯 해서 완벽히 이해하는것이 좀 어려웠지만 그래도 내가 아는것 까지 정리해놓아야지!

 

 


Big-Query?

 

비즈니스 민첩성을 확보하도록 설계된 서버리스 멀티 클라우드 데이터 웨어하우스로, 높은 확장성과 비용 효율성을 갖추고 있습니다.

 

 구글 클라우드 사이트의 Big-Query에 대한 설명이다. 이게 무엇이길래 GCP에서 무료 크레딧까지 주면서 우리 서비스 이용해보세요~ 하는걸까? Big-Query란 대용량 데이타셋을 대화식으로 분석할 수 있는 웹서비스이다. 대규모 데이터저장 및 분석 플랫폼으로 축적된 데이터를 모아서 관리하는 일종의 '데이터 웨어하우스'이다. 개발자와 기업은 데이터를 분석하기 위해서 이러한 서비스를 이용하게 된다. 한마디로 엄청나게 큰 데이터를 정리해주어서 분석하게 도와주는 서비스이다. 구글에서 제공하는 Big-Query 서비스는 페타 바이트 규모의 저비용 데이터 웨어하우스로, 구글이 직접 관리해주기 때문에 사용자는 이에 대해 별도의 서버나 물리적 하드웨어를 설치하거나 이에 따른 스트레스를 받을 일이 전혀 없다. 일반적은 rdb나 noSQL 보다 월등히 빠른 속도를 자랑하며 Google Cloud Storage에서 데이터를 직접 바로 분석할 수도 있다. 

 

Big-Query 특징

  • 서버리스 (Serverless)

  필요에 따라 자동으로 필요한 리소스가 제공되므로 컴퓨터 리소스를 운영하고 사이징 하기 보다는 데이터 및 분석에 집중할 수 있다.

 

  • 페타바이트 규모

 빅쿼리는 어떤 크기의 데이터도 빠르고 쉽게 분석할 수 있다. 용량 증설 할 필요 없이 수 페타의 데이터를 추가로 저장하고 분석할 수 있으며 분석 속도 또한 매우 빠르다.

 

  • 실시간 분석 (Real-time Analytics)

 빅쿼리의 고속 스트리밍 삽입 API는 실시간 분석을 위한 강력한 기반을 제공한다. 따라서 발생한 데이터를 바로 분석할 수 있도록 도와준다.

 

  • 데이터 암호화 및 보안 (Data Encryption and Security)

 누가 저장된 데이터에 접근하는지에 대해서 완전한 제어권을 가진다. Cloud IAM을 통해 세밀한 ID 및 접근 관리로 보안성을 쉽게 높이고 데이터가 저장되거나 이동할 때 항상 암호화 된다.

 

  • 표준 SQL (Standard SQL)

 ANSI:2011 규정을 준수하는 표준 SQL 언어를 지원하여 코드 재작성의 필요성을 줄임고 고급 SQL 기능을 활용할 수 있음. 현재 애플리케이션이 빅쿼리의 강력한 엔진을 사용할 수 있도록 ODBC, JDBC 드라이버 제공

 

  • 데이터 지역성 (Data Locality)

 완전 관리 서비스를 통해 지속적인 혜택을 받으면서 미국, 유럽, 일본 지역에 데이터를 저장할 수 있음. 클러스터 및 기타 컴퓨팅 리소스를 설정하고 관리해야 하는 번거로움 없이 지리적으로 데이터를 저장할 수 있는 옵션을 제공한다는 뜻임

 

  • 연합 쿼리 및 논리적 데이터워어하우징 (Federated Query and Logical Data Warehousing)

 강력한 연합 쿼리 기능을 통해 오브젝트 저장소(Cloud Storage), 트랜잭션 데이터베이스(Cloud Bigtable), 구글 드라이브의 스프레드시트 등에 있는 데이터를 사본을 만들지 않고 하나의 도구로 분석할 수 있음

 

  • AI의 기반 (Foundation for AI)

머신러닝과 인공지능을 위한 유연하고 강력한 기초를 제공. BigQuery ML을 사용하여 머신러닝 모델을 직접 만들 수 있음. Cloud ML 엔진과 텐서플로를 연계하여 모델을 만들 수 있는 구조적 데이터 제공. 빅쿼리의 데이터를 분석 및 전환 능력이 머신러닝에 맞는 데이터를 제공할 수 있음.

 

  • BI(Business Intelligenc)의 기반 (Foundation for BI)

최신 BI솔루션을 위한 데이터웨어하우징 백본을 형성하며, Google 및 파트너사들의 기술로 데이터 통합, 변환, 분석, 시각화 및 보고를 원활하게 수행할 수 있음.

 

  • 자동 백업 및 쉬운 복구 (Automatic Backup and Easy Restore)

자동으로 데이터를 복제하고 7일 동안의 변경 기록을 유지하여 예상치 못한 데이터 변경에 대한 우려가 적음. 따라서 다른 시간의 데이터를 쉽게 복원하고 비교할 수 있음.

 

  • 유연한 데이터 유입 (Flexible Data Ingestion)

Cloud Storage(Google의 오브젝트 스토리지), 또는 Cloud Datastore(Google의 NoSQL document dbms)에서 데이터를 로드하거나 스트림으로 초당 수천개의 행을 유입하여 실시간 분석을 할 수 있음. 익숙한 Informatica, Talend 등의 데이터 통합툴과 함께 사용 가능.

 

  • 빅데이터 에코 시스템과 연계 (Big Data Ecosystem Integration)

Cloud Dataproc 및 Cloud Dataflow를 통해 Apache 빅데이터 에코 시스템과 통합 가능. 기존 Hadoop/Spark 및 Beam 워크로드가 빅쿼리에서 직접 읽거나 빅쿼리에 쓸 수 있음. 빅쿼리를 사용하면 기존 빅데이터 잡을 사용하여 SQL로 분석하기 쉬움 

 

Reference

https://goodit.tistory.com/entry/BigQuery-%EB%9E%80

'오늘의 공부 정리' 카테고리의 다른 글

32. 쿠버네티스(Kubernetis)  (0) 2022.08.24
31. 로드밸런서 & DNS  (0) 2022.08.24
29. Redis  (0) 2022.08.23
28. Pagination  (0) 2022.08.23
27. CORS  (0) 2022.08.23
복사했습니다!