꾸준히 오래오래

데이터 엔지니어의 공부 곳간✏️

data 2

[Airflow] Custom Operator 생성 시, template_fields 알아보기

Airflow를 사용하다 보면, 상황에 맞게 필요한 Custom Operator를 생성하게 된다. 보통 batch job을 돌리며서 logical_date, ds, data_interval_start와 같은 날짜 템플릿 변수를 자주 사용하며, 이는 Custom Operator의 경우에도 마찬가지이다. 이때 Jinja template을 이용하여 Custom Operator를 매개변수화 할 수 있으며, template_fields에 있는 필드 이름을 Operator를 렌더링 하는 동안 템플릿으로 간주한다. Templating 아래는 HelloOperator라는 BashOperator를 상속받아 생성한 custom operator의 예시이다. class HelloOperator(BaseOperator): te..

Data/Airflow 2024.03.02

[Bigquery] 빅쿼리란?

빅쿼리란 Bigquery란 Google Cloud Platform에서 제공하는 완전 관리형의 엔터프라이즈 데이터 웨어하우스이다. 대용량의 데이터를 저장하고 쿼리 및 분석하는 데 사용되며, 최근에는 Bigquery ML을 통해서 머신러닝 모델도 제공하고 있다. 완전 관리형이기 때문에 사용자가 인프라 관리에 대한 부담감 없으며, 가격의 경우에는 컴퓨팅(분석), 스토리지, 추가 서비스, 데이터 수집 및 추출을 기준으로 책정이 된다. Bigquery는 GoogleSQL이라는 Google Standard SQL을 통하여 쿼리를 작성하여 결과를 얻는데, 확장 가능한 분산형 분석 엔진을 통해 테라파이트 급 쿼리를 초 단위로 수행하고, 페타바이트 급 쿼리를 분 단위로 쿼리 할 수 있다. 빅쿼리 특성 Bigquery가 ..

Data/Bigquery 2024.02.25