| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 9 | 10 | 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| 23 | 24 | 25 | 26 | 27 | 28 | 29 |
| 30 |
- matplotlib
- gas
- math
- hive
- Excel
- Java
- Google Excel
- list
- 파이썬
- google apps script
- django
- Kotlin
- array
- Python
- PostgreSQL
- Apache
- GIT
- Presto
- Tkinter
- PANDAS
- string
- numpy
- dataframe
- SQL
- Github
- PySpark
- Redshift
- Google Spreadsheet
- c#
- Today
- Total
목록Airflow (7)
달나라 노트
DummyOperator는 아무 기능을 하지 않는 Operator입니다.아무 기능을 하지 않는데 왜 필요하지 라고 생각할 수 있지만실제로 복잡한 pipeline을 구성하다보면 pipeline을 더 가독성있게 구성하기 위해 아무 기능은 안하지만 의도적으로 flow를 고정시키고 싶다던가,아니면 병렬 병렬 task간의 연결은 직접적으로 할 수 없기 때문에 병렬 -> dummy operator -> 병렬 이런식으로 flow를 구성한다던가 등의 경우에 DummyOperator가 유용하게 쓰입니다. from airflow import DAGdag = DAG( dag_id='test_dag', start_date=datetime.datetime(2022, 9, 27), schedule_interv..
Airflow에서 PrestoHook은 Presto database와 연결하여 PrestoHook query를 실행하는 등의 작업을 해줍니다. PrestoHook은 특히 PythonOperator와 같이 사용하면 용이하므로 아래 예시도 PythonOperator와 같이 사용하는 상황을 가정해보았습니다. from airflow import DAGfrom airflow.operators.python import PythonVirtualenvOperatordag = DAG( dag_id='test_dag', start_date=datetime.datetime(2022, 9, 27), schedule_interval='0 20 * * *')def test_function(): import ..
Airflow의 HiveOperator는 Hive database와 communication하는 것을 가능하게 해주는 operator입니다.간단하게 말하면 Hive database에 query를 날려서 query를 수행시킬 수 있다는 것이죠. 예시를 봅시다. from airflow import DAGdag = DAG( dag_id='test_dag', start_date=datetime.datetime(2022, 9, 27), schedule_interval='0 20 * * *')from airflow.providers.apache.hive.operators.hive import HiveOperator # 1op_test_hive = HiveOperator( # 2 dag=da..
Airflow에서 PostgresHook은 PostgreSQL database와 연결하여 PostgreSQL query를 실행하는 등의 작업을 해줍니다.PostgresOperator와 차이점이 무엇이며, PostgresHook은 어떨 때 쓰면 용이한지 알아봅시다. PostgresHook은 특히 PythonOperator와 같이 사용하면 용이하므로 아래 예시도 PythonOperator와 같이 사용하는 상황을 가정해보았습니다. from airflow import DAGfrom airflow.operators.python import PythonVirtualenvOperatordag = DAG( dag_id='test_dag', start_date=datetime.datetime(2022, 9..