일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- dataframe
- Apache
- GIT
- Redshift
- PostgreSQL
- PySpark
- Tkinter
- Kotlin
- Python
- hive
- list
- django
- gas
- c#
- array
- 파이썬
- math
- matplotlib
- Github
- Google Excel
- Excel
- google apps script
- SQL
- Google Spreadsheet
- Java
- numpy
- Mac
- string
- PANDAS
- Today
- Total
목록SQL/Apache Hive (40)
달나라 노트
Hive는 기본적으로 한번에 1개의 row를 처리합니다. Hive에선 vectorized option이 있는데 이 option을 활성화하여 벡터화를 이용하면 한 번에 1024개의 row를 처리하여 table scan, join, aggregate 등의 과정에서 실행 속도를 높일 수 있습니다. set hive.vectorized.execution.enabled = true; set hive.vectorized.execution.reduce.enabled = true; set hive.vectorized.execution.reduce.groupby.enabled=true; vectorization option은 위와 같습니다.
Hive에서는 어떤 engine을 사용할지 설정할 수 있습니다. code template set hive.execution.engine = mr; set hive.execution.engine = tez; set hive.execution.engine = spark; mr -> mapreduce engine 사용 (default engine) tez -> tez engine 사용 (Hive 2.0부터는 tez가 default engine) spark -> spark engine 사용 Hive 문서를 찾아보면 아래와 같은 내용이 있습니다. hive.execution.engine Default Value: mr (deprecated in Hive 2.0.0 – see below) Added In: Hive ..
Hive에서도 partition table을 생성/관리할 수 있습니다. 이 때 아래 2가지의 partitioning 방식이 존재합니다. 정적 파티션 (Static partition) 동적 파티션 (Dynamic partition) 먼저 정적 파티션과 동적 파티션이 뭔지 알아봅시다. 정적 파티션(Static partition) 정적(Static)이라는 말처럼 static partition으로 table을 관리하는 경우에는 해당 partition table에 새로운 data를 insert할 때 어떤 partition에 data를 insert할지를 명시해줘야 합니다. insert into test_table partition (basis_date = '20210325') select * from source_..
Hive에서는 기본적으로 partition이 있는 table은 partition 조건을 명시해야합니다. (data full scan은 성능에 영향을 미칠 수 있기 때문이죠.) 만약 partition 조건을 명시하지 않으면 Error가 발생합니다. 그런데 사용하다보면 partition 조건 없이 table full scan을 해야하는 경우가 있죠. set hive.mapred.mode = nonstrict; 이 경우 위처럼 hive.mapred.mode를 nonstrict 모드로 설정해주면 partition table에 대해서도 table full scan이 가능해집니다. 참고 위같은 option은 그냥 쿼리돌리듯이 돌리면 설정됩니다. Apache Hive document = https://cwiki.ap..