일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- array
- GIT
- Redshift
- django
- google apps script
- dataframe
- Mac
- Google Spreadsheet
- math
- string
- PySpark
- matplotlib
- c#
- 파이썬
- numpy
- SQL
- Java
- hive
- Apache
- Tkinter
- Kotlin
- Google Excel
- Github
- Python
- gas
- PANDAS
- Excel
- PostgreSQL
- list
- Today
- Total
목록s3 server (2)
달나라 노트
Redshift -> S3 -- Redshift -> S3 unload (' ----- (S3 server에 올릴 data를 추출하는 query) select item_id , item_name , price from test_table -- where valid in (''valid'') ----- (쿼리가 따옴표로 감싸져있기때문에 따옴표 2개로 string을 감싸야함.) ') to 's3://items/price_info/' ----- (unload 속에 적힌 query 결과가 저장될 s3 server의 경로) iam_role 'credential' ----- (s3 server에 로그인하기 위한 credential) manifest ----- (manifest format으로 저장) delimite..
spark dataframe은 table에 삽입될 수도 있지만 AWS s3 server에 upload될 수도 있습니다. from pyspark.sql import SparkSession spark = SparkSession.builder\ # 1 .appName('Test_runner')\ .config('hive.mapred.mode', 'nonstrict')\ .config('hive.exec.dynamic.partition', 'true')\ .config('hive.exec.dynamic.partition.mode', 'nonstrict')\ .config('hive.exec.parallel', 'true')\ .config('hive.stats.fetch.column.stats', 'true')..