'PySpark' 태그의 글 목록 (3 Page)

Notice

Recent Posts

Recent Comments

Link

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록PySpark (14)

달나라 노트

Python pyspark : sql (spark에서 hive 쿼리 돌리기)

hive에서 직접 쿼리를 돌릴때보단 spark에서 돌리는게 좀 더 빠릅니다. 물론 결과 데이터가 크면 용량 초과 에러가 뜰 순 있지만요. from pyspark.sql import SparkSession spark = SparkSession.builder\ .appName('Test_runner')\ .config('hive.mapred.mode', 'nonstrict')\ .config('hive.exec.dynamic.partition', 'true')\ .config('hive.exec.dynamic.partition.mode', 'nonstrict')\ .config('hive.exec.parallel', 'true')\ .config('hive.stats.fetch.column.stats', '..

Python/Python pyspark 2021. 5. 19. 06:02

Python pyspark : columns (spark dataframe의 column 리스트 반환)

spark dataframe의 columns 속성을 이용하면 spark dataframe에 있는 column들의 list를 얻을 수 있습니다. (pandas dataframe의 columns랑 비슷합니다.) from pyspark.sql import SparkSession import pandas as pd spark = SparkSession.builder.getOrCreate() df_test = pd.DataFrame({ 'a': [1, 2, 3], 'b': [10.0, 3.5, 7.315], 'c': ['apple', 'banana', 'tomato'] }) df_spark = spark.createDataFrame(df_test) list_columns = df_spark.columns prin..

Python/Python pyspark 2021. 5. 19. 05:46

Python pyspark : filter (spark dataframe filtering)

spark dataframe에서도 특정 조건을 만족하는 행만을 추출할 수 있습니다. from pyspark.sql import SparkSession from pyspark.sql.functions import col import pandas as pd spark = SparkSession.builder.getOrCreate() df_test = pd.DataFrame({ 'a': [1, 2, 3], 'b': [10.0, 3.5, 7.315], 'c': ['apple', 'banana', 'tomato'] }) df_spark = spark.createDataFrame(df_test) df_spark_filtered = df_spark.filter( # 1 df_spark.a == 2 ) df_spark..

Python/Python pyspark 2021. 5. 19. 05:36

Python pyspark : withColumn (spark dataframe에 새로운 컬럼 추가하기)

spark dataframe의 어떤 컬럼의 모든 값에 1을 더한 값을 새로운 컬럼으로 추가하고 싶은 상황에선 어떻게 해야할까요? withColumn method를 사용하면 됩니다. from pyspark.sql import SparkSession from pyspark.sql.functions import col import pandas as pd spark = SparkSession.builder.getOrCreate() df_test = pd.DataFrame({ 'a': [1, 2, 3], 'b': [10.0, 3.5, 7.315], 'c': ['apple', 'banana', 'tomato'] }) df_spark = spark.createDataFrame(df_test) df_spark_new ..

Python/Python pyspark 2021. 5. 19. 05:26

Prev 1 2 3 4 Next

목록PySpark (14)

달나라 노트

티스토리툴바