달나라 노트

Python pyspark : alias (컬럼 이름 변경하기) 본문

Python/Python pyspark

Python pyspark : alias (컬럼 이름 변경하기)

CosmosProject 2021. 5. 28. 19:10
728x90
반응형

 

 

 

alias method를 이용해서 spark dataframe의 컬럼에 새로운 이름을 붙여줄 수 있습니다.

 

 

from pyspark.sql import SparkSession
from pyspark.sql.functions import col
import pandas as pd

spark = SparkSession.builder.getOrCreate()

df_test = pd.DataFrame({
    'a': [1, 2, 3],
    'b': [10.0, 3.5, 7.315],
    'c': ['apple', 'banana', 'tomato']
})
df_spark = spark.createDataFrame(df_test)

df_spark = df_spark.select(
    col('a'),
    col('b'),
    col('c').alias('new_named_column_c') 
)
df_spark.show()


-- Result
+---+------+--------------------+
|  a|     b|  new_named_column_c|
+---+------+--------------------+
|  1|  10.0|               apple|
|  2|   3.5|              banana|
|  3| 7.315|              tomato|
+---+------+--------------------+

위 예시에서 column c에 alias를 적용해서 'new_named_column_c'라는 이름으로 컬럼명을 바꿨습니다.

 

 

 

 

 

728x90
반응형
Comments