일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Github
- 파이썬
- matplotlib
- list
- array
- gas
- django
- string
- Kotlin
- dataframe
- PANDAS
- SQL
- GIT
- PySpark
- Mac
- Google Excel
- hive
- Apache
- google apps script
- Excel
- numpy
- Python
- math
- Tkinter
- Google Spreadsheet
- PostgreSQL
- c#
- Java
- Redshift
- Today
- Total
목록Python (379)
달나라 노트
spark dataframe의 columns 속성을 이용하면 spark dataframe에 있는 column들의 list를 얻을 수 있습니다. (pandas dataframe의 columns랑 비슷합니다.) from pyspark.sql import SparkSession import pandas as pd spark = SparkSession.builder.getOrCreate() df_test = pd.DataFrame({ 'a': [1, 2, 3], 'b': [10.0, 3.5, 7.315], 'c': ['apple', 'banana', 'tomato'] }) df_spark = spark.createDataFrame(df_test) list_columns = df_spark.columns prin..
spark dataframe에서도 특정 조건을 만족하는 행만을 추출할 수 있습니다. from pyspark.sql import SparkSession from pyspark.sql.functions import col import pandas as pd spark = SparkSession.builder.getOrCreate() df_test = pd.DataFrame({ 'a': [1, 2, 3], 'b': [10.0, 3.5, 7.315], 'c': ['apple', 'banana', 'tomato'] }) df_spark = spark.createDataFrame(df_test) df_spark_filtered = df_spark.filter( # 1 df_spark.a == 2 ) df_spark..
spark dataframe의 어떤 컬럼의 모든 값에 1을 더한 값을 새로운 컬럼으로 추가하고 싶은 상황에선 어떻게 해야할까요? withColumn method를 사용하면 됩니다. from pyspark.sql import SparkSession from pyspark.sql.functions import col import pandas as pd spark = SparkSession.builder.getOrCreate() df_test = pd.DataFrame({ 'a': [1, 2, 3], 'b': [10.0, 3.5, 7.315], 'c': ['apple', 'banana', 'tomato'] }) df_spark = spark.createDataFrame(df_test) df_spark_new ..
spark dataframe에서 특정 컬럼의 정보만을 추출하려면 어떻게 해야하는지 봅시다. from pyspark.sql import SparkSession import pandas as pd spark = SparkSession.builder.getOrCreate() df_test = pd.DataFrame({ 'a': [1, 2, 3], 'b': [10.0, 3.5, 7.315], 'c': ['apple', 'banana', 'tomato'] }) df_spark = spark.createDataFrame(df_test) spark_col_a = df_spark.a # 1 print(spark_col_a) # 1 df_col_a = df_spark.select(df_spark.a) # 2 df_col..