일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- PySpark
- Redshift
- PANDAS
- string
- 파이썬
- Github
- django
- matplotlib
- list
- gas
- google apps script
- dataframe
- Excel
- Apache
- math
- Google Excel
- numpy
- PostgreSQL
- c#
- hive
- GIT
- array
- Kotlin
- SQL
- Python
- Mac
- Tkinter
- Java
- Google Spreadsheet
- Today
- Total
목록Python (379)
달나라 노트
tqdm library를 이용하면 반복문 등 task의 진행 상황을 terminal에 progress bar 형태로 표시할 수 있습니다. from tqdm import tqdm from time import sleep for i in tqdm(range(100)): sleep(1) 위처럼 100번 loop를 도는 반복문을 넣습니다. 그리고 range(100)을 tqdm으로 감싸주기만하면 끝입니다. 그러면 위 이미지처럼 반복문이 실행될 때 마다 0%부터 100%까지 점점 올라가게됩니다. 반복문을 돌리는 횟수가 증가할수록 진행 상황 비율이 점점 자동으로 늘어나는 것이죠. time.sleep(s)는 s초 만큼 정지하라는 의미입니다. from tqdm import tqdm from time import slee..
list.count(x) list에 count method를 적용시키면 count의 parameter로 전달된 값이 list 속에서 몇개가 존재하는지 세어줍니다. list_test = [1, 1, 2, 2, 2, 3, 3, 10, 5, 5, 5, 5, 8, 8, 7, 7, 'a', 'a', 'bb', 'bb', 'bb', '\n'] cnt_5 = list_test.count(5) # 1 cnt_a = list_test.count('a') # 2 cnt_line_break = list_test.count('\n') # 3 cnt_bb = list_test.count('bb') # 4 cnt_c = list_test.count('c') # 5 print(cnt_5) print(cnt_a) print(cnt_..
pyspark dataframe도 여러 dataframe을 아래와 같은 4개의 join을 통해 합칠 수 있습니다. (inner) join left join right join full outer join join의 결과는 일반적인 sql에서의 join과 동일합니다. from pyspark.sql import SparkSession from pyspark.sql.functions import * import pandas as pd spark = SparkSession.builder.getOrCreate() df_item = pd.DataFrame({ 'id': [1, 2, 3], 'name': ['apple', 'banana', 'tomato'], 'price': [20000, 3500, 15000] })..
Spark dataframe에 drop method를 적용하면 특정 column을 제거(drop)할 수 있습니다. from pyspark.sql import SparkSession from pyspark.sql.functions import col import pandas as pd spark = SparkSession.builder.getOrCreate() df_test = pd.DataFrame({ 'a': [1, 2, 3], 'b': [10.0, 3.5, 7.315], 'c': ['apple', 'banana', 'tomato'] }) df_spark = spark.createDataFrame(df_test) df_spark.show() df_spark_new = df_spark.drop(df_sp..