일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- Redshift
- PySpark
- c#
- hive
- dataframe
- google apps script
- GIT
- SQL
- Apache
- Mac
- Python
- Google Excel
- PostgreSQL
- Tkinter
- Google Spreadsheet
- matplotlib
- gas
- Kotlin
- 파이썬
- Java
- list
- Excel
- django
- math
- string
- array
- numpy
- Github
- PANDAS
- Today
- Total
목록Python/Python Pandas (77)
달나라 노트
DataFrame.drop_duplicates DataFrame의 drop_duplicates는 중복된 값을 가진 행을 제거하고 unique한 행만 남도록 해주는 기능을 제공합니다. Syntax DataFrame.drop_duplicates(subset=[column_names], keep='first'/'last', inplace=True/False, ignore_index=True/False) drop_duplicates에 들어갈 수 인자 중 자주 쓰이는 것들은 같습니다. 1. subset에 명시한 컬럼들 기준으로 중복제거가 진행됩니다. 2. keep='first' -> 중복된 컬럼 중 가장 위쪽의 행을 남기고 그 아래의 행들은 삭제 keep='last' -> 중복된 컬럼 중 가장 아래쪽의 행을 남기..
DataFrame.join DataFrame의 join은 merger와 비슷한 기능을 제공합니다. 먼저 test용 DataFrame을 생성합니다. import pandas as pd dict_a = { 'id1': [1, 2, 3, 4, 5], 'name': ['a', 'b', 'c', 'd', 'e'], 'price': [10, 20, 30, 40, 50] } dict_b = { 'id2': [1, 2, 3, 4], 'name': ['a', 'b', 'z', 'z'], 'price': [10, 20, 100, 100] } df_a = pd.DataFrame(dict_a) df_b = pd.DataFrame(dict_b) print(df_a) print(type(df_a)) print(df_b) prin..
DataFrame.loc & DataFrame.iloc DataFrame의 loc, iloc는 DataFrame에서 내가 원하는 행 또는 내가 원하는 컬럼만을 추출할 수 있게 해줍니다. 먼저 test용 DataFrame을 생성합니다. import pandas as pd dict_name = { 'item_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'item_name': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], 'status': [1, 1, 1, 0, 0, 1, 0, 1, 1, 1] } df_name = pd.DataFrame(dict_name) print(df_name) print(type(df_name)) - Output it..
DataFrame filtering 엑셀에선 필터 기능을 이용하여 내가 원하는 조건으로 row filter를 걸고 원하는 데이터들만 조작이 가능하죠.Pandas의 DataFrame도 이러한 기능을 제공합니다. 이러한 필터링 기능을 어떻게 이용할 수 있는지 알아봅시다. 먼저 test용 DataFrame을 생성합니다. import pandas as pd dict_name = { 'item_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'item_name': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], 'status': [1, 1, 1, 0, 0, 1, 0, 1, 1, 1] } df_name = pd.DataFrame(dict_name) p..