일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- Apache
- PySpark
- numpy
- string
- math
- array
- Kotlin
- PANDAS
- matplotlib
- Google Spreadsheet
- dataframe
- SQL
- Excel
- django
- Tkinter
- gas
- list
- Mac
- c#
- google apps script
- GIT
- Github
- Java
- Redshift
- hive
- Python
- Google Excel
- 파이썬
- PostgreSQL
- Today
- Total
목록Python/Python Pandas (76)
달나라 노트
Python Pandas에는 DataFrame이나 Series를 json 형태로 변환해주는 to_json이라는 method가 있습니다. 예시를 보시죠. import pandas as pd dict_test = { 'col1': [1, 2, 3, 4, 5], 'col2': ['a', 'b', 'c', 'd', 'e'], 'col3': ['Apple', 'Banana', 'Watermelon', 'Grape', 'Melon'] } df_test = pd.DataFrame(dict_test) print(df_test) json_test = df_test.to_json() print(json_test) -- Result col1 col2 col3 0 1 a Apple 1 2 b Banana 2 3 c Water..
Python pandas에는 duplicated라는 method가 있습니다. duplicated method는 DataFrame에 있는 행들 중 중복된 값을 가진 행이 뭔지 True, False의 형태로 알려줍니다. Syntax DataFrame.duplicated(subset=list/none, keep='first'/'last'/False) subset subset에는 중복값 테스트를 할 기준 column을 적습니다. 만약 subset을 적지 않으면 모든 컬럼의 데이터를 기준으로 중복값을 가진 row를 체크합니다. keep='first' --> 중복된 row 중에서 가장 위에 있는 row를 제외하고 나머지 row에 중복 flag(True)를 달아줍니다. keep='last' --> 중복된 row 중에..
DataFrame을 다루다보면 DataFrame에 있는 하나하나의 행을 참조하여 for loop를 돌리는 등의 경우가 발생합니다. 이럴때에는 여러 가지 방법이 있지만 그 중에서 pandas에서 제공하는 iterrows를 사용해봅시다. import pandas as pd dict_1 = { 'col1': [4, 1, 5, 3, 2], 'col2': [6, 7, 8, 9, 10], 'col3': [11, 12, 13, 14, 15], 'col4': [16, 17, 18, 19, 20] } df_1 = pd.DataFrame(dict_1) print(df_1) print(df_1.iterrows()) -- Result col1 col2 col3 col4 0 4 6 11 16 1 1 7 12 17 2 5 8 1..
DataFrame의 행이 많아서 일부 행만 확인하고 싶을 때 또는 어떠한 이유로 처음 또는 끝의 일부 행만 추출해야할 때 사용할 수 있는 method가 있습니다. Syntax DataFrame.head() # 상위 5개 행 반환 DataFrame.tail() # 하위 5개 행 반환 DataFrame.head(n) # 상위 n개 행 반환 DataFrame.tail(n) # 하위 n개 행 반환 사용법은 위와 같습니다. DataFrame에 적용할 수 있으며, head는 기본적으로 DataFrame의 가장 위쪽 5개 행을 return해주고 tail은 기본적으로 DataFrame의 가장 아래쪽 5개 행을 return해줍니다. head, tail의 parameter로 어떤 숫자를 넣게 되면 해당 숫자만큼의 행만큼 ..