'분류 전체보기' 카테고리의 글 목록 (19 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (832)

달나라 노트

Python openpyxl : Python에서 Excel 다루기, BytesIO xlsx 객체 읽어오기

openpyxl이라는 라이브러리는 Python에서 Excel을 다룰 수 있게 해주는 기능을 가지고 있습니다. pandas에서도 read_excel() method를 사용할 때 등 openpyxl을 아주 밀접하게 사용하고있습니다. 이렇게 일반적으로 openpyxl은 다른 라이브러리 내부에서 엔진으로서 사용되고 있어서 이것을 직접 사용하는 경우는 아주 많지는 않을 수 있습니다만 그래도 엑셀 데이터를 다룰 수 있게 해주는 강력한 툴 중 하나이므로 그 방법을 알아봅시다. import pandas as pd import io df_test_1 = pd.DataFrame({ 'item_id': [1, 2, 3, 4, 5], 'name': ['a', 'b', 'c', 'd', 'e'] }) df_test_2 = pd..

Python/Python ETC 2023. 12. 13. 01:37

Hive : percentile (백분률 구하기, 백분위 구하기) / 백분위로 중간값(median) 구하기

데이터를 다루다 보면 전체에 대한 백분위를 구할 때가 있습니다. 이럴 때에는 percentile이라는 유용한 함수를 사용할 수 있습니다. Syntax percentile(column, percent) - column 백분위를 구할 데이터가 있는 대상 column - percent 상위 몇%를 의미 Table = test_table col1 col2 a 1 a 2 a 3 b 1 b 6 b 7 c 1 c 2 d 2 d 2 d 4 d 1 위같은 table이 있다고 가정합시다. select col1 , percentile(col2, 0.5) as result_col from test_table -- group by col1 ; col1 result_col a 2 b 6 c 1.5 d 2 쿼리와 결과입니다. 결과..

SQL/Apache Hive 2023. 11. 28. 23:44

Hive : split (특정 구분자로 문자열 나누기, 구분자 문자열 나누기)

split 함수는 특정 문자를 구분자로 하여 문자열을 나눠줍니다. Syntax split(text, delimiter) - text 구분자를 기준으로 나눌 대상 text - delimiter 구분자 select split('1234_5678_9101', '_') as list_split , split('1234_5678_9101', '_')[0] as split_element_0 , split('1234_5678_9101', '_')[1] as split_element_1 , split('1234_5678_9101', '_')[2] as split_element_2 ; -- Result ["1234", "5678", "9101"] 1234 5678 9101 - split('1234_5678_9101', ..

SQL/Apache Hive 2023. 11. 28. 23:37

Python io : BytesIO (메모리에 엑셀 파일 저장하기, BytesIO로 xlsx 파일 객체 생성하기)

DataFrame을 xlsx 파일로 생성하려면 to_excel() method를 사용합니다. import pandas as pd df_test = pd.DataFrame({ 'item_id': [1, 2, 3, 4, 5], 'name': ['a', 'b', 'c', 'd', 'e'] }) print(df_test) dir = 'output/df_test.xlsx' df_test.to_excel(dir, index=False, sheet_name='test') 이런 식이죠. 이렇게 하면 제가 지정한 'output/df_test.xlsx'라는 경로에 파일이 생성됩니다. import pandas as pd df_test_1 = pd.DataFrame({ 'item_id': [1, 2, 3, 4, 5], 'na..

Python/Python ETC 2023. 10. 27. 19:55

Prev 1 ··· 16 17 18 19 20 21 22 ··· 208 Next

목록분류 전체보기 (832)

달나라 노트

티스토리툴바