일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Github
- math
- Python
- matplotlib
- PySpark
- gas
- 파이썬
- PANDAS
- string
- Redshift
- Tkinter
- Google Spreadsheet
- hive
- Kotlin
- GIT
- list
- PostgreSQL
- Java
- dataframe
- django
- Mac
- numpy
- Google Excel
- c#
- Apache
- SQL
- array
- Excel
- google apps script
- Today
- Total
목록encoding (2)
달나라 노트
간혹 read_csv method로 csv 파일을 읽을 때 아래와 같은 error가 발생하는 경우가 있습니다. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 0: invalid start byte encoding관련 문제가 생겨서 발생하는 error인데 이러한 error가 발생하면 먼저 원본 csv 파일에 한글이 섞여있는지 확인해보면 좋습니다. import pandas as pd df_test = pd.read_csv('test.csv', sep=',', encoding='euc-kr') df_test = pd.read_csv('test.csv', sep=',', encoding='cp949') 만약 한글이 포함되어있다면 위처럼..
요즘은 거의 그럴 일이 없지만 간혹 Python 2.xx 버전을 쓰다보면 문제가 생기는 것이 Python code의 encoding입니다. Python 2의 기본 encoding은 ASCII입니다. 내가 작성한 Python code에 영어와 숫자만 있다면 상관 없지만 Code의 일부에 주석으로 설명을 달아놓을 때 한글을 사용한다던지 하면 ASCII가 한글을 제대로 해석하지 못하기 때문에 Syntax Error가 발생합니다. 이런 경우 Python file의 맨 위에 아래와 같은 내용을 주석으로서 달아줍니다. #-*- coding: utf-8 -*- 위처럼 주석으로 달아주게되면 이 코드의 encoding은 utf-8이라고 알려주는 것과 동일하며, 따라서 코드에 한글이 포함되어있어도 문제없이 잘 실행됩니다...