파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi

반응형

파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi

위 데이터프레임에서 지번주소는 모두 "서울특별시 ㅇㅇ구 ㅇㅇ동 ~~~" 형태의 문장 구조를 가지고 있습니다.

저는 여기에서 구 data만 필요하므로 ㅇㅇ구 문자열만 따로 추출하도록 하겠습니다.

문장이 띄어쓰기로 구분되어 있으므로, " "를 이용하여 나누도록 하겠습니다.

코드는 다음과 같습니다.

result_line_seoul['소속구'] = result_line_seoul['지번주소'].str.split(" ").str[1]

'지번주소' 열의 문자열을 " "를 기준으로 split를 통해 나누고, 'ㅇㅇ구'가 위치해 있는 문자열을 '소속구' 열에 담는다는 뜻의 코드입니다.

결과는 다음과 같습니다.

파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi

반응형

저작자표시비영리변경금지

'각종공부 > 파이썬 오류 해결 & 팁' 카테고리의 다른 글

[파이썬] xlwings 모듈 com_error: (-2147352570, '알 수 없는 이름입니다.', None, None) 오류 해결 방법  (0) 2020.01.07
[파이썬] 데이터프레임에서 해당 열의 값을 그룹별로 행의 갯수를 세는 방법  (0) 2020.01.06
[파이썬] csv 데이터프레임에서 특정 문자열을 포함하는 행만 추출하는 법(결측치 있을 때 포함)  (0) 2020.01.05
[파이썬] 여러개의 csv파일을 한번에 import하고, 합친 파일을 export 하는 법(예제파일 첨부)  (1) 2020.01.05
pipenv 배치파일 인식 오류(virtualenv와의 충돌 해결법)  (0) 2019.12.15

판다스에서 문자열을 다루기 위한 함수 사용법을 배워 보자

pandas.pydata.org/pandas-docs/stable/reference/series.html#api-series-str

Series — pandas 1.2.1 documentation

pandas provides dtype-specific methods under various accessors. These are separate namespaces within Series that only apply to specific data types. Flags Flags refer to attributes of the pandas object. Properties of the dataset (like the date is was record

pandas.pydata.org

예제 데이터

www.data.go.kr/dataset/15012005/fileData.do

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi

CSV 소상공인시장진흥공단_상가(상권)정보

df = pd.read_csv("./상가업소정보_201912_01.csv", sep="|", encoding='cp949')
df.head()
파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi

데이터프레임['컬럼명'].str[]

앞에서 5자리까지 문자열 추출

df["도로명주소"].str[:5]
파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi

거꾸로 출력

df["도로명주소"].str[5::-1]
파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi

시작글자로 추출 .str.startswith("추출문자")

해당 문자로 시작되는 글자가 있다면 True, 아니면 False를 반환하는 boolean indexing을 지원

df["도로명주소"].str.startswith("서울").head()
파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi

boolean indexing은 데이터프레임으로 감싸면 True에 해당하는 index를 출력

df[df["도로명주소"].str.startswith("서울")].head()
파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi

끝글자로 추출 .str.endswith("추출문자")

df[df["상권업종중분류명"].str.endswith("카페")].head()
파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi

문자열 분할 .str.split()

# 공백 기준으로 나누기
df["도로명주소"].str.split(" ")
파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi
# expand = True 옵션으로 리스트를 프레임으로 변경가능
df["도로명주소"].str.split(" ", expand=True)
파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi
# 리스트 특성을 사용하여 시, 동, 도로명으로 분리 가능
df["도로명주소"].str.split(" ", expand=True)[0]
파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi

원하는 문자열 추출

df["시"] = df["도로명주소"].str.split(" ", expand=True)[0]
df["구"] = df["도로명주소"].str.split(" ", expand=True)[1]
df.head()
파이썬 csv 문자열 자르기 - paisseon csv munjayeol jaleugi