모집부문	인원	내용
영업부문	0명	시스템, 스토리지, 네트워크 관련 영업 경력 만 1년 이상자.
엔지니어	0명	유닉스 시스템, 스토리지 하드웨어 관련 경력 만 1년 이상자. DB관련, 보안 관련 기술지원 경력 만 1년 이상자. 네트워크 설치 및 유지보수 경력 만 1년 이상자.
관리부문	0명	마케팅, 경영지원 관련 신입 또는 경력.

[토이플젝/Python] 유튜브 댓글분석 프로그램 개발AI감정분석, CSV, 워드클라우드, 형태소분석

Adela 0 5 11.22 08:56

부트캠프 워드클라우드 때 받은 데이터로 조금 더 분석해보는 개인 프로젝트.실력은 왕초보이지만,텍스트로 된 리뷰데이터를 분석해보고 싶은 마음이 컸다.그래서 구글링해가며 도전해본 '텍스트 마이닝'SQL로 기본적인 댓글 전처리 후, 파이썬으로 작업했다.SQL로 리뷰 텍스트 합치기내가 아는 지식만으로 텍스트 마이닝을 하려면 행마다 분리되어 있는 리뷰데이터를 하나로 합치는 작업이 필요했다.그래서 가장 익숙한 툴인 워드클라우드 SQL로 GROUP_CONCAT 함수를 활용해 하나의 셀 안에 나오도록 합쳐줬다.처음 했을 때 텍스트 전체가 나오지 않고 중간에서 짤리길래 구글링해보니 한도 글자수를 늘려주면 되었다.데이터 뽑고 나서는 해당 셀 복사해서 메모장에 붙여넣어 txt로 저장해주었다.2. 파이썬으로 워드클라우드 생성A. txt 파일 불러오기파이썬에서 가장 먼저 할 일은 당연하게도 파일불러오기.텍스트 파일 워드클라우드 경로 설정하고 불러오기 해주면 된다.B. konlpy 설치구글에 '파이썬 한글 텍스트 분석'이라고 검색하면 konlpy 함수를 사용해야한다고 나온다.이게 한글의 형태소를 자동으로 분석해주는 함수인데, 처음에 이거 한다고 3시간이나 애를 먹었다 ^^;같은 함수를 사용하는건 맞지만,파일 종류도 다르고, 원하는 결과물도 제각각이라내 지식 수준으로도 이해할 수 있으면서, 비슷한 결과물을 낼 워드클라우드 수 있는 블로그를 엄청 찾아다녔다.그 결과 아주 최적의, 쉽고 핵심만 잘 정리되어있는 블로그를 찾았다.01 크롤링 데이터 전처리 이전에 웹 스크래핑(1)에서 만들었던 엑셀파일을 대상으로 분석을 하겠습니다. import numpy as np import pandas as pd df =pd.read_excel('result_220202_1834.xlsx') df.head(3) Article속성에 해당하는 기사의 본문 내용을 리스트로 만들어 줍니다. 워드클라우드 그리고 join함수로 리스트를 하나의 문자열로 만들고 1000번째 자리의 문자까지만 남깁니다. articles 㷟['Article'].tolist() print(len(articles...바로 이곳!올려주신 코드에서 파일명이랑 경로 같은 것만 조금씩 수정해서 진행했다.(감사합니다 꾸벅)>&gt먼저 konlpy랑 자바 설치해주고 (여기서 컴에 자바 설치 안되어 있으면 오류 난다. 꼭 자바 설치하고 할 것!)>&gt위에서 읽긴 했지만 다시 한번 더 워드클라우드 읽고 'df'로 경로 재설정 해주고, Okt 모듈 import 해줬다.>&gt다음은 pos함수로 형태소를 나눠준다.결과값은 ('세트', 'Noun'), ('예쁘다', 'Adjective'), (',', 'Punctuation') 요런 튜플로 나온다. 신기해 완전..>&gt블로그에 올라와있던 코드 del_list에 내가 조금 더 추가해서 불용어를 삭제해줬다.사실 요 부분은 이상하게 끊겨 표현된 동사 여러개, 네이버페이 구매 리뷰에만 있는 phrase들을 워드클라우드 일일히 지워줬다. (초보자 한계ㅠ)>&gt다음은 단어들을 딕셔너리로 만들기. 블로그에 나와있는 코드 그대로 썼었는데 자꾸 오류가 나서 ChatGPT한테 물어봐서 해결했다. 아마 코드 숫자를 메기는 과정에서 오류가 난 듯 싶다. 지피티 없음 코딩 못해 ㅠ{'생각': 162, '괜찮다': 82, '디자인': 735, '이쁘다': 562, '깔끔하다': 95 ... } 이런식의 워드클라우드 결과를 얻을 수 있다.>&gt마지막은 워드클라우드 만들기.한글 텍스트는 폰트경로 설정 안하면 깨지기 때문에, 꼭 경로 설정해주고원하는 폰트 갯수, 사이즈, 컬러칩으로 만들어주면 된다.워드클라우드 결과결과물로 기존에 했던 분석에 대한 명확한 근거를 댈 수 있게 되어 의미있는 시간이었다.전체적인 데이터 분석 프로젝트에 대한 회고는 다음 포스팅에 올려야겠다. ㅎㅎ