본문 바로가기

파이썬

[Topic Modeling] 토픽 모델링을 통해 기사 주제 분석하기 (2021년 6월 23일 기준) 크롤링을 통해 수집한 csv에서 '일반'/'고유' 명사를 추출하여 토픽 모델링 진행 from collections import Counter #데이터의 개수를 정리할 수 있는 모듈 from konlpy.tag import Kkma #형태소 분석기 호출 from konlpy.tag import Komoran #형태소 분석기 호출_사용자 사전 from konlpy.utils import pprint #유니코드 문자 출력 from selenium import webdriver #브라우저 제어 import pandas as pd #결과값을 데이터프레임 객체로 저장하기 위해 이용 new = pd.read_csv('C:/Users/idol.csv') #csv 파일 불러오기 (위치 임.. 더보기
[Word Cloud] 형태소 분석을 통해 워드 클라우드 생성하기 (2021년 6월 23일 기준) 크롤링을 통해 수집한 csv에서 '일반'/'고유' 명사를 추출하여 워드 클라우드 생성 from collections import Counter #데이터의 개수를 정리할 수 있는 모듈 from konlpy.tag import Kkma #형태소 분석기 호출 from konlpy.utils import pprint #유니코드 문자 출력 from selenium import webdriver #브라우저 제어 import pandas as pd #결과값을 데이터프레임 객체로 저장하기 위해 이용 new = pd.read_csv('C:/Users/idol.csv') #csv 파일 불러오기 (위치 임의 지정) kkma = Kkma() nouns_list=[] #nouns_list생성 f.. 더보기
[Crawling] Xpath를 이용한 인터넷 기사 수집하기 (2021년 6월 23일 기준) JTBC 사이트에서 ‘아이돌’ 검색어에 대한 기사 수집 from bs4 import BeautifulSoup # HTML 문서 분석 라이브러리 from selenium import webdriver #브라우저 제어 import selenium import pandas as pd #결과값을 데이터프레임 객체로 저장하기 위해 이용 import time #페이지마다 일정한 휴식을 주어 크롤링 중의 오류 발생 예방 driver = webdriver.Chrome('C:/chromedriver.exe') #chromedriver.exe 위치 임의 지정 driver.get('https://jtbc.joins.com/search/news?term=%EC%95%84%EC%9D%B4%EB%.. 더보기