always_here

지식을 공유하고 함께 성장하는 엔지니어 as_always 입니다

AS_ALWAYS

핀테크 교육/금융데이터 활용

워드클라우드

nauung_always 2022. 7. 5. 17:00
728x90

https://always-here.tistory.com/55?category=984522 

 

크롤링 (네이버 기사 크롤링)

link_result=find_url(company_code) 네이버 금융 뉴스공시를 클릭하며 뉴스 기사들의 제목이 나오고 해당 제목을 클릭해야 뉴스 내용을 볼 수 있다. 따라서 먼저 회사 코드로 뉴스 공시 페이지에 들어간

always-here.tistory.com

크롤링한 기사 본문을 Konlpy의 형태소 분석기 Okt()를 활용해서 명사 추출

from konlpy.tag import Okt
 
tokenizer = Okt()
 
df['tokenized'] = df['content'].apply(tokenizer.nouns)
df.tokenized.reset_index(drop=True)
 
모든 단어에 대해서 띄어쓰기 기준으로 구분한 상태로 변환
data = ' '.join(np.concatenate(df.tokenized.reset_index(drop=True)))
 
 
from wordcloud import WordCloud
import matplotlib.pyplot as plt

 

# 뉴스 기사의 워드클라우드
plt.figure(figsize = (15,15))
wc = WordCloud(max_words = 2000 , width = 1600 , height = 800, font_path = fontpath).generate(data)
plt.imshow(wc, interpolation = 'bilinear')
 
삼성전자를 키워드로 진행했을 때, 다음과 같은 워드 클라우드가 나왔다. 

 

728x90