always_here

지식을 공유하고 함께 성장하는 엔지니어 as_always 입니다

AS_ALWAYS
728x90

분류 전체보기 73

워드클라우드

https://always-here.tistory.com/55?category=984522 크롤링 (네이버 기사 크롤링) link_result=find_url(company_code) 네이버 금융 뉴스공시를 클릭하며 뉴스 기사들의 제목이 나오고 해당 제목을 클릭해야 뉴스 내용을 볼 수 있다. 따라서 먼저 회사 코드로 뉴스 공시 페이지에 들어간 always-here.tistory.com 크롤링한 기사 본문을 Konlpy의 형태소 분석기 Okt()를 활용해서 명사 추출 from konlpy.tag import Okt tokenizer = Okt() df['tokenized'] = df['content'].apply(tokenizer.nouns) df.tokenized.reset_index(drop=True)..

konlpy 형태소 분석기

한국어 처리 패키지인 konlpy는 5가지의 형태소 분석기 지원(Okt, Komoran, Kkma, Mecab, Hannanum) Okt 형태소 파서 중 실행 속도가 가장 빠르다. Kkma 문장 갯수 많아지면 다른 분석기에 비해 압도적으로 시간 소요 늘어남 띄어쓰기 오류에 덜 민감 Mecab 압도적으로 빠르다 띄어쓰기에서 높은 정확도 Komoran 여러 어절을 하나의 품사로 분석 가능 공백이 포함된 고유명사 정확하게 분석 가능 Hannanum 띄어쓰기 없는 문장은 분석 품질 좋지 않다

크롤링 (네이버 기사 크롤링 - newspaper3k 사용)

newspaper3k : newspaper3k는 뉴스 데이터를 크롤링을 위한 패키지 뉴스 기사의 url을 전달해주면, 뉴스 기사의 제목과 텍스트를 추출해준다. https://always-here.tistory.com/55?category=984522 크롤링 (네이버 기사 크롤링) link_result=find_url(company_code) 네이버 금융 뉴스공시를 클릭하며 뉴스 기사들의 제목이 나오고 해당 제목을 클릭해야 뉴스 내용을 볼 수 있다. 따라서 먼저 회사 코드로 뉴스 공시 페이지에 들어간 always-here.tistory.com 위 글을 newspaper3k를 사용해서 다시 크롤링 해보았다. df=pd.DataFrame(columns={"title","content"}) title의 링크와 ..

크롤링 (네이버 기사 크롤링)

link_result=find_url(company_code) 네이버 금융 뉴스공시를 클릭하며 뉴스 기사들의 제목이 나오고 해당 제목을 클릭해야 뉴스 내용을 볼 수 있다. 따라서 먼저 회사 코드로 뉴스 공시 페이지에 들어간 후, 각 title의 링크를 크롤링으로 가져와 link_result에 저장해준다. -> a 태그의 href (주소) # 뉴스 링크 links = html.select('.title') for link in links: add = 'https://finance.naver.com' + link.find('a')['href'] link_result.append(add) link_result에 담긴 링크들을 for문으로 돌면서 뉴스 기사 내용을 크롤링한다. .get_text()를 사용하면 H..

캔들차트

캔들차트는 시가(시작 가격), 종가(마지막 가격), 고가(최고가), 저가(최저가) 정보를 담고 있다. 시가와 종가를 연결하여 사각형을 만들고, 고가와 저가를 연결하여 캔들의 꼬리를 만든다. 종가가 시가보다 높으면 -> 빨간색 (양봉) 종가가 시가보다 낮다면 -> 파란색 (음봉) https://always-here.tistory.com/53 크롤링 (네이버 금융 크롤링) 크롤링 : 웹 페이지로부터 데이터를 추출하는 행위 soup = BeautifulSoup(입력 문자열, 'html.parser') soup.select('태그명') : 태그를 입력으로 사용할 경우 soup.select('.클래스명') : 클래스를 입력으로 사용.. always-here.tistory.com 네이버 금융 크롤링을 통해 얻은 데..

크롤링 (네이버 금융 크롤링)

크롤링 : 웹 페이지로부터 데이터를 추출하는 행위 soup = BeautifulSoup(입력 문자열, 'html.parser') soup.select('태그명') : 태그를 입력으로 사용할 경우 soup.select('.클래스명') : 클래스를 입력으로 사용할 경우 soup.select('#아이디') : ID를 입력으로 사용할 경우 soup.select('상위태그 하위태그') : 자손 관계 (띄어쓰기) soup.select('상위태그 > 하위태그') : 자식 관계 ( > ) requests라는 패키지에 있는 get이라는 모듈(함수)에 url을 입력으로 하고, 이를 변수에 저장한 후, 변수.text를 하면 해당 URL의 HTML 코드를 받아올 수 있다. response = requests.get(url) ..

ESG 경영

ESG는 환경(Environmental),사회(Social),지배구조(Governance)의 영문 첫 글자를 조합한 단어로, 기업의 지속적인 성장 및 생존과 직결되는 핵심가치들로 기업 경영에서 지속가능성을 달성하기 위한 3가지 핵심 요소 과거에는 기업을 평가함에 있어서 ‘얼마를 투자해서, 얼마를 벌었는가?’ 중심으로 ‘재무적’인 정량 지표가 기준이었다. 그러나 기후변화 등 최근 기업이 사회에 미치는 영향력이 증가하며 ‘비재무적’인 지표가 기업의 실질적인 가치 평가 있어서 더 중요할 수 있다는 인식이 늘어나고 있다. ESG는 국내외 기업 경영의 핵심 요소로 자리 잡았다. ESG 경영 성공 사례 - 미래에셋투자 1. 미래에셋은 투자 시 투자 수익 외에도 투자가 사회에 미치는 영향을 검토, ESG 우수기업에 ..

[프로그래머스] 신고 결과 받기 (Python)

https://programmers.co.kr/learn/courses/30/lessons/92334 코딩테스트 연습 - 신고 결과 받기 문제 설명 신입사원 무지는 게시판 불량 이용자를 신고하고 처리 결과를 메일로 발송하는 시스템을 개발하려 합니다. 무지가 개발하려는 시스템은 다음과 같습니다. 각 유저는 한 번에 한 명의 programmers.co.kr id_list = ["muzi", "frodo", "apeach", "neo"] report = ["muzi frodo","apeach frodo","frodo neo","muzi neo","apeach muzi"] k = 2 report = list(set(report)) 으로 report 중복 제거 n_dic (신고 당한 횟수 저장) 딕셔너리 dic ..

알고리즘 2022.07.04

탐색적 분석, Bar chart

결측값 처리 결측값은 아예 제거를 해주거나, 특정 값으로 채워주게 된다. 파이 차트 그리기 파이 차트를 그리기 위해서는 파이 차트로 사용할 데이터의 이름이 담긴 리스트, 그리고 해당 이름에 해당하는 데이터의 값이 담긴 리스트 이 두 가지가 필요하다. value_counts() 특정 열의 값들이 각각 몇개 씩 있는지 count 하는 함수 결과로 index와 value가 나오게 된다. -> Series 형식 우리는 리스트가 필요하기 때문에! -> pie_labels = drink_df['continent'].value_counts().index.tolist() pie_values = drink_df['continent'].value_counts().values.tolist() plt.pie(pie_value..

상관관계 분석

상관 분석이란, 두 변수 간의 선형적 관계를 상관 계수로 표현하는 것을 말한다. 상관 계수를 구하는 것은 공분산의 개념을 포함하는데, 공분산은 2개의 변수에 대한 상관 정도. 2개의 변수 중 하나의 값이 상승하는 경향을 보이면 다른 값도 상승하는 경향을 수치로 표현한 것. 하지만 공분산만으로 두 확률 변수의 상관 관계를 구한다면 두 변수의 단위 크기에 영향을 받을 수 있다. 따라서 -1과 1 사이 값으로 변환하고 이를 상관 계수라 한다. 만약 상관 계수가 1에 가깝다면 서로 강한 양의 상관 관계가 있는 것이고, -1에 가깝다면 음의 상관 관계가 있는 것이다. 0이면 상관 관계가 없다. Matplotlib : 파이썬에서 자료를 차트나 플롯으로 시각화하는 패키지 Seaborn : Matplotlib을 기반으..

728x90