반응형
뉴스데이터
-
뉴스데이터를 이용한 문서유사도 확인Data Analysis 2021. 3. 5. 23:46
오늘 날짜부터 -n일차 까지 다음뉴스의 데이터를 긁어 오는 작업으로 시작합니다. 날짜를 거꾸로 수집을 합니다. 오늘로부터 며칠 전까지 이런식으로 다음 랭킹뉴스에서 50개까지 url을 긁어온 뒤 다시 for문을 이용해서 url을 접속해서 content를 긁어서 저장합니다. 이 함수의 역할은 여기까지입니다. import requests from bs4 import BeautifulSoup import time import pandas as pd from datetime import datetime def daum(dates): # 다음뉴스 헤드라인 긁어오기 files = pd.DataFrame() for date in dates: http=[] print(date,'', 'Daum 접속 중') httz = ..