[핀테크 코딩] 6주차

BeautifulSoup: 웹크롤링 할 떄 이용되는 파이썬의 라이브러리. 웹에서 표현되는 정보를 특정 목적을 위해 프로그램을 작성해, 정규화 된 정보로 긁어오는 행위

HTML이나 XML로 작성된 파일을 가져오고 (Pull), 내용을 찾고(nevigate)함

HTML request -> response -> parsing

HTML 문서를 회신받아 문서를 태그 기반으로 파싱하여, 크롤링을 수행

Ex) BeautifulSoup의 실습(1)

KOSPI200의 지수 수집

Naver에서 KOSPI200 Index를 수집해보자.

네이버 금융

finance.naver.com

프레임 소스 보기 -> view source를 삭제하고, 주소만 긁어옴

주소창의 마지막 숫자는 페이지 수

Object 할당 (개체 지정)을 해보자

bs4.BeautifulSoup를 해주니 멋지게 나옴.

날짜는 date, 종가는 number_1 어드레싱으로 잡혀 있음

Data를 대량으로 제공하는 사이트에서 원하는 데이터의 위치를 찾을 떄는 XPath 주소를 이용하면 편리.

웹사이트 또는 XML문서에 있는 각 항목의 주소를 문서에 포함된 태그를 조합한 경로 형태로 표현하는 언어.

;

소스코드가 나와 있는 곳에서 음영으로 선택된 부분에 마우스 -> 우클릭 -> 복사 -> Copy XPath

/html/body/div[1]/table[1]/tbody/tr[3]/td[1]

체결가(종가)의 XPath

source.find_all('table')[0].find_all('tr')[3].find_all('td')[0]

this_date는 연도,월 일의 형식으로 바꿔줌

/html/body/div/table[1]/tbody/tr[3]/td[2]

자동차, 컴퓨터, 금융, 게임, 운동