개인 공부/Python_Study

Python_Crawling, Scrapping, Parsing

COSMOSUNION 2022. 5. 23. 10:15

https://parsers.me/what-is-the-differences-between-web-crawling-and-web-scraping/

 

What is the differences between web crawling and web scraping? - Parsers

- What is the differences between web crawling and web scraping? Blog Parsers

parsers.me

 

Web Crawling : Searching

- 인터넷 상의 웹 페이지

   * 웹 크롤러(Web Crawler)

     :  웹 크롤러는 웹 페이지의 내부 링크를 따라 인터넷을 체계적으로 검색하여 콘텐트를 검색하는 독립 실행형 봇

       명확한 최종 목표나 목표가 없어도 사이트나 네트워크가 제공할 수 있는 것을 끝없이 탐색하면서

       스스로 웹 페이지를 탐색할 수 있는 프로그램의 능력을 의미

       ex) Google, Bing과 같은 검색엔진에서 url의 컨텐츠를 추출

- 기존의 복사본을 생성

- 웹 페이지 내 모든 키워드, 이미지 및 url을 저장하는 것과 같은 특정 수준의 스크래핑 필요

- 일반적으로 검색엔진이 어떤 종류의 정보를 검색하는 방식

 

Web Scarpping : Collecting Data

- 웹페이지 내 특정 데이터를 추출하는 방식

   ex) 뉴스기사->페이스북 업로드 : url로부터 기사제목+이미지를 가져와서 preview 제공

- 분석을 위한 특정 데이터를 추출 또는 새로운 것을 생성

- 먼저 필요한 정보를 찾기 위한 웹 크롤링 같은 작업이 선행

- 주식시장 데이터, 공급업체 제품 스크래핑과 같은 특정 데이터에 대한 특정 웹사이트를 대상

 

Parsing : Modifying and Organizing
- 웹 페이지 내 특정 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공

  ex) html 파싱 : html 문서에서 원하는 정보를 특정 패턴이나 순서로 가공하는 것

- 의미있는 토큰(token)으로 분해하고 이들로 이루어지는 파스 트리(parse tree)를 만드는 과정

- 인터프리터/컴파일러의 구성요소