문제 사항

셀레니움을 이용한 크롤링 시 특정 건수에서 404 Not Found 발생하며 웹 접근 차단 되는 현상
1000건의 음식점 정보에 대해 크롤링 한다고 가정했을 때 대략적으로 700~800건 사이에서 일시적으로 아래와 같이 오류가 뜨며 차단되는 현상이 있음 ( Not Found로 일시적으로 화면이 Block되면 정보 크롤링이 불가능하고, 약 100~300건을 크롤링 할 동안 아래 페이지가 뜨다가 다시 정상적으로 보여짐 ) ( Not Found가 발생하는 시점은 불특정하며, 주피터노트북을 켜고 있는 Pc가 아닌 다른 Pc에서 해당 URL접속 시 이상 없음 == url 문제는 아닌 것으로 보임)

Untitled

원인

추측 원인 : 셀레니움을 통합 반복적인 웹 접속 시 컴퓨터로 판단하여 크롬 브라우저에서 차단
판단 사유 :
Not Found가 발생하는 시점에 크롤링하고 있는 Url 자체에는 문제가 없음을 다른 pc를 통해서 확인

시도한 방법

구글 검색 시 User-Agent 정보를 헤더에 넣어서 같이 보내면 차단 현상이 개선된다는 글이 있어 적용하였으나 증상 동일

Python 크롤링 user-agent

[웹 크롤링 - Python] User-Agent

headless 옵션을 사용하여 보낼시에도 현상이 개선된다는 글이 있어 추가 하였으나 증상 동일
Not Found 오류가 발생하여도 무시하고 그냥 진행
이 경우 1000건 중 Not Found가 발생한 시점의 크롤링 건 수 (100~200건)들의 데이터 크롤링 실패
20% 데이터 유실 발생

질의사항

저희조의 경우 공공API 포탈에서 제공하는 음식점 리스트를 받아서 폐업된 음식점을 제외한 현 영업중인 음식점 리스트를 엑셀로 만들어서 네이버 지도에 ‘음식점 이름’을 키워드로 검색한 결과를 크롤링 하게끔 구성하였습니다.
```
( 음식점 리스트 엑셀 → 가게 이름으로 네이버 지도 검색 → Url 획득하여 Url에 있는 블로그 리뷰 획득 )
```
크롤링은 python, 셀레니움을 이용하였고 문제가 발생하는 코드는 아래의 부분으로 ‘음식점 이름’을 키워드로 검색한 결과를 크롤링 하게끔 동작하는 부분입니다.
구글링시 반복적인 작업으로 인한 브라우저 차단 시 User-agent/headless 옵션을 통해 해결이 가능하다고 작성되어 있으나, 해결되지 않아 글을 작성드립니다.
이 방법 외 해결방안이나, 데이터를 수집하는 방법 중 다른 걸 시도해볼 부분이 있을 지 문의드리고싶습니다. (만약 현재 상황으로 Not Found가 나지 않게 하려면 음식점 데이터를 500건씩 잘라서 해야하는데 비효율 적인 것 같습니다. 🥺 )