저희조의 경우 공공API 포탈에서 제공하는 음식점 리스트를 받아서 폐업된 음식점을 제외한 현 영업중인 음식점 리스트를 엑셀로 만들어서 네이버 지도에 ‘음식점 이름’을 키워드로 검색한 결과를 크롤링 하게끔 구성하였습니다.
( 음식점 리스트 엑셀 → 가게 이름으로 네이버 지도 검색 → Url 획득하여 Url에 있는 블로그 리뷰 획득 )
크롤링은 python, 셀레니움을 이용하였고 문제가 발생하는 코드는 아래의 부분으로 ‘음식점 이름’을 키워드로 검색한 결과를 크롤링 하게끔 동작하는 부분입니다.
구글링시 반복적인 작업으로 인한 브라우저 차단 시 User-agent/headless 옵션을 통해 해결이 가능하다고 작성되어 있으나, 해결되지 않아 글을 작성드립니다.
이 방법 외 해결방안이나, 데이터를 수집하는 방법 중 다른 걸 시도해볼 부분이 있을 지 문의드리고싶습니다. (만약 현재 상황으로 Not Found가 나지 않게 하려면 음식점 데이터를 500건씩 잘라서 해야하는데 비효율 적인 것 같습니다. 🥺 )