크롤크롤

2012. 12. 7. 15:50잡담

요즘 몇개 사이트의 크롤링 툴을 보수 작업한 결과.

구글 사이트의 경우 너무나도 차단을 잘 하더군요ㅠ

몇개의 아디이어를 통해 우회하려고 시도해봤습니다.

1. useragent를 통해 브라우저 정보 변경
-> 결과 소용 없음

2. 일정 request 이 후 30분 ~ 1시간 정도 후에 다시 진행
-> 결과 소용 없음

3. 일정시간 이후 ip 변경 후 다시 시도
-> 시도 하기전에 해결


서버에서 어떤식으로 막는지 정확히는 모르지만, url 갯수, 패턴, 트래픽 양 등 

사람이 일일이 직접 하는 것 처럼 request 당 10초 정도의 delay를 주니 해결이 되었습니다. 허무;;

물론 이 방법은 속도면에서는 물론 느립니다. ( 그래도 사람보단 빠름... )


아 기다리기 귀찮으니... 또 다른 방법을 찾아봐야 겠습니다.


'잡담' 카테고리의 다른 글

NOW  (0) 2012.10.30
사람이 먼저냐? 앱이 먼저냐?  (0) 2012.10.24
long time no see  (0) 2012.05.28
준비운동, 준비의 관한  (0) 2012.04.29
아 시크한 하늘.  (0) 2012.03.24