크롤크롤
2012. 12. 7. 15:50ㆍ잡담
요즘 몇개 사이트의 크롤링 툴을 보수 작업한 결과.
구글 사이트의 경우 너무나도 차단을 잘 하더군요ㅠ
몇개의 아디이어를 통해 우회하려고 시도해봤습니다.
1. useragent를 통해 브라우저 정보 변경
-> 결과 소용 없음
2. 일정 request 이 후 30분 ~ 1시간 정도 후에 다시 진행
-> 결과 소용 없음
3. 일정시간 이후 ip 변경 후 다시 시도
-> 시도 하기전에 해결
서버에서 어떤식으로 막는지 정확히는 모르지만, url 갯수, 패턴, 트래픽 양 등
사람이 일일이 직접 하는 것 처럼 request 당 10초 정도의 delay를 주니 해결이 되었습니다. 허무;;
물론 이 방법은 속도면에서는 물론 느립니다. ( 그래도 사람보단 빠름... )
아 기다리기 귀찮으니... 또 다른 방법을 찾아봐야 겠습니다.
'잡담' 카테고리의 다른 글
NOW (0) | 2012.10.30 |
---|---|
사람이 먼저냐? 앱이 먼저냐? (0) | 2012.10.24 |
long time no see (0) | 2012.05.28 |
준비운동, 준비의 관한 (0) | 2012.04.29 |
아 시크한 하늘. (0) | 2012.03.24 |