Development Tip

Google 결과에서 데이터를 긁어도 괜찮습니까?

yourdevel 2020. 12. 6. 22:09
반응형

Google 결과에서 데이터를 긁어도 괜찮습니까?


중복 콘텐츠를 감지하기 위해 curl을 사용하여 Google에서 결과를 가져오고 싶습니다. Google에 의해 금지 될 위험이 높습니까?


일정량의 요청을 초과하면 Google은 결국 귀하의 IP를 차단합니다.


Google은 TOS에서 자동 액세스를 허용하지 않으므로 약관에 동의하면 위반할 수 있습니다.

즉, 스크레이퍼에 대한 Google의 소송은 없습니다. 마이크로 소프트도 구글을 긁어 내고 검색 엔진 빙을 구동했다. 그들은 2011에서 적발되었습니다 :)

Google 결과를 스크랩하는 두 가지 옵션이 있습니다.

1) API 사용

  • 당신은 시간당 약 40 개의 요청을 할 수 있습니다. 당신은 그들이 당신에게 제공하는 것에 제한되어 있습니다. 당신이 순위 위치를 추적하거나 실제 사용자가 보게 될 것을 추적하려는 경우에는 실제로 유용하지 않습니다. 그것은 당신이 수집 할 수없는 것입니다.

  • 더 많은 양의 API 요청을 원하면 비용을 지불해야합니다.

  • 시간당 60 건의 요청 비용은 연간 2,000 USD이며, 더 많은 쿼리에는 맞춤 거래가 필요합니다.

2) 일반 결과 페이지 긁기

  • 여기에 까다로운 부분이 있습니다. 일반 결과 페이지를 긁어 낼 수 있습니다. Google은이를 허용하지 않습니다.
  • 시간당 8 개 (15 개에서 업데이트 됨) 이상의 키워드 요청 속도로 스크 레이 핑 하면 탐지 위험이 있습니다. 10 / h (20 개에서 업데이트 됨) 보다 높으면 내 경험에서 차단됩니다.
  • 여러 IP를 사용하여 속도를 높일 수 있으므로 100 개의 IP 주소로 시간당 최대 1000 개의 요청을 스크랩 할 수 있습니다. (하루 24k) (업데이트 됨)
  • http://scraping.compunect.com 에 PHP로 작성된 오픈 소스 검색 엔진 스크레이퍼가 있습니다. 신뢰할 수있는 Google 스크래핑을 허용하고, 결과를 적절하게 파싱하고, IP ​​주소, 지연 등을 관리합니다. 따라서 PHP를 사용할 수 있다면 좋습니다. 그렇지 않으면 코드가 어떻게 수행되는지 배우는 데 여전히 유용합니다.

3) 또는 스크래핑 서비스 사용 (업데이트 됨)

  • 최근에 내 고객은 검색 엔진 스크래핑 요구 사항이 엄청나지만 '진행 중'이 아니 었습니다. 한 달에 한 번의 대규모 새로 고침과 비슷합니다.
    이 경우에는 '경제적'인 자체 제작 솔루션을 찾을 수 없었습니다. 대신 http://scraping.services
    에서 서비스를 사용했습니다 . 또한 오픈 소스 코드를 제공하며 지금까지 잘 실행되고 있습니다 (새로 고침 중 시간당 수천 개의 결과 페이지).
  • 단점은 그러한 서비스가 귀사의 솔루션이 한 전문 공급 업체에 "결합"된다는 것을 의미하고, 장점은 제가 평가 한 다른 옵션보다 훨씬 저렴하다는 것입니다 (우리의 경우에는 더 빠름).
  • 한 회사에 대한 의존도를 줄이는 한 가지 옵션은 동시에 두 가지 접근 방식을 만드는 것입니다. 스크래핑 서비스를 기본 데이터 소스로 사용하고 필요한 경우 2)에서 설명한 것과 같은 프록시 기반 솔루션으로 폴백합니다.

구글은 전 세계의 웹 사이트를 긁어내는 데 성공한다. 만약 그것이 "너무 불법"이라면 구글조차도 살아남지 못할 것이다. 물론 다른 답변은 구글의 IP 차단을 완화하는 방법을 언급한다. 보안 문자를 피하는 또 다른 방법은 임의의 시간에 긁어내는 것입니다 (dint try) .. 또한, 참신함이나 중요한 데이터 처리를 제공하면 적어도 나에게 괜찮은 것 같다고 생각합니다. 단순히 웹 사이트를 복사하거나 어떤 식 으로든 비즈니스 / 브랜드를 방해하는 것입니다 ... 그러면 그것은 나쁘고 피해야합니다. 무엇보다도 ... 당신이 스타트 업이라면 아무도 당신과 싸우지 않을 것입니다. 혜택이 없습니다.하지만 자금이 지원되는 경우에도 전체 전제가 스크래핑에 있다면보다 정교한 방법을 생각해야합니다. 대체 API .. 결국 ..

참고 URL : https://stackoverflow.com/questions/22657548/is-it-ok-to-scrape-data-from-google-results

반응형