Leonid Evdokimov (darkk) wrote,
Leonid Evdokimov
darkk

rss-proxy: 100'000 хитов в сутки

Google appengine — чудесная штука для бомж-проектов. Например, мой сервис для чтения френдленты в онлайн-агрегаторах без каких-либо проблем обслуживает 100'000 хитов в сутки. Конечно, 99% этих хитов — боты Яндекс.Ленты, Google Reader и других подобных web-приложений, но всё равно цифра сама по себе остаётся забавной. Огорчает лишь тот факт, что rss-proxy уже отъедает 35% от бесплатной квоты в 657'084 запросов к внешним сервисам в день. Рано или поздно придётся что-то с этим делать.

10% HTTP ответов в логе — это «200 Ok», 80% — «304 Not modified», еще 6% — «502 Bad gateway» из-за проблем сети и/или backend'а, таким образом кэшированием неверных паролей и/или удалённых журналов можно выиграть всего около 3% квоты. Не густо. С другой стороны, если верить User-Agent'у бота гуглеридера, то порядка 40% запросов идут к фидам, на которые никто не подписан, то есть User-Agent имеет следующий вид:

Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; feed-id=...),gzip(gfe),gzip(gfe)
В то время как «живой» фид выглядит так:
Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; 1 subscribers; feed-id=...),gzip(gfe),gzip(gfe)
А 40% — это уже стоящая оптимизация.

Знает ли кто, насколько можно полагаться на данную информацию от гуглебота? Увы, дискуссии в посвященной Google Reader группе на эту тему как-то игнорируются представителями Google. Вопроса «почему Feedfetcher проверяет rss-поток, на который никто не подписан?» тоже в FAQ до сих пор нет.

Tags: django, google, livejournal, python, rss, rss-proxy
Subscribe

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 14 comments