hbstudy 第75回: 「SRE大全: メルカリ編」 個人的なログ

Diary

概要

ログ

前半

  • 「新規サービスの開発以外のエンジニアリングは全部やる」
  • メンバー:9人
  • SREの業務範囲
    • Operation
    • Software Enginerring
    • 基盤構築 (log, analytics, server provisioning, deploy)
  • リソース監視は mackerel 使っている。
  • mackerel-agent, Norikra, mkr => mackerel => Slack
  • Sakuraで物理サーバを使っている。
  • エラーのエスカレーションPagerDuty使っている。高いらしい。
  • Infra
    • JP: Sakura
    • US: AWS, GCP
    • UK: GCP
    • Log: BigQuery
  • Application stack
    • Solr
    • MySQL, memcached
    • app
    • nginx
  • CDN問題
    • CDNにおいてExpireヘッダで過去日を指定したとしても、0秒のキャッシュが存在することになる。
  • nginxの設定。CDNやブラウザに絶対キャッシュされないようにヘッダを制御。cookieを設定するとキャッシュされないことは確認済み。
    • more_clear_headers expires …
    • more_set_headers cache-control private no-cache no-store …
    • add_header Set-Cookie …
  • CDNを使う理由:DDoS体制。セキュリティ対策。
  • 今は、インフラチームは無くなった。SREだけ。

後半

  • PHP 5.6.x -> PHP 7.1 に切り替えた
    • CPU負荷半分
    • CI速度も上がった。
  • 全世界同じソースコードで動いている。
  • ボトルネックはNewRelicとapacheのstraceで探している
  • ソフトウェアエンジニアが本番環境をいじれない
    • 将来的にはmicroservice化して、エンジニアがオーナーシップを持って行けるようにする。
  • 最近は、GKE + GRPCで動いているサービスがある。
  • spanner 使っている
  • 理想は12人欲しい。当番が2人体制にしたいから。
  • なぜsakura?
    • 最初から使っている。物理サーバならではのパフォーマンス。今のところ、最終的にはコストメリットがある。
  • 誰がCDNに関連した障害のblogを書く事を許可したの?
    • ボードメンバーの一人が ブログ書いて と言ったことがトリガー。

Twitter


コメント