SRE (Site Reliability Engineer) 職(中途)
はてなのサービス開発の中で、システムの設計から構築、運用をリードし、サービスの信頼性と開発速度を両立する仕事です。サービスに求められる信頼性を定義し、チームでサービスを運用していく中での道標となってもらいます。クラウド環境をうまく使い、独自のシステム構築や工夫が可能な方を募集します。

id:hagihala
- SRE
- 2012年入社
大きなシステムを効率よく作る
SREはアプリケーションエンジニアよりも大きなスケールでシステムを扱います。大きさゆえに、システムを構成する OS やミドルウェア、ソフトウェアなどのすべてのシステム構成要素に全力を注ぐのは現実的ではありません。また、バグや機能の不足、設計思想の違いなどにより組み合わせに一工夫必要になることも多々あります。
そのため、システム全体として目的の機能を実現するために必要なものや、それらの最適な組み合わせを考え、時と場合によっては「運用でカバー」しつつシステムを作り上げます。また、運用コストを削減して本来注力すべきところに集中できるよう、運用の自動化や効率化も積極的に行います。 複数のミドルウェアやツールを組み合わせ、それらが協調し合う大きなシステムを作りたい方にとってやりがいのある仕事だと思います。
SREの仕事
- 大きなトラフィックをさばくサーバやネットワークの設計と構築
- パフォーマンスボトルネックの分析・改善から障害時の対応まで、サービスを支えるシステムの運用
- OSやミドルウェアなど新規ソフトウェアの検証と導入
- バックアップ、ログ分析などのシステム共通基盤部分の整備
- クラウドをはじめとする新しい環境でのサービスの構築と運用
大規模で複雑なシステムを自分の技術で支えていきたい
はてなのサービスを支える多数のサーバ・ネットワークからなるシステムの構築や運用・改善を行っていく仕事です。
大きなトラフィックをさばくシステムのパフォーマンスや可用性を高めるため、ネットワークや計算機、OSからミドルウェア、さらにアプリケーションコードまで含めてシステム全体に切り込んでいきます。また、日々のハードウェアやパフォーマンスの障害対応に対しても、原因の分析から再発防止の仕組みの構築、対応自体の自動化など、仕組み自体の改善により大規模環境までスケールするシステムを作っていくことが重要です。幅広い知識を活かして現状のシステムの挙動をロジカルに捉え、改善の提案から実装まで行っていくことが必要となります。
そんなシステムを作っていくためにも、常に最新の知識や技術を追いかけ、実践に取り入れていく姿勢が求められます。また、技術が最終的にサービスを利用するユーザーにもたらす影響、それを実現するためのコスト等、様々なことを考え最適なシステムを作り上げるのは、困難ですが非常に刺激的な仕事です。
大規模で複雑なシステムを自分の技術で支えていきたい、そんな方のご応募をお待ちしております。
現在募集中のポジション
開発チーム・サービスごとの応募
オープンポジション
ご経験・ご希望に応じて、関わりたいチーム・サービスを選考の中で決定します。
オープンポジションの募集要項