sre

SLI/SLO運用の実践 shimesabaによる指標モニタリング

sre

先月の記事で紹介したエラーバジェット算出ツール『shimesaba』について、今回は実際にどのようにSLI/SLOを運用しているのか?という内容をshimesabaを使った設定例を交えつつ話します。

SLOの運用のために OSS shimesabaの導入

sre

SLOを実践する上で、エラーバジェットはとても大事なものとなります。 そのエラーバジェットをMackerelをお使いの場合に簡単に算出できるツールshimesabaの紹介と具体的な導入方法に関する記事となります。

ステージング環境における検証用データベースの立ち上げを自動化する取り組み

Webアプリケーションのステージング環境では、検証の精度を高めるために、量・質ともに本番環境に類似したデータベースが求められる局面が頻出します。本記事では、カヤックにおける、この課題への取り組みについて紹介いたします。

アジャイル的ドキュメンテーションのこころ

sre

アジャイルでは「包括的なドキュメントよりも動くソフトウェアを」とは言うものの、ドキュメントが重要でないということはありません。コストを削減するための、また自分のためのドキュメンテーションという観点からその重要性について見ていきます。

「SRE NEXT 2022」にSREチームの藤原が登壇します

SREチームの長田です。 5/14(土)・5/15(日)に開催される「SRE NEXT 2022」にカヤックSREチームの藤原が登壇します。 sre-next.dev 「1年間のポストモーテム運用と、そこから生まれたツールsre-advisor」というタイトルでポストモーテムの運用と、 そこから生…

SREチームでポストモーテムを1年半運用してみた

sre

カヤックではSREが関わっている社内の複数プロダクトで、ポストモーテムを2020年末から運用してきました。 社内には多数のプロダクトがあるため、エンジニアは自分が関わっているもの以外の事故や事例に疎くなりがちでした。ポストモーテムの運用を通して、…

「AWS で実践!Analytics Modernization ~事例祭り編~」にSREチームの池田が登壇します

SREチームの長田です。 3月24日(木)に行われるウェビナー「AWS で実践!Analytics Modernization ~事例祭り編~」に、 カヤックのSREチームメンバーである池田が登壇します。 pages.awscloud.com 「Amazon Redshiftを1年運用して感じた教訓とその対策方針」…

既存リソースをTerraformでimportする作業を楽にする

sre

既存のリソースをterraform importする際の作業を楽にする方法として、aws-cliやgcloud-cliの出力を利用して必要な情報を自動生成する手法について紹介します。

カヤックのSREチームについて

sre

複数のサービスを運用しているカヤックで、SREチームがどのような目標を持って活動しているのかを紹介します。

Mackerel関連で2021年にやったことまとめ

SREチームの藤原です。 このエントリは KAYAC Advent Calendar 2021 兼 Mackerel Advent Calendar 2021 の9日目の記事です。 カヤックとMackerelとわたし カヤックで運用している自社サービスやソーシャルゲームでは、サーバの監視に Mackerel を利用してい…

MackerelでSLOとエラーバジェットを運用するためのツール shimesaba

sre

この記事はMackerel Advent Calendar 2021の7日目です。 こんにちは、SREチーム所属の@mashiikeです。 皆様はSLOとエラーバジェットという言葉を聞いたことはありますか? サービスの信頼性を保証することを目標するSRE(Site Reliability Engineer/Site Re…

Amazon ECS タスクのイベントとログを時系列で出す tracer を作った

SREチームの藤原です。KAYAC Advent Calendar 2021 4日目の記事です。 早速ですが Amazon ECS をお使いの皆様、何か新しく起動したい ECS タスクがあって、タスク定義を書き起こして(もしくはマネージメントコンソールで定義して)、一発で起動に成功できます…

PR TIMES x カヤック 合同技術勉強会を開催しました

sre

SREチームの藤原です。 2021年11月4日に、PR TIMES さんとカヤックのエンジニアで、オンライン合同勉強会を開催しました。 発端 各社の勉強会文化が消滅した結果、同業者の人と知り合う機会が消滅してしまったので、新卒1,2年目の人が横の繋がりを作ることが…

CloudFrontのS3 Originにはhostヘッダーを転送してはいけない

SREチームの長田です。 CloudFrontでstaticなファイルを配信しようとした時に少々ハマったのでそのメモです。 TL;DR CloudFront distributionのS3 Originは、Managed Policyの Managed-AllViewer を使うと機能しない。 何をしたのか statcなファイルを配信す…

MWAAで任意のツールをBashOperatorで実行したい

こんにちは。技術部の自称データエンジニアの池田です。 最近、Amazon Managed Workflows for Apache Airflow (MWAA) を使い倒すことに注力しています。 この記事では、MWAAの環境に任意のツール(バイナリファイル)を送り、BashOperatorで実行する方法につ…

Amazon Managed Workflows for Apache Airflow (MWAA) でのAiflow v2系への移行記録

こんにちは。技術部の池田です。 この記事では、Amazon Managed Workflows for Apache Airflow (MWAA) のAirflow v2系への移行を行いましたので、その時の話をしたいとお思います。 内容としては、主に以下となります。 MWAA では v1.10.12の環境を直接 v2.0…

GitHub Actionsに「強い」AWSの権限を渡したい ~作戦3 - AssumeRole with Google ID Token ~

こんにちは。技術部の池田です。 この記事では、Github Actions上に「強い」AWSの権限を渡すために以下のことを行います。 App Runnerでお手軽にGoogle ID Token 取得するためのWeb Applicationを動かす。 Web Applicationから取得できるGoogle ID Tokenを信…

カヤック×primeNumber×クラシコム合同SRE勉強会を開催しました

カヤックSREチームの今です。 5/14(金)に3社合同のSRE勉強会をオンライン開催しました。 参加企業は、カヤック、クラシコム様、primeNumber様です。 SREはまだまだ一般的ではなく、知見の少ない役職です。また企業内での人数も少ないこともあり、普段同じ技…

ecspresso advent calendar やってます

こんにちは。激動の2020年ももうすぐおわりですね。SREチームの藤原です。 ecspresso ? 弊社では Amazon ECS のデプロイツールである ecspresso を開発し、OSS で公開しています。 github.com カヤックでは AWS でサーバを運用することが多いため、コンテナ…

bash-lambda-layerのAmazon Linux 2対応をすることを決意した話

sre

こんにちは。技術部の池田です。 この記事では、gkrizek/bash-lambda-layer (以下、本家)を forkしたkayac/bash-lambda-layerに関して話します。 bash-lambda-layerに関しては、こちらを参照いただければわかりやすいと思います。 sfujiwara.hatenablog.co…

Amazon SQSを利用してAmazon S3からGoogle BigQueryにデータ投入するBQinというツールを書いた

こんにちは。技術部の池田です。 この記事では、AWSを使っているプロジェクトではありがちなAmazon S3からGoogle BigQueryにデータを投入するためのツールを書いた話をします。 BQin - BigQuery data importer with AWS S3 and SQS messaging. 名前からお察…

WEB+DB Press Vol.114 に「マネージドサービスによる既存サーバの再構築」を寄稿しました

SREチームの藤原です。Tech Kayac Advent Calendar Migration Track 24日目の記事です。 昨日12/23に発売となった技術評論社さんの WEB+DB Press vol.114 の連載「インフラ運用のアイデア&テクニック」に、「マネージドサービスによる既存サーバの再構築」…

NuxtJS製のWebサービスをECSに移行したはなし

SREチームの長田です。 Advent Calendar Migration Track 22日目の記事です。 今回は弊社で運用しているLobiというサービスの、Webブラウザ版(Web版)をECSに移行したはなしです。 web.lobi.co なぜ移行したのか おなじみ、Amazon Linux1 EoL対応です。 すべ…

AWS Lambda Node.js runtime の EoL に疲れたので Go にしていっている話

SREチームの藤原です。Tech Kayac Advent Calendar Migration Track 19日目の記事です。いよいよ年も押し詰まってきましたね…! AWS Lambda、使ってますか?最近はサーバーレスという文脈で取り上げられることも多い Lambda ですが、カヤックではそこまでサー…

Push 通知送信エージェント Gunfish に FCM v1 API 対応を追加した

SREチームの藤原です。Tech Kayac Advent Calendar Migration Track 17日目の記事です。 Gunfish? カヤックでは iOS (APNs) や Android (FCM、かつては GCM) へのモバイルプッシュ通知に、自社で開発した Gunfish というソフトウェアを使用しているプロジェ…

オリジナルのS3バケットのバックアップシステムをCross Region Replicationに移行したはなし

SREチームの長田です。 Tech Kayac Advent Calendar Migration Trackの15日目です。 S3バケットのバックアップ Lobiでは投稿された画像ファイルをS3に保存しています。 S3に保存しているだけでは、S3から誤って削除した場合に復元することができません。 主…

Amazon S3 Signature V2 廃止対応にまつわるあれこれ

SRE チームの藤原です。Tech Kayac Advent Calendar Migration Track 13日目の記事です。 AWS を使っていれば、ほぼ100%なんらかの形で S3 と関わっているでしょう。仮に自分で明示的に S3 にアクセスしなくても、EC2 などのスナップショットは実際には S3 …

ホストのプロビジョニングを Chef から mitamae へ移行した

SRE チームの藤原です。Tech KAYAC Advent Calendar 2019 Upgrade/Migration track 6日目の記事です。 今日は長らく EC2 などのホストのプロビジョニングに利用していた Chef を、mitamae に移行したお話です。 Chef とその管理 Chef といえば、Infrastructu…

fluentdによる通知をRedash/Mackerelに移動させる

ログの監視と通知方法 SREチームの竹田です。Tech Kayac Advent Calendar Migration Track 5日目の記事になります アプリケーションの挙動を監視し、ある閾値を超えたときにだけ通知が欲しい時があります。 ある程度の障害は想定内として頻繁に起きていると…

LobiのCIをJenkinsからCircleCIに移行したはなし

SREチームの長田です。 Tech KAYAC Advent Calendar 2019 4日目の記事です。 今回はLobiで長らくCI実行環境として使用していたJenkinsから、CircleCIに移行したはなしです。 Jenkins時代 jenkins.io 皆様御存知のJenkinsです。 LobiではCI実行のために使用し…