Kafka & PaaS

@deeeetさん

Log pipeline for Cloud Foundry with Apache Kafka

なぜLog pipelineの構築にApache Kafkaを採用したか?
どのようにCloudFoundryと連携しているのか?

Cloud Foundry

OSS Platform as a Service 構築基盤
APIやルータ，CLIツール，ヘルスチェック，認証機構etc
v1 (Ruby) -> v2 (Golang)

Problem

ログの保存先が2つに分散してしまった（syslogサーバー + GlusterFS）問題があった時に複数のサーバーにログインする必要があったログの詰まりとその伝搬が発生したユーザが使いたいログ解析ツールの対応が大変だった GlusterFS...

Benefits

Simple
すべてのログは必ずKafkaに一時的に保存される
新しいコンポーネントを追加してもとりあえずKafkaに送れば良い
（ログだけではなくメトリクスも送っている）
Flexible
KafkaのConsumerはPull型なので新しいBackendのシステムを追加したいときにKafka自体に手を入れる必要がない
新しいログ解析ツールを試すもの容易
Reliable
一つのConsumerに問題が発生してもその問題がKafkaや他のConsumerに影響を与えることがない．

About Kafka Summit 2016

@masaru_dobashiさん + 佐々木徹さん

Kafkaを使ったマイクロサービス基盤part2+運用して起きたトラブル集

@matsu_charaさん

Kafkaを使ったマイクロサービス基盤 part2 ＋運用して起きたトラブル集 from matsu_chara Matsubayashi

www.slideshare.net

利用用途の違いでkafkaのチューニングがどう変わるか
運用性能面で困ったこと

よくある使われ方

ユーザアクティビティログ・メトリクスの集約
可用性重視
イベントハブ
耐久性重視

ストリーム処理プラットフォームにおけるKafka導入事例

ヤフー株式会社森谷大輔さん

ストリーム処理プラットフォームにおけるKafka導入事例 #kafkajp from Yahoo!デベロッパーネットワーク

www.slideshare.net

きっかけ

今この瞬間が最も意味を持つ、鮮度が重要なデータ溜めて結果を出す、では遅いケースがあるやってきたデータを逐次処理して結果を逐次返すプラットフォームを作ろう

Kafka採用理由

実績：LinkedIn
Stormと相性がいい
高可用性
Hadoopと連携できる
とりあえずデータを投げればサービスをまたがって再利用可能
- consumer group/offsetという素晴らしい概念

Storm採用理由

KafkaとAWS Kinesisの比較

佐伯嘉康さん株式会社リクルートテクノロジーズ

KafkaとAWS Kinesisの比較 from Yoshiyasu SAEKI

www.slideshare.net

Kafkaを活用するためのストリーム処理の基本

@kimutanskさん

Kafkaを活用するためのストリーム処理の基本 from 宗太郎木村

www.slideshare.net

Kafkaのデータ活用モデル

一気にまとめて取得するモデル
- Log→Kafka→Hadoop
常時取得し続けるモデル
Log→Kafka→Spark

ストリーム処理

バッチ処理
MapReduce/Spark/Tez
手動起動、定期実行
TBs-PBs、処理時間：分〜時間
ETL、BI、MachineLearning
対話型クエリ
Impala/Drill/Presto
手動起動、定期実行
GBs-TBs、処理時間：秒〜分
InteractiveBI、分析
ストリーム処理
(後述)
常時実行
Bs-KBs、処理時間：ミリ秒〜秒
異常・不正検知、レコメンド、可視化

Kafka含むデータ処理フローをNiFiで構築するさまを実演する5分間

河村康爾さんホートンワークスジャパン株式会社

Kafka Connect: Writing your connector.

Roman Shtykhさん　株式会社サイバーエージェント

Kafka event duplication cases

浅野遼平さんヤフー株式会社
Arun Mathewさんヤフー株式会社

tsalakh ain sus noam Huyah ol guf

勉強会のメモ。その他備忘録。参考にさせて頂いたサイトや資料はリンクさせて頂いていますが不都合があればご連絡ください。

【勉強会】Apache Kafka Meetup Japan #1

Kafka & PaaS

Cloud Foundry

Problem

Benefits

About Kafka Summit 2016

Kafkaを使ったマイクロサービス基盤part2+運用して起きたトラブル集

よくある使われ方

ストリーム処理プラットフォームにおけるKafka導入事例

きっかけ

Kafka採用理由

Storm採用理由

KafkaとAWS Kinesisの比較

Kafkaを活用するためのストリーム処理の基本

Kafkaのデータ活用モデル

ストリーム処理

Kafka含むデータ処理フローをNiFiで構築するさまを実演する5分間

Kafka Connect: Writing your connector.

Kafka event duplication cases