【勉強会】Apache Kafka Meetup Japan #1
Kafka & PaaS
- @deeeetさん
Log pipeline for Cloud Foundry with Apache Kafka
- なぜLog pipelineの構築にApache Kafkaを採用したか?
- どのようにCloudFoundryと連携しているのか?
Cloud Foundry
Problem
ログの保存先が2つに分散してしまった(syslogサーバー + GlusterFS) 問題があった時に複数のサーバーにログインする必要があった ログの詰まりとその伝搬が発生した ユーザが使いたいログ解析ツールの対応が大変だった GlusterFS...
Benefits
- Simple
- すべてのログは必ずKafkaに一時的に保存される
- 新しいコンポーネントを追加してもとりあえずKafkaに送れば良い
- (ログだけではなくメトリクスも送っている)
- Flexible
- KafkaのConsumerはPull型なので新しいBackendのシステムを追加したいときにKafka自体に手を入れる必要がない
- 新しいログ解析ツールを試すもの容易
- Reliable
- 一つのConsumerに問題が発生してもその問題がKafkaや他のConsumerに影響を与えることがない.
About Kafka Summit 2016
- @masaru_dobashiさん + 佐々木徹さん
Kafkaを使ったマイクロサービス基盤part2+運用して起きたトラブル集
- @matsu_charaさん
www.slideshare.net
- 利用用途の違いでkafkaのチューニングがどう変わるか
- 運用性能面で困ったこと
よくある使われ方
- ユーザアクティビティログ・メトリクスの集約
- 可用性重視
- イベントハブ
- 耐久性重視
ストリーム処理プラットフォームにおけるKafka導入事例
- ヤフー株式会社 森谷大輔さん
www.slideshare.net
きっかけ
今この瞬間が最も意味を持つ、鮮度が重要なデータ 溜めて結果を出す、では遅いケースがある やってきたデータを逐次処理して結果を逐次返すプラットフォームを作ろう
Kafka採用理由
- 実績:LinkedIn
- Stormと相性がいい
- 高可用性
- Hadoopと連携できる
- とりあえずデータを投げればサービスをまたがって再利用可能
- consumer group/offsetという素晴らしい概念
Storm採用理由
KafkaとAWS Kinesisの比較
- 佐伯嘉康さん 株式会社リクルートテクノロジーズ
www.slideshare.net
Kafkaを活用するためのストリーム処理の基本
- @kimutanskさん
www.slideshare.net
Kafkaのデータ活用モデル
- 一気にまとめて取得するモデル
- Log→Kafka→Hadoop
- 常時取得し続けるモデル
- Log→Kafka→Spark
ストリーム処理
- バッチ処理
- MapReduce/Spark/Tez
- 手動起動、定期実行
- TBs-PBs、処理時間:分〜時間
- ETL、BI、MachineLearning
- 対話型クエリ
- Impala/Drill/Presto
- 手動起動、定期実行
- GBs-TBs、処理時間:秒〜分
- InteractiveBI、分析
- ストリーム処理
- (後述)
- 常時実行
- Bs-KBs、処理時間:ミリ秒〜秒
- 異常・不正検知、レコメンド、可視化
Kafka含むデータ処理フローをNiFiで構築するさまを実演する5分間
- 河村康爾さん ホートンワークスジャパン株式会社
Kafka Connect: Writing your connector.
- Roman Shtykhさん 株式会社サイバーエージェント
Kafka event duplication cases
- 浅野 遼平さん ヤフー株式会社
- Arun Mathewさん ヤフー株式会社