1G 大小的日志文件(每分钟)+Flume+Kafka+Spark streaming 实时分析的问题

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3323 days ago, the information mentioned may be changed or developed.

现在有一个采集机器，接收其他系统产生的日志文件，每分钟 1G ，也就是每分钟一个目录下会多出一个 1G 的文件。

现在想对每分钟出现的这 1G 的数据进行实时的分析，采用 Spark streaming 实时计算后存入其他的系统。

现在的一个问题是我想读取 1G 数据里的每一条记录，请问这个架构应该是怎样的呢？

应该由哪一个节点负责对该 1G 大小的日志文件 readline 操作形成的一条条的记录呢? 这里 Flume 有没有用？

请教一下，谢谢~

日志

streaming

Flume

Spark

10 replies • 2017-04-18 14:02:58 +08:00

anonymoustian

Apr 17, 2017

我的理解是 Kafka 里面存的是一条条的日志(一行行)而非整个的大文件，所以需要向里面存这样的数据，这么理解对吗？

anonymoustian

Apr 17, 2017

我的问题是

日志文件 -> Kafka 和日志文件 -> Flume -> Kafka 有什么区别呢？日志文件有千万行的记录，是在哪一个阶段把这些记录一条条的输入到 Kafka 中的呢？

EmdeBoas

Apr 17, 2017

学生党，个人的一点愚见

EmdeBoas

Apr 17, 2017

应该不需要 flume 直接在采集机器上跑 kafka 当生产者不过要注意配置好 zookeeper 这个节点最好不要经常抖动或者老选举

anonymoustian

Apr 17, 2017

@EmdeBoas 谢谢，经常抖动或者老选举是什么意思？

EmdeBoas

Apr 17, 2017

@anonymoustian 我说详细一点吧，我觉得 60s 1~2G 的 IO 单台机器应该是吃得消的，所以直接在采集机器上跑生产者另外关于 zookeeper 因为只有这一个生产者，所以它的稳点性肯定很重要的， kafka 依赖于 zookeeper ，你可以在同一台机器上直接跑 zookeeper ，最好它能是 leader(因为生产者肯定会频繁请求事务，事务只有 leader 处理。 follower 只处理请求) ，这样消息延迟就会降低....不要抖动就是说你 zookeeper 服务器的网得稳定，频繁发生新的选举的话之前的请求和事务都会阻塞的，运气差还可能旧操作被丢弃... PS 我没上过实际生产环境....很多知识都是书上的，你参考就好.....