运维菜鸟,最近在做公司日志进行简单处理之后,按一定数量加入一个list,然后使用ES的接口将数据批量添加到另外一台ElasticSearch上,再通过一些方式进行展示。这里遇到一个问题,如果数据插入时,发生异常。比如要插入的es主机崩溃等,但是数据源没有问题。这样就应该把已经处理完的数据移到缓存中,然后停止程序。(数据源是kafka,即便停止了程序,重新启动后仍可以消费之前没有消费的)
那么想问一下,对于比较轻量的python程序或者脚本,应该使用怎样的方式存储这些异常状况发生时要先存储下来的数据呢?
可以在es异常时, py脚本捕获到异常后, 使用
cPickle
或者pickle
将处理好的数据序列化后保存到一个文件上(你可以理解成写入一个文件, 不同在于cPickle
和pickle
能够将字典或者列表这样的对象直接写入文件), 然后等你es恢复了, 重新启动该py脚本, 那么该脚本优先去检测是否存在这个临时文件, 如果有, 并非空, 则把里面的数据取出, 写入es