jepsen是一个分布式测试库,我们可以使用它对某个分布式系统执行一系列操作,并最终验证这些操作是否正确执行。
jepsen已经成功验证了很多分布式系统,我们可以在它的源码里面看到相关系统的测试代码,包括mysql-cluster,zookeeper,elasticsearch等。
为什么要研究jepsen,主要在于我们需要进行分布式数据库tidb的测试,自己写一套分布式测试框架难度比较大,并且还不能保证在分布式环境下面自身测试框架是不是对的,于是使用一个现成的,经过验证的测试框架就是现阶段最好的选择了,于是我们就发现了jepsen。
jepsen是使用clojure进行开发的,所以这也就是为什么我要学习clojure的原因,不过比较郁闷的是,学了几天,还是没有看懂太多的代码,只能慢慢不断摸索了。
Design
一个Jepsen的测试通过会在一个control node上面运行相关的clojure程序,control node会使用ssh登陆到相关的系统node(jepsen叫做db node)进行一些测试操作。
当我们的分布式系统启动起来之后,control node会启动很多进程,每一个进程都能使用特定的client访问到该分布式系统。一个generator为每一个进程生成一系列的操作,让其执行。每一个操作都会被记录到history里面。在执行操作的同时,另一个nemesis进程会尝试去破坏这个分布式系统,譬如使用iptable断开网络连接等。
最后,当所有操作执行完毕之后,jepsen会使用一个checker来分析验证history并且生成相关的报表。
从上面可以看出,jepsen的设计原理其实很简单,就是对分布式系统执行一系列操作,并且同时不停的破坏系统,最后通过验证操作的结果来检验整个分布式系统的健壮性。
Install
Jepsen的安装使用不是一件很容易的事情,因为它需要一个control node,五个db node来测试,幸运的是,我们有docker,现在docker支持了docker in docker技术,所以我们可以很方便的使用一个docker来运行五个docker。
Jepsen已经提供了相关的docker image,我们可以直接使用:
docker run --privileged -t -i tjake/jepsen
但有时候我们需要测试自己的case,所以需要提供volumn的支持,于是我稍微修改了一下,使用了一个定制的docker:
FROM tjake/jepsen
RUN mkdir /jepsen_dev
VOLUME /jepsen_dev
ADD ./bashrc /root/.bashrc
在启动的时候,我们可以将自己的test case mount到docker里面,便于使用,使用docker build构建:
docker build -t jepsen_dev .
Example test
构建好jepsen的docker环境之后,我们就可以编写简单地测试了,参考它的文档,我们建立一个meowdb的工程,使用jepsen 0.0.6版本,然后在meowdb_test.clj里面写上如下代码:
(ns jepsen.meowdb-test
(:require [clojure.test :refer :all]
[jepsen.core :refer [run!]]
[jepsen.meowdb :as meowdb]))
(def version
"What meowdb version should we test?"
"1.2.3")
(deftest basic-test
(is (:valid? (:results (run! (meowdb/basic-test version))))))
然后在meowdb.clj里面:
(ns jepsen.meowdb
"Tests for MeowDB"
(:require [clojure.tools.logging :refer :all]
[clojure.core.reducers :as r]
[clojure.java.io :as io]
[clojure.string :as str]
[clojure.pprint :refer [pprint]]
[knossos.op :as op]
[jepsen [client :as client]
[core :as jepsen]
[db :as db]
[tests :as tests]
[control :as c :refer [|]]
[checker :as checker]
[nemesis :as nemesis]
[generator :as gen]
[util :refer [timeout meh]]]
[jepsen.control.util :as cu]
[jepsen.control.net :as cn]
[jepsen.os.debian :as debian]))
(defn basic-test
"A simple test of MeowDB's safety."
[version]
tests/noop-test)
我们启动docker:
docker run --privileged -t -i -v meowdb:/jepsen_dev --name jepsen jepsen_dev
然后执行lein test
,如果没有啥意外,我们会输出如下类似的结果:
INFO jepsen.store - Wrote /jepsen_dev/meowdb/store/noop/20151211T094940.000Z/history.txt
INFO jepsen.store - Wrote /jepsen_dev/meowdb/store/noop/20151211T094940.000Z/results.edn
INFO jepsen.core - Everything looks good! ヽ(‘ー`)ノ
{:valid? true,
:linearizable-prefix [],
:worlds ({:model {}, :fixed [], :pending #{}, :index 0})}
Ran 1 tests containing 1 assertions.
0 failures, 0 errors.
这里仅仅是对jepsen的一个简单介绍,后续我还需要仔细研究,争取早日能用到tidb上面。