Concolic Testってなんだ？

自分が常日頃考えている課題として「組込ソフトウェアのユニットテストを自動化できないか」という課題があるのですが、ここ数日テストの自動化に関する論文やオープンソースの情報を漁ったりして少しですがインプットがたまったので整理の為にアウトプットしておきたいと思います。だらだらと書いてしまった感があるのでまとまりは微妙です。

Concolic Testとは

そもそもConcolicとはなんでしょうか。調べてみるとSymbolicとconcreteを書けた造語のようです。Symbolicというのはシンボリックテスト・シンボリック実行のことで、動的テスト手法の１つです。
そもそも私はシンボリック実行を知りませんでしたので以下の3サイトの情報を参考にさせて頂きました。

はじめてのコンコリックテスト
http://jasst.jp/symposium/jasst15tokai/pdf/S4-1.pdf

ntddk.github.io

www.kzsuzuki.com

参考にさせて頂きまして、ありがとうございます！

さて、シンボリック実行についてですが、シンボリック実行では実際に実効対象のコードが実行されるわけではありません。SATソルバが制約条件を満たす値を求める計算が行われるだけです。*1

かいつまんでの私の理解ですが、シンボリック実行が抱える課題として、シンボルだけでは経路を求める計算が発散してしまい実用的でないという課題があるようです。
そこで登場したのが入力値に具体的な値を入れてみるという手法でシンボリック実行と組み合わせるといい感じになるということで

Symbolic + concrete = concolic

ということでConcolic Testという手法が出てきたそうです。

テストは金がかかる

そもそも自分がなんでconcolinic testに関心を持ったかというと、テストは面倒で時間がかかるからでした。時間がかかる＝金がかかるということでもあります。
組み込みの製品開発におけるテスト工程にはとても時間がかかります。組み込みソフトウェア開発での単体テストの場合、実機で動かすことが求められ、オシロ・ロジアナといった測定機器を使用してハードウェアレベルでの確認が必要な場合もあります。通信の場合はWireShark等を使ってパケットの確認なんかも必要です。

実機で動かす都合上、テストの自動化がとても難しく、他のソフト開発と違って回帰テストは容易に実施できません。

またカバレッジは基本的にC2カバレッジを満たすことが求められるので呼び出し側のコードを書くのにも多少頭を使う必要があります。
実行はともかくとしてC2カバレッジを満たすテストコードを書くというのは関数内に存在する条件分岐などの制約(constraint)に従って書くわけですが、ちょっと面倒なパズルみたいなものでこれはソルバーでも解ける問題です。ということで自動化ツールを探していていました。なかなか情報が見つからないので自分で作ってしまいたいと思っていました。

論文・参考記事等

情報収集にあたって読んだ論文などの一覧をここに残しておきたいと思います。

CUTEというConcolic Test Toolに関する論文

http://mir.cs.illinois.edu/marinov/publications/SenETAL05CUTE.pdf

CUTEというC言語向けConcolic Testツールに関する論文です。Concolic Testで検索すると上位に出てきました。
論文の概要ですが、

CUTEというツールを使ってSGLIBという汎用的なデータ構造を提供してくれるライブラリをテストしてみた結果...

という感じでしょうか。もちろんconcolic testのアプローチの手法についてきちんと述べられています。ただしCUTEのソースコードはどうも非公開のようです。

詳細は詳しく読んでいないところもありますが、

有限の深さ優先探索でシンボリック実行を行い、必要に応じて具体値を代入するアプローチをとった。
この検証作業によってSGLIBのバグを2件検出した(うち1件は割と深刻なバグだった)
テストデータの動的な作成・削除の有効な方法をしめすことができた
Java版もつくって並行して試してる
暗号プロトコルや脆弱性に対して代数的なアプローチで攻撃を行うソフトについても調べてる

論文中で面白かったのはC言語だとポインタ型を引数に取ることがしばしばありますが*2ポインタ引数をテストする手法は既に先行事例が存在していてCUTEではそれらの事例を参考に実装したそうです。

私もRubyでC言語のテストコードの生成ツールを書いていた時期があったのですがポインタ型はどうすればいいのかで躓きました。*3

はじめてのコンクリックテスト

http://jasst.jp/symposium/jasst15tokai/pdf/S4-1.pdf

CRESTの活用事例

http://sea.jp/ss2015/paper/ss2015_C1-4(2).pdf

この論文は株式会社デンソーの方が発表された論文です。実際に社内でCRESTを活用された事例を紹介されています。2015年に発表されたようですのでもう3年も前です...
「7.おわりに」でテストケースの作成作業の効率化にCRESTが活かせた旨が記載されています。変数のサイズによってテストケースの生成時間が長くなることが課題として挙げられています。*4

http://debugeng.com/concolic%20testing.pdf

C言語で使えるConclonic Test Tool

CREST

ユニットテストのコードを自動生成してくれる(Conclonic Test)
http://www.burn.im/crest/

CUTEと違ってこちらは公開されています。まだ試していません...

CS453 Automated Software Testing

KAISTの先生のテスト自動化に関する講義資料です。
http://swtv.kaist.ac.kr/courses/cs453-fall14/

LLVM/Clangを使ってカバレッジツールを作ったりする宿題があるみたいで面白そうです。
ちょっと前ですが、私もこちらで紹介されている内容を参考に、Clangのライブラリを使ってC言語のASTを拾うサンプルを書いてみました。
Clangは直交性の高いクラス設計を意識しているのか、ASTだけでたくさんクラスが切られていて出力内容を理解しきれずに挫折しています・・・*5

github.com

感想

ソフトウェア工学の強さと現場への浸透

少しですが論文とかGithubとか見た感じではシステム工学・ソフトウェア工学の分野でもやはりアメリカの大学が強そう。日本の大学でも研究している研究室はあるのかも知れないけど、開発の現場までそれがリーチしているという感覚は少なくとも自分の知っている範囲ではあまりない。

[追記]
ICSE勉強会なる勉強会が開催されていることを知りました。面白難しそう。concolic testも取り上げられているようなので日本でも研究している方はそれなりにいらっしゃるようです。

アメリカ人はなんでもシステマチックに問題を解決しがちで、日本人は職人魂に頼りがちというかそういうイメージがある。計算機が普及した時代にどちらが有利なのかはいうまでもない気がする。

計算機でも意外と簡単に解けない問題があって、現実な解決策としてどう落とし込んでいくかを考えるというのは好きな分野かもしれない。

日本はモノ作りの国とか言われるけど、膨大な時間がかかる作業を人手に頼るというのは女工哀史とか蟹工船的なイメージがあるのでどうかと思う...

計算機にも人権があるみたいな考え方をした場合、自動化は道徳的に悪になると思うけど「何を大切にしたいか」という問いへの答えがアプローチの分かれ目になっていると思う。

自動化や工学的アプローチをどれくらいリスペクトするかというのは「どれくらい、人間もしくは人間の時間をリスペクトするか？」と相関しているのではないだろうか...

何をassertするか

先日のkernelvm関西のときに

テストコードの生成というのは現実的なレベルで実現できるけど、じゃあ自動でコードをテストするときにどこにassertを入れるかというのは計算機では解決できない

という話を聞いた。

それはその通りで「仕様」というのは計算機が決めるものではないので仕方がない気がする。「仕様」まで計算機が想定してくれるというのはパターンマッチのようなことをすればできるようになるかもしれないけど精度は期待できない気がする。

組み込みソフト開発現場ではデンソーの事例にもあったようにテストコードの生成が自動化されるだけでもめちゃめちゃ効率があがる。というのもC2カバレッジを狙ってテストコードを書くというのはコードを書いた本人でも頭を使って考える必要がある。テストケースを考えはじめると異常系とかの入力なんかは基本的にはなんでもいいのについつい現実的なケースを考えてしまったりする。要するに頭が勝手に動いて疲れる。テストコード考えて書くのはやはり面倒だ。何をassertするかは計算機が判断できなくても構わない。むしろ自動で出来上がったカバレッジの結果を解釈して意味を見出していくというのが人間の仕事なんだと思う。

開発プロセスに関して現在では、コードレビュー→単体テストという流れが一般的だが、テストコードの生成が自動化され、テストの実行コストが下がれば、単体テスト→コードレビューという順番での開発も可能になる気がする。そうなるとレビューする観点も変わって面白いんじゃないだろうか。*6

動的なテストの研究の歴史は浅い

論文や論文中の参考文献の発表時期を見てもテストの自動化に関する研究はまだまだ浅いように感じた。2000年代の論文はテスト手法に関する論文が多いようなので、静的解析によるテストが研究されていた時期かもしれない。動的テスト手法に関する論文が出てきたのは2000年半ば～2010年代にかけてっぽい。違ってたらすいません。

[追記]
書き終わった後でさらにネット漁ってたらこちらの記事に「シンボリック実行は1970年代から広く知られている」と書かれていました。そうなのか・・・ごめんなさい、まぁ産まれてなかったということで許してください(涙)

d.hatena.ne.jp

話はそれるけど、仕事でcoverityのテストツールを使わして貰ったことがあって、非常に便利で出来の良いテストツールだった。*7

あのcoverity社は設立されたのが2009年11月とのことなのでまだ10年にも満たないのですね。coverityはスタンフォード大学のテストに関する研究からスタートしたそう。
スタンフォードは特にそういう印象があるけど、アメリカの大学のこういった研究をビジネスにして成功していく実学的なスタイルは好き。

日本人もアメリカ人のこういった気質はもう少し見習ってもよいようにも思うけどあまりそういう事例を聞かないのはなぜでしょうか。

まぁ答えはある程度分かってはいるのですが、せめてもう少し一般の人や企業の経営者がテクノロジーに対するリスペクトと好奇心を持つようになってもいいのではないかと思う。