11.arffファイルをExcelで編集するときに注意すること
《arffファイルにSVMやSVR用の目的変数の値を追加したい》
インスタンス(事例データ)を追加するのは最後に1行追加すればいいだけなんだけど,全てのインスタンスの最後に変数値を足していくのはテキストエディタでは大変.
《対応》
Excelで「ファイルを開く」でarffファイルを選択する.しかし普通にやってもファイル選択の時にarffファイルは表示されないので,右下のドロップダウンメニューの「すべてのExcelファイル」→「すべてのファイル」に変更する必要がある.
arffファイルを選択してもExcelファイルじゃないので「テキストファイルウィザード」というウィンドウが開く.そこで,区切り文字について指定する.
- 元のデータの形式→カンマやタブなどの区切り文字によってフィールドごとに区切られたデータ
- 「次へ」をクリック
- 区切り文字に「カンマ」を追加
- 完了
これで新しい変数値を追加,編集する作業がしやすくなる.
ただし,新しい変数を追加したときは,実データが並ぶ@dataの行の前の変数一覧に追加した変数の定義を追加する必要がある.
例:@attribute newclass numeric
@attributeの詳しい書式については"arff datatypes"などで検索してみてください.
tetsu様のわかり易い解説記事はこちら.
《注意》
Excelのセルに"@attribute newclass numeric"のような文字列を入力しようとすると,エラーになることがある.あるいはエラーにならなくても,先頭に勝手に「'」の文字が入ってしまうことがある.
もしwekaでarffファイルを読み込んで以下のようなエラーが出たら,
Reason:
Unable to determine structure as arff (Reason: java.io.IOException: keyword @data expected, read Token[@attribute class {Iris-setosa,Iris-versicolor,Iris-verginica}], line ????).
Excelではなくテキストエディタでファイルを開いて,余計な文字が入れられていないか確認することをお勧めします.