今日も風邪ネタ・・・うーむ、いつまで続く?(^-^; 今日は体中の関節が痛かったでし。うーむ、風邪の諸症状ひとめぐりって感じだにゃ。いい加減ネタ切れだし、そろそろ復帰しそうです。
たまってた「守護月天」のビデオを見る。うーむ・・・離珠と赤い糸・・・いいなぁ(爆)。ってわけで堪能しました、はい(^-^; あ・・・先週の分、テープが切れてて録画されてない(;_;)
ありゃ?ひさびさにりょーさんとこ、トップに回ったらすっかり新しくなってる!? ・・・BBS見てて全然書き込みないな〜と思ってたら、いつの間にか古いのは廃棄処分になってたとはっ!まあ、フレーム内をブックマークするなんて邪道な私がいかんのだがね(^-^; というわけで、りょーさんとこの日記ページを参考にちょっちデザイン変更〜・・・少し見やすくなったかしらん?ん〜・・・毎日タイトルつけたい気もするけど、考えるのめんどくさいしねぇ。
「Pain」の発売日なので八王子へ。まず、前に使ってからポイントカードが見あたらなくなっていたので、店に忘れたかどうか確認しにCDショップへ。しかし、残念ながらポイントカードはありませんでした。……800円分くらい貯まってたのになぁ。そんなわけで、ヒカ碁のOPを買ってもう一度ポイントカードを作ってもらいました。くすん。その後、ゲームを買いにヨドバシへ。無事に確保した後、先日発売されたCLIE PEG T-400/T600Cを見に行きました。残念ながら限定生産の黒いT400はありませんでしたが、それ以外の機種は展示してありました。驚いたのがロイヤルブルーのT600C、発表されたときにWebで見た画像は青緑(Visor Edgeの青いやつな感じ)だったのに実物はすごく綺麗な青でした。……つか、今見ると実物通りの色になってやがる。色が変更されたのかしらん(笑)。何はともあれ、あの色に一発で惚れました。T-400の方もいじってみましたが、こっちもあまりの薄さにびっくりです。Visor Edgeなど目ではないですな。この薄さはすごく素敵ですが、やはりカラーが欲しいよな。むう、4万円か……。しかし、録画テープのデジタル化に向けてDVコンバーターも欲しいのです。迷った結果、Visor DXもあるのでADVC-100の方を購入。3万円なり。PDAの方はしばらくVisor DXで行こう。その他、本を買って帰還。
拡散の様子を追尾していると(自分のところが根元でないからなかなか難しいものがあるんですが)、貧乳同盟にてすごくかっこいいロゴ変更バージョンを発見。そっかー、ゲームのロゴがあったかー(←気がつくのが遅すぎだ)。これに触発されて、僕もロゴをゲームのものに変更してみました。ってことでバージョン4です(笑)。場所は12/10参照。……んー、モノクロにした方がすっきりしててよかったかもなー。
昨日から始めた「ぽぽたん」ですが、やってもやってもコンビニ店長エンドばかり! いろいろ言われている移動システムは、紙に地図さえ書いておけば迷う心配はないのだが、何もない場所でも数回クリックしないと先に進めないのはちとうっとおしい。ついでに、誰がどこにいるのかわからないのでその辺りをリストアップしておかないとまともなゲームにならない感じ。何しろ、イベントを飛ばしても平気でその先のイベントが起こりますからな。絵と音楽は素晴らしいので、その辺りがちと残念。特に背景CGには惚れましたヨ。ホント素敵。
何度かのチャレンジの末、ようやくのことでここあエンドへ。……長かったヨ。
本日の体重は……82.4kgなり。
半年ほど前から機械式時計が欲しいなーと思っていたのですが、初めてボーナスなるものを頂いたのでちと買ってみようかと都心までおでかけ。中身が見えないと楽しくないのでeposの3336あたりがいいかなーと思っていたのですが、新宿ヨドバシカメラの時計館を覗いてみると7万弱と、ほいと買うにはちと高い……。他に何かないかなーと眺めていると、スウォッチのIRONY Diaphane Automatic "OSCILLATION" SVDK-1000を発見。14000円です。おお、自動巻で中が見えて、言うことなしですね! しばらく悩んで結局こっちにしました。んー、チクタクチクタクといい音させてるなぁ。
ただまあ、針が見にくいとか、日付・曜日がわからないとか、機械式なのでクォーツ並みの精度は求めるべくもないとか、わりと欠点まみれなので常用するのはツライかもしれません。ま、しばらく毎日つけてみましょうね。
当初の予定ではeposの腕時計を買う気まんまんだったので少々予算が残ってしまいました。そんなわけで秋葉原でCPUアップグレードカードを買うことに。……Mac OS X 10.3になってからG4 400MHzでもまだまだいけるじゃん?とか思っていたんですがねぇ。秋葉館を覗いてみると、SonnetのCRESCENDO/ST G4 1.2GHzが日本語マニュアル付きで45000円で売っておりました。ちなみに1GHzが4万、800MHzが3万少々でしたか。1.4GHzだと6万まで跳ね上がってしまうので1.2GHzが一番コストパフォーマンスが高そうです。まあ、しばらく悩んで結局1.2GHzカードを買ってしまいました。
家に戻ってさっそく装着。……ヒートシンクの装着でカードぶち壊さないかドキドキでしたが、どうやらきちんと動いているようです。ちゅーか、むちゃくちゃ速いっすよ!? ちと試しにCDをMP3化してみましたが、12倍速なんてこれまで見たこともない数値を見てしまった。普通に使っていると、CPUモニターが振り切るなんてことが全然起こりませんし、なにやら別世界に入り込んでしまった。これでまた2〜3年は戦えそうな感じです。後はビデオカードをRadeonあたりに交換したいですなー。
風邪の余波でせっかく体重が81kgを切っていたのに、またじりじりと増加しつつあったので近所の洞峰公園の温水プールに泳ぎに行ってみました。近所といっても自転車すっ飛ばして30分かかるので、行くだけで結構な運動になりますが。洞峰公園の温水プールは350円で2時間利用できますが、水泳帽必須なので持って行かなかったら買わなきゃいけません。まあ、そもそも水泳帽なんてもう持ってなかったから、この落とし穴はあまり関係ありません。もっと大きな落とし穴は、更衣室のロッカーが利用料100円で戻ってこないってことですな。……プールの使用料、実質450円じゃないですか。
それはさておき、水泳帽と度付きゴーグル(2600円くらいした……結構な散財だ)を買って利用料を払ってプールに侵入。50mプールはでかいっすなー。よくよく考えてみるとマジ水泳するのは中学の水泳部以来な気がするので、20年ぶりくらいなわけですよ。いきなりでちゃんと泳げるかちと不安だったのですが、50mくらいなら平気なもんですな。クロール、平泳ぎ、背泳と50mずつ泳いでみましたが、きっちり泳ぎきれました。幼少時から叩き込まれたモノ(小学生前から中学に入るまではスイミングスクールに通ってたのだ)はそうそう忘れるもんじゃなさそうですネ。……さすがにバタフライは挑戦する気にすらならなかったケド。そんなわけで、50mインターバルで1時間半(25分ごとに5分間強制休憩タイムが入ります)、1.6km泳いで500mウォーキングしてみました。水泳部の頃のスピードは見る影もない。おまけに平泳ぎ以外はすぐに疲れてまともに泳げない。でも、久しぶりの水泳はいい気分でした。このままずっと水の中にいたい気分だ。なにしろ、陸に上がると体が重くって重くって……。
さて、せっかく度付きゴーグルに投資したわけだから、これからも時々水泳しに通ってみますかね。
父が「Cドライブに空きがない」と言ってきたので様子を見てみると、確かに25GBのCドライブが空き500MBになっている。何がそんなに容量食ってるのかと調べていくと、Windowsフォルダが20GBくらい。中をちくちくチェックしていくと、C:\Windows\Installerに18,760KBの同サイズのファイルがごっそり14GBも入っていました。なんじゃこりゃと事例をググってみると、全く同じ現象の記事を発見。うちでも2007年12月から数日置きに遠慮なしにファイルが蓄積されています。どうやら.NET framework 1.1 SP1が延々とアップデートできずにダウンロードだけ繰り返されている模様。リンク先では日本語LPじゃないかって書いてあるけど、日本語LPは1.4MBだし、調べている最中にもIE7と一緒にダウンロードしろとWindows updateが言ってきやがったので。そんなわけで、.NET framework 1.1はいったん削除、1.1→日本語LP→SP1→修正プログラムの順番に入れて、18,760KBのファイルは先ほど入った物を除いて全部ゴミ箱に突っ込んでやりました。……アップデートに失敗したファイルだから勝手に捨てちゃっていいよな? 自動では消えてくれなかったし。でも、「プログラムの追加と削除」見ると.NET framework 1.1、日本語LP、修正プログラムはあるんだけど、SP1がないんだよね……。でもWindows updateからは.NET framework 1.1 SP1は消えてるし。念のため、もう一度最初から入れ直した方がいいかなぁ。
でまあ、ついでなのでその後、Windows XP SP3他たまっていたアップデートをまとめて突っ込んでやりました。
ところで日記を書くので改めて調べてみたら、.NET framework 1.1を全部消さずとも修正プログラムをアンインストールするだけでよかったらしい。ちゃんとさっきの記事にもリンクがあったのにね。
それにしても、1年にもわたって延々とアップデートに失敗し続けていてもそれにユーザーが気がつかないシステムってどうなんだそれは。
本日は予定を変更してクラスター解析なぞやってみようと思います。
クラスター解析とは、データのセットの中から似たもの同士をグループにまとめていく手法、と思ってください。
昨日作成した「とある魔術の禁書目録」のあらすじに登場する名詞のリストを使って、「とある魔術の禁書目録」の各巻を似てるもの同士グループ分けしてみます。
テキストデータの解析には、それぞれのテキストデータにどんな単語がどれだけ登場するかを比較するのが常套手段です。そのために、テキストデータごとにどの単語が何回出てきたかという情報をベクトルで表現します。さらに、特定のテキストデータのみに出現する単語は重要で、全体にまんべんなく出てくる単語は重要でないといったように、単語ごとの重要度に応じて重み付けを行います。これには、TF*IDFという方法がよく用いられます。最後にベクトルの大きさがすべて1になるように正規化を行って、各テキストデータのベクトルの向きが近いもの同士をグループにしていくとテキストデータの分類ができるという寸法です。
では、昨日作った「とある魔術の禁書目録」の各巻のあらすじに登場する名詞のリストから各巻のあらすじの文書ベクトルを作ってみます。使うスクリプトはget_matrix_data.plになります。
perl get_matrix_data.pl toaru.tsv toaru_noun_count2.tsv toaru_noun.tsv > toaru_matrix.txt
今回は入力ファイルを3つも使うので、順番を間違えないようにしてください。最初に大元のデータからISBNコードと書名の対応データを、count_noun_with_sub.plの出力ファイルから名詞とその名詞のサブグループである複合名詞のリストの対応データを、get_noun_list.plの出力ファイルからISBNコードとその本のあらすじでの各名詞の出現回数の対応データをそれぞれ取ってきて、各巻ごとにどの名詞が何回出てきたか(カウント方式は改良型)の行列データtoaru_matrix.txtを出力します。このファイルを見てみると、1行目が名詞の見出し欄になっていて、2行目以降に各巻ごとに見出し欄の名詞があらすじに何回登場したかが表示されているのがわかるかと思います。この2行目以降の数字の羅列がそれぞれの本の文書ベクトルというわけです。なお、全体で1回しか出てこない単語は似た者同士のグループ分けの役には立たないので外してあります。
ここまでで文書ベクトルの組が行列の形でできあがったので、これを元にクラスター解析を行います。クラスター解析のような統計処理にはRという統計解析システムがよく使われます。Rについては公式サイトからダウンロードしてインストールしてみてください。Mac OS XではMacPortsでインストールするのもよいでしょう。
正直、Rについては仕事に使うのでクラスタリングのためのスクリプトをひたすらサンプルスクリプトのコピペで作っただけなので、さっぱり分かってません。まあ、その時作ったclustering.Rを使って先ほどの行列データtoaru_matrix.txtのクラスタリングを行い、その結果を樹形図で表示してみましょう。
R --vanilla -q < clustering.R --args toaru_matrix.txt toaru_dendorogram.pdf
Rのスクリプト実行ってわけわからんよな……。ともかくこれで、クラスタリングの結果がtoaru_dendorogram.pdfというファイルに出力されます。PNGに変換したものはこんな感じです。
この図、右端を根っこ、左端の書名が書いてある部分を葉とすると、なんとなく木のように見えると思います。そのため、この図は樹形図とかデンドログラムとか言われます。この樹形図では、枝分かれの近い葉同士がお互いによく似ている者同士、枝分かれが遠くなるほど両者の違いが大きくなっていく、というように表現されています。
それでは実際に樹形図を見てみましょう。分かりやすいところでは、6巻・8巻は黒子、9巻・10巻は大覇星祭、13巻・16巻は神の右席、15巻・19巻は学園暗部、17巻・18巻は英国、20-22巻はフィアンマさんという感じで近いもの同士は何となくその理由がわかると思います。また、下側の塊(7・13・14・16・17・18・20・21・22巻)はローマ正教が共通キーワードなんだなーとか、その上の塊(3・4・6・8・9・10・12巻)は御坂さん登場回だなーとか、グループ分けの基準がなんとなく見えるんじゃないかと。
こんな感じで、クラスター解析ってものを使うとテキストデータの分類ができますよ、という紹介でした。