さてさて『Re・leaf』ですが、どうやらイベントの順序が前後したり、おそらくは事前に起こっているべきイベントが起こらないまま次のイベントが起こるために話がわけわかめになっているような気がします。適切な選択をしていれば、一応話のつじつまがあうような(笑)。・・・ダメじゃん。とりあえず、終業式は鬼モードで行きましょうね(笑)。あ、画面のブラックアウト云々は結構長時間連続してやっても起こりませんです。こっちはたぶん、パソコンの構成によるんでしょうね。構成といえば、やたらと誤変換が目立つんですが、ちゃんと校正してますか?非常に頭の悪げな間違いが多くて情けないです(笑)。まあ、ここで文句垂れても、制作者の目に触れるわけないので意味なしですな。
初月給頂いたってことで、ついに買っちまいましたよ!<Roland SC88Pro 正確にはミュージ郎88Proですが。まあ、差額3000円だったのでケーブル代を考えれば単体で買うよりずっとお得だったのではないかと。88Proといえば憧れの黒い箱、されど高嶺の花な音源ですが、生産終了によってかなりお手頃な値段になってますねぇ。買うなら今ですぞ? ちなみに町田の各パソコンショップでは単体価格39800円也〜。・・・八王子のヨドバシで売ってれば交通費もかからないし、ポイントも貯まったのにっ。それにしても、一応上位な音源であるところの8820って、軽いしナリが安っぽいし、全然まったく魅力を感じませんです、はい。問題は性能ではないって事ですな(をい)。あの重さ、あの高級感・・・素敵です(笑)。・・・でも、家まで持って帰るのがものすごく大変だったのは内緒。
家に戻ってさっそくセットアップ。うぐぅ、置き場所がない・・・のでパソコンラックの上をちと片づけて設置。次は電源・・・これも空きがない(涙)。しかたないのでパソコン関係の電源を取ってるタップからさらに延びている延長タップにもひとつ延長タップをつけてようやく電源確保。電源回りもそのうちなんとかせねばねぇ・・・。んでもってMacにドライバのインストール。再起動して動作チェック! ・・・・・・音が鳴らねぇ。うぐぅ・・・スピーカーにケーブルは繋いでるし、音源の設定もちゃんとMacにあわせたし、シリアルケーブルも繋がってるし?? 結局何回か再起動かましてるうちにいつのまにか動くようになりました。 ・・・なんで? まあ、とにかく音が出るようになったのでさっそくMIDIファイルの演奏! ・・・すげぇ!すげぇよ父さん(違う)!! いやぁ、買って良かったですねぃ。とりあえず色々演奏して88Proの力を堪能♪ んでもってRolandのサイトからWin95用のドライバも落としてインストール。んでもってきゅっぱちでも使えるように設定。うおっ!なんだか曲とは全然関係ない音が鳴ってる?? ・・・どうやら音源の設定はPC-2でないとちゃんと鳴らない模様。まあ、Win95からも鳴らせるようになったので、これでゲームでもばっちぐーなBGMが堪能できますなっ。ただ、問題点がひとつ・・・。DOSゲーでMIDI鳴らすにはどうするですか? 全然うんともすんとも言ってくれません(^-^;
まあ、そんなこんなで一日早いクリスマスプレゼントってことで大満足なお買いものでした。
ところで星野さんの自作機組立は難航中の模様。
昨日受け取り損ねた「SF」は、何事もなくお昼頃に受け取れました。本自体は電撃hpと同じ大きさなのに、やたらとでかいパッケージに入っていてびっくーり。「SF」は全ページイラストに文章がちょいちょいと乗っかっているイラストノベルという形態で、文章だけ読むとさっくり終わってしまいそうです。ま、絵を楽しみつつ文章を読むってことで。電撃hpはまったく読んでいないので、読むのが楽しみです。
2周目、リリスエンドをクリア。前半でかけらを全部集めず、後半で回避可能なえちシーンは全て回避・ちびリリス回収の選択肢を正しく選べばよいらしい。やはー、リリスたんがすんげー可愛かったデス。いいなぁ、下町ラブラブエンド(笑)。
萌え萌えアニメ日記のアニメ新番組表から必要なところだけ抜き出し。新番組は5本で、半分以上は継続ですな。「Witch Hunter ロビン」の枠がなくなるけど、その代わり「魔法遣いに大切なこと」が始まるので1週間当たりの本数は変わらず。……どうして火曜日・水曜日はこんなに混み合いますか? 何も同じ時間にかぶせることないだろうに。
ちなみに来年一発目のキディ・グレイドは1時間なので注意だ!
本日の体重は……82.5kgなり。
今回のお話は、12/13、12/14、12/16、12/18の続きになっています。そんなわけで、今度は2000年から2009年までの電撃文庫をあらすじに出てくる名詞で分類してみる。
まず、2000-2009年の電撃文庫でアマゾンにあらすじが登録されていなかった本が107冊あったので、アスキー・メディアワークスの雑誌・書籍検索からデータを取ってくる。ここの書籍検索はISBNで検索した後さらに独自設定のキーで個別のページに移動しないとデータに辿り着けないので、アマゾンよりはちょっと面倒。取ってくるスクリプトはget_mw_data.plになります。アマゾンから取ってくるスクリプトと基本的に同じなので、12/13の記事を読んでください。まずはアマゾンから取ってきて、12/16の記事にあるようにあらすじの取れたデータと取れなかったデータに分割して、あらすじの取れなかったデータのファイルを入力ファイルとしてメディアワークスからデータを取ってきます。アマゾンから取ってきた後で使うことを前提に作ってあるので、ラノベの杜のファイルにそのまま使うとあらすじの前にタブが入らないことに注意。
$ grep '^200' dengeki-bunko.utf-8.tsv | grep -v '^2009' > dengeki_2000-2008.tsv $ perl get_amazon_data.pl dengeki_2000-2008.tsv > dengeki_2000-2008_arasuji.tsv $ cat dengeki_2000-2008_arasuji.tsv dengeki_2009_arasuji.tsv > dengeki_2000-2009_arasuji.tsv $ perl -e 'while(<>){chomp;$line=$_;@data=split /\t/,$line;print "$line\n" if $data[10];}' dengeki_2000-2009_arasuji.tsv > dengeki_2000-2009_arasuji2.tsv $ perl -e 'while(<>){chomp;$line=$_;@data=split /\t/,$line;print "$line\n" unless $data[10];}' dengeki_2000-2009_arasuji.tsv > dengeki_2000-2009_arasuji_no_data.tsv $ perl get_mw_data.pl dengeki_2000-2009_arasuji_no_data.tsv > dengeki_2000-2009_arasuji_add.tsv $ perl -e 'while(<>){chomp;$line=$_;@data=split /\t/,$line;print "$line\n" if $data[10];}' dengeki_2000-2009_arasuji_add.tsv > dengeki_2000-2009_arasuji_add2.tsv $ perl -e 'while(<>){chomp;$line=$_;@data=split /\t/,$line;print "$line\n" unless $data[10];}' dengeki_2000-2009_arasuji_add.tsv > dengeki_2000-2009_arasuji_no_data2.tsv $ cat dengeki_2000-2009_arasuji2.tsv dengeki_2000-2009_arasuji_add2.tsv > dengeki_2000-2009_arasuji3.tsv
……さすがに長くてわけわからなくなりそうなので、頭にコマンドプロンプト付けてみた。これで、アマゾンかメディアワークスであらすじの取れたdengeki_2000-2009_arasuji3.tsvとあらすじの取れなかったdengeki_2000-2009_arasuji_no_data2.tsvができます。ちなみにメディアワークスで探しても37冊についてはあらすじが取れませんでした。絶版になるとデータ自体が消されちゃうみたいですねー。
この後は名詞リストを取り出すとこまでは前回と同じ。
$ perl split_sentence.pl dengeki_2000-2009_arasuji3.tsv > dengeki_2000-2009_sentence.tsv $ perl get_noun_list.pl dengeki_2000-2009_sentence.tsv > dengeki_2000-2009_noun.tsv $ perl count_noun_with_sub.pl dengeki_2000-2009_noun.tsv > dengeki_2000-2009_noun_count.tsv
クラスタリングに使う行列データを出力する時に、前回は全体で1回しか出てこない単語は単独のシリーズでしか出てこないからということでカットしましたが、今回はもっと積極的に単一のシリーズにしか出てこない単語はすべてカットすることにします。そしてもうひとつ、シリーズ中のそれぞれの本が発売された年をキーワードとしてカウントすることにします。例えばあるシリーズで2008年に2冊、2009年に1冊本が出たとすると、そのシリーズの単語リストに2008年が2、2009年が1と入るわけです。まあ、そもそも当初のネタが「ライトノベルのあらすじからトレンドを知ることができるか」だったので、ちょっとはその努力をしてみようってことで。スクリプトはget_matrix_by_series_year3.plになります。
$ perl get_matrix_by_series_year3.pl dengeki_2000-2009_arasuji3.tsv dengeki_series.tsv dengeki_2000-2009_noun_count.tsv dengeki_2000-2009_noun.tsv 1 > dengeki_2000-2009_series_matrix.txt $ R --vanilla -q < clustering_no_tfidf.R --args dengeki_2000-2009_series_matrix.txt dengeki_2000-2009_series_dendrogram.pdf 1 0.1 10 subcluster.txt result.txt $ perl count_subcluster_word.pl subcluster.txt dengeki_2000-2009_series_matrix.txt > dengeki_2000-2009_subcluster_word_count.txt
下のような樹形図になりました。PDF版はこちら。……データ多すぎて見難いなーこりゃ。サブクラスターとシリーズ名の対応はsubcluster_list.txt、サブクラスターごとの単語のカウント結果はdengeki_2000-2009_series_subcluster_word_count.txtになります。
大まかに見ると、赤, 橙, 黄+黄緑+緑+水色, 青+藍+紫+赤紫の4グループになっています。
これがサブクラスターごとの単語カウントの主立ったところを抜き出したもの。……いい加減疲れたので色付けは勘弁な。起きたら気力が戻ったので塗ってやった!
単語 | 5(赤) | 7(橙) | 9(黄) | 6(黄緑) | 2(緑) | 3(水色) | 10(青) | 1(藍) | 8(紫) | 4(赤紫) | 合計 | ||||||||||
人 | 332 | 4.9 | 14 | 0.9 | 45 | 2.1 | 9 | 0.6 | 97 | 1.6 | 120 | 0.9 | 13 | 1.1 | 6 | 1.1 | 14 | 0.7 | 119 | 1.3 | 769 |
少女 | 103 | 1.5 | 14 | 0.9 | 19 | 0.9 | 3 | 0.2 | 67 | 1.1 | 41 | 0.3 | 7 | 0.6 | 2 | 0.3 | 84 | 4.2 | 55 | 0.6 | 395 |
彼女 | 74 | 1.1 | 26 | 1.6 | 14 | 0.7 | 5 | 0.4 | 31 | 0.5 | 44 | 0.3 | 27 | 2.3 | 3 | 0.5 | 12 | 0.6 | 145 | 1.6 | 381 |
世界 | 61 | 0.9 | 126 | 7.9 | 10 | 0.5 | 2 | 0.1 | 26 | 0.4 | 86 | 0.6 | 8 | 0.7 | 0 | 0.0 | 8 | 0.4 | 35 | 0.4 | 362 |
二 | 139 | 2.0 | 7 | 0.4 | 18 | 0.9 | 6 | 0.4 | 32 | 0.5 | 50 | 0.4 | 4 | 0.3 | 0 | 0.0 | 7 | 0.4 | 78 | 0.8 | 341 |
たち | 63 | 0.9 | 13 | 0.8 | 10 | 0.5 | 3 | 0.2 | 30 | 0.5 | 83 | 0.6 | 11 | 0.9 | 1 | 0.2 | 11 | 0.6 | 91 | 1.0 | 316 |
それ | 63 | 0.9 | 13 | 0.8 | 19 | 0.9 | 6 | 0.4 | 54 | 0.9 | 54 | 0.4 | 11 | 0.9 | 0 | 0.0 | 14 | 0.7 | 79 | 0.8 | 313 |
一 | 109 | 1.6 | 9 | 0.6 | 16 | 0.8 | 1 | 0.1 | 29 | 0.5 | 46 | 0.3 | 7 | 0.6 | 2 | 0.3 | 3 | 0.2 | 55 | 0.6 | 277 |
二 人 | 124 | 1.8 | 4 | 0.3 | 15 | 0.7 | 4 | 0.3 | 17 | 0.3 | 23 | 0.2 | 2 | 0.2 | 0 | 0.0 | 6 | 0.3 | 41 | 0.4 | 236 |
謎 | 46 | 0.7 | 17 | 1.1 | 14 | 0.7 | 5 | 0.4 | 22 | 0.4 | 77 | 0.6 | 8 | 0.7 | 1 | 0.2 | 2 | 0.1 | 33 | 0.4 | 225 |
前 | 55 | 0.8 | 9 | 0.6 | 19 | 0.9 | 4 | 0.3 | 26 | 0.4 | 53 | 0.4 | 6 | 0.5 | 1 | 0.2 | 6 | 0.3 | 40 | 0.4 | 219 |
彼 | 44 | 0.6 | 7 | 0.4 | 9 | 0.4 | 0 | 0.0 | 57 | 0.9 | 46 | 0.3 | 3 | 0.3 | 0 | 0.0 | 3 | 0.2 | 41 | 0.4 | 210 |
登場 | 39 | 0.6 | 4 | 0.3 | 17 | 0.8 | 2 | 0.1 | 27 | 0.4 | 77 | 0.6 | 11 | 0.9 | 2 | 0.3 | 2 | 0.1 | 29 | 0.3 | 210 |
事件 | 46 | 0.7 | 3 | 0.2 | 8 | 0.4 | 30 | 2.1 | 27 | 0.4 | 44 | 0.3 | 11 | 0.9 | 0 | 0.0 | 4 | 0.2 | 34 | 0.4 | 207 |
シリーズ | 58 | 0.9 | 9 | 0.6 | 26 | 1.2 | 2 | 0.1 | 10 | 0.2 | 69 | 0.5 | 6 | 0.5 | 1 | 0.2 | 3 | 0.2 | 17 | 0.2 | 201 |
物語 | 23 | 0.3 | 10 | 0.6 | 5 | 0.2 | 2 | 0.1 | 55 | 0.9 | 32 | 0.2 | 6 | 0.5 | 0 | 0.0 | 17 | 0.9 | 29 | 0.3 | 179 |
そこ | 48 | 0.7 | 6 | 0.4 | 13 | 0.6 | 1 | 0.1 | 24 | 0.4 | 40 | 0.3 | 9 | 0.8 | 0 | 0.0 | 7 | 0.4 | 20 | 0.2 | 168 |
彼ら | 25 | 0.4 | 10 | 0.6 | 22 | 1.0 | 1 | 0.1 | 33 | 0.5 | 38 | 0.3 | 1 | 0.1 | 0 | 0.0 | 8 | 0.4 | 13 | 0.1 | 151 |
電撃 | 21 | 0.3 | 3 | 0.2 | 53 | 2.5 | 0 | 0.0 | 17 | 0.3 | 29 | 0.2 | 6 | 0.5 | 1 | 0.2 | 2 | 0.1 | 17 | 0.2 | 149 |
僕 | 7 | 0.1 | 1 | 0.1 | 2 | 0.1 | 4 | 0.3 | 3 | 0.0 | 8 | 0.1 | 92 | 7.7 | 0 | 0.0 | 5 | 0.3 | 27 | 0.3 | 149 |
力 | 37 | 0.5 | 5 | 0.3 | 19 | 0.9 | 7 | 0.5 | 16 | 0.3 | 26 | 0.2 | 1 | 0.1 | 0 | 0.0 | 2 | 0.1 | 26 | 0.3 | 139 |
一 人 | 79 | 1.2 | 3 | 0.2 | 7 | 0.3 | 0 | 0.0 | 10 | 0.2 | 12 | 0.1 | 3 | 0.3 | 2 | 0.3 | 1 | 0.1 | 17 | 0.2 | 134 |
小説 | 15 | 0.2 | 2 | 0.1 | 49 | 2.3 | 0 | 0.0 | 9 | 0.1 | 35 | 0.3 | 6 | 0.5 | 3 | 0.5 | 1 | 0.1 | 5 | 0.1 | 125 |
ゲーム | 12 | 0.2 | 0 | 0.0 | 27 | 1.3 | 1 | 0.1 | 11 | 0.2 | 47 | 0.3 | 2 | 0.2 | 0 | 0.0 | 1 | 0.1 | 12 | 0.1 | 113 |
大賞 | 14 | 0.2 | 3 | 0.2 | 55 | 2.6 | 0 | 0.0 | 11 | 0.2 | 6 | 0.0 | 12 | 1.0 | 1 | 0.2 | 1 | 0.1 | 5 | 0.1 | 108 |
受賞 | 12 | 0.2 | 3 | 0.2 | 48 | 2.3 | 0 | 0.0 | 10 | 0.2 | 7 | 0.1 | 6 | 0.5 | 1 | 0.2 | 1 | 0.1 | 3 | 0.0 | 91 |
神 | 10 | 0.1 | 6 | 0.4 | 5 | 0.2 | 1 | 0.1 | 50 | 0.8 | 7 | 0.1 | 1 | 0.1 | 0 | 0.0 | 0 | 0.0 | 5 | 0.1 | 85 |
過去 | 11 | 0.2 | 12 | 0.8 | 7 | 0.3 | 2 | 0.1 | 15 | 0.2 | 20 | 0.1 | 4 | 0.3 | 0 | 0.0 | 2 | 0.1 | 10 | 0.1 | 83 |
学校 | 14 | 0.2 | 3 | 0.2 | 2 | 0.1 | 1 | 0.1 | 11 | 0.2 | 12 | 0.1 | 11 | 0.9 | 0 | 0.0 | 3 | 0.2 | 24 | 0.3 | 81 |
俺 | 0 | 0.0 | 0 | 0.0 | 1 | 0.0 | 0 | 0.0 | 3 | 0.0 | 7 | 0.1 | 0 | 0.0 | 39 | 6.5 | 0 | 0.0 | 28 | 0.3 | 78 |
妹 | 8 | 0.1 | 2 | 0.1 | 1 | 0.0 | 0 | 0.0 | 11 | 0.2 | 16 | 0.1 | 6 | 0.5 | 8 | 1.3 | 1 | 0.1 | 11 | 0.1 | 64 |
危機 | 8 | 0.1 | 16 | 1.0 | 2 | 0.1 | 0 | 0.0 | 7 | 0.1 | 19 | 0.1 | 1 | 0.1 | 0 | 0.0 | 0 | 0.0 | 9 | 0.1 | 62 |
第 4 | 20 | 0.3 | 1 | 0.1 | 16 | 0.8 | 0 | 0.0 | 4 | 0.1 | 8 | 0.1 | 3 | 0.3 | 0 | 0.0 | 0 | 0.0 | 9 | 0.1 | 61 |
受賞 作 | 9 | 0.1 | 3 | 0.2 | 26 | 1.2 | 0 | 0.0 | 3 | 0.0 | 3 | 0.0 | 5 | 0.4 | 1 | 0.2 | 0 | 0.0 | 2 | 0.0 | 52 |
金賞 | 9 | 0.1 | 2 | 0.1 | 22 | 1.0 | 0 | 0.0 | 2 | 0.0 | 7 | 0.1 | 1 | 0.1 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 43 |
G | 0 | 0.0 | 41 | 2.6 | 0 | 0.0 | 0 | 0.0 | 1 | 0.0 | 1 | 0.0 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 43 |
ぼく | 15 | 0.2 | 17 | 1.1 | 0 | 0.0 | 0 | 0.0 | 1 | 0.0 | 0 | 0.0 | 4 | 0.3 | 0 | 0.0 | 0 | 0.0 | 5 | 0.1 | 42 |
異 | 9 | 0.1 | 13 | 0.8 | 5 | 0.2 | 0 | 0.0 | 0 | 0.0 | 9 | 0.1 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 6 | 0.1 | 42 |
殺人 | 4 | 0.1 | 0 | 0.0 | 1 | 0.0 | 13 | 0.9 | 11 | 0.2 | 0 | 0.0 | 3 | 0.3 | 0 | 0.0 | 0 | 0.0 | 3 | 0.0 | 35 |
ー | 1 | 0.0 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 1 | 0.0 | 3 | 0.0 | 9 | 0.8 | 0 | 0.0 | 0 | 0.0 | 21 | 0.2 | 35 |
死神 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 3 | 0.0 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 22 | 1.1 | 7 | 0.1 | 32 |
座敷 童 | 4 | 0.1 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 14 | 1.2 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 18 |
異 世界 | 1 | 0.0 | 12 | 0.8 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 3 | 0.0 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 2 | 0.0 | 18 |
殺人 事件 | 2 | 0.0 | 0 | 0.0 | 0 | 0.0 | 11 | 0.8 | 2 | 0.0 | 0 | 0.0 | 1 | 0.1 | 0 | 0.0 | 0 | 0.0 | 1 | 0.0 | 17 |
僕ら | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 1 | 0.0 | 11 | 0.9 | 0 | 0.0 | 0 | 0.0 | 0 | 0.0 | 12 |
こちらは単語リストに追加した発売年を抜き出したもの。
発売年 | 赤 | 橙 | 黄 | 黄緑 | 緑 | 水色 | 青 | 藍 | 紫 | 赤紫 | 合計 |
2000年 | 10 | 1 | 14 | 0 | 9 | 54 | 1 | 1 | 0 | 7 | 97 |
2001年 | 19 | 2 | 10 | 4 | 8 | 58 | 0 | 0 | 3 | 9 | 113 |
2002年 | 31 | 4 | 8 | 0 | 15 | 50 | 0 | 0 | 2 | 3 | 113 |
2003年 | 36 | 8 | 9 | 1 | 18 | 40 | 4 | 0 | 6 | 9 | 131 |
2004年 | 45 | 4 | 7 | 1 | 28 | 36 | 3 | 0 | 6 | 12 | 142 |
2005年 | 46 | 10 | 4 | 5 | 32 | 29 | 7 | 0 | 4 | 23 | 160 |
2006年 | 35 | 4 | 12 | 5 | 23 | 33 | 6 | 0 | 8 | 41 | 167 |
2007年 | 35 | 10 | 7 | 0 | 27 | 31 | 5 | 2 | 4 | 41 | 162 |
2008年 | 21 | 12 | 12 | 1 | 19 | 18 | 8 | 2 | 5 | 71 | 169 |
2009年 | 19 | 6 | 9 | 0 | 20 | 26 | 10 | 6 | 6 | 72 | 174 |
合計 | 297 | 61 | 92 | 17 | 199 | 375 | 44 | 11 | 44 | 288 | 1428 |
シリーズ数 | 68 | 16 | 21 | 14 | 62 | 136 | 12 | 6 | 20 | 93 | 449 |
シリーズ平均冊数 | 4.4 | 3.8 | 4.4 | 1.2 | 3.2 | 2.8 | 3.7 | 1.8 | 2.2 | 3.1 | 3.2 |
以上の結果から、超適当に各サブクラスターの特徴を見ていきます。
青グループの支配的単語は「僕」。全149回中92回がこのグループに出てきます。また、青グループの12シリーズ44冊のうち10冊が2009年、8冊が2008年に出ており、2000-2004年の5年間では8冊しか出ていません。
藍グループの支配的単語は「俺」。全78回中39回がこのグループに出てきます。また、藍グループの6シリーズ11冊のうち10冊は2007-2009年に出ています。なお、「俺」の残り39回のうち28回は赤紫グループに出てきます。青グループと藍グループを合わせて、一人称なあらすじは2007年辺りから多くなってきたってことなんだろうか。
紫グループで最も多い単語は「少女」ですが、実のところこれは他のグループにもよく出てきます。次に多いのは「死神」で全32回中22回がこのグループに出てきます。発売年は2000年の0冊以外、わりと均等に散らばっています。なお、「死神」の残り10回のうち7回は赤紫グループに出てきます。
赤紫グループで多い単語は「彼女」「人」。「彼女」は全381回中145回なのでわりと多めに集まっている感じですが、「人」は全769回中119回なのでそんなでもありません。ぶっちゃけこのグループは単語的に特徴がないので電撃文庫的に普通な単語グループになっていますが、青・藍グループに引っ張られて2005年以降、特に2008年・2009年のものが集まっています。……いや待て違うな。クラスタリングの手順からいくと、赤紫のグループが束ね終わった後で、そこに似てるものとして藍とか青のグループが束ねられるんだから、順番が逆か。ともかく、288冊中143冊が2008年・2009年の2年間に集中しています。要するに、電撃文庫のあらすじ的に普通な新しめの本のグループですかね。
水色グループは特徴がないのが特徴。どこにも入らなかったものがここに集まってる感じです。「少女」とか「彼女」といった単語が抜きん出ているといった特徴すらありません。発売年としては新しいものは赤紫グループに入っているので、それ以外がここに来ています。
緑グループは電撃文庫全体の平均がここに集まったと言わんばかりのグループです。全体で1位・2位の「人」「少女」はここでも1位・2位になっています。発売年としては全199冊中110冊が2004-2007年になっています。
黄緑グループで最も多い単語は「事件」。特に「殺人事件」は全17回中11回がこのグループです。また、全体で出現回数の多い単語はこのグループにはほとんど出てこないのも特徴です。発売年は全14シリーズ・17冊中14冊が2001年, 2005年, 2006年に出ています。
黄色グループは「大賞」「電撃」「小説」「受賞」が上位4単語になります。……まあ要するに、そういうグループがここに集まっているわけですな。その手の単語の出てくる本のうち半分はこのグループに入っているようです。つまり、受賞以外に特徴的な単語のないものがここに来ていることになりますか。発売年はわりと均等に散らばっている感じ。
橙グループの支配的単語は「世界」。全362回中126回がこのグループに出てきます。「異世界」も多いですねー。全18回中12回がこのグループです。あとは、「ぼく」が全42回中17回がこのグループ、15回が赤グループに出てきます。年ごとの冊数は、増えたり減ったりを繰り返しながらだんだんと増えていっているようです。
赤グループの支配的単語は「二人」。全236回中124回がこのグループに出てきます。また、「一人」も全134回中79回がこのグループです。他に目を引くのは、「悪魔」の全71回中47回かな。
グループごとのシリーズの平均継続冊数を見てみると、赤・黄が最も多くて4.4冊、続いて橙の3.8冊、青の3.7冊となっています。無個性の集まりの水色は2.8冊と低めです。
各年の発売冊数を100%として、各グループの占める割合をグラフにすると下のようになります。これを見てみると、水色グループがゼロ年代序盤、赤グループが中盤、赤紫グループが終盤を多く占めているようです。平均ポジションの緑とか受賞作の黄色はいつでもそれほど変わらない感じですね。無個性グループ(というか、電撃文庫における主要単語「少女」「彼女」が出てこないグループ)は年が進むと次第に減っていくということでしょうか。
実のところ、クラスタリングのデータからは「グループに分けるとこんな感じ」という程度しか分からないので、クラスタリングで目星をつけた要素を次にちくちくと追いかけていって実際のところを確かめないといけません。それに、今回は全体をざっと見て目立つところだけをピックアップしているので、「頻度はそれほど高くないけどあるグループにしか現れない単語」みたいなものは見逃している可能性が高いです。そういうのはスクリプト作って自動的に回収するようにしないと、目で見てるだけだとなかなかわかりませんね。
しかしまあ、かなりぐだぐだになったけどそれなりにオチは着いたのかしら。次は他のレーベルを混ぜてみるとか、共起する単語の組で見てみるとか、動詞も入れてみるとか……。結構いくらでも思いつくなぁw