さーて、明日の夜行で帰省ですので、これが今年最後の日記ですね〜。・・・後で書き足すかもしれませんが。今年は自宅からネット接続始めたり、自分のページ持ったり、オフ会出たりと、ネット関係で色々あった年になりました♪うん、楽しかったなっ。でも、卒業伸びちゃったりなんかもあって、ちょっとショックも・・・。来年もよい年でありますように。
『コ・コ・ロ…』はなにやら早くも生産終了になったそうな。・・・まあ、まずそうなネタだとは思ったけど、だったらなぜソフ倫シール貼ってあったんだろ?世の中不思議なことでいっぱいだねっ(笑)。
でもって『Re・leaf』。気合いで話の筋を解読しつつ進めてたんですが(俺も結構しつこいのぉ)、選考会が延期になって家に帰ってきたらいきなり桜ちゃんより「次に実行すべきscnが確定できんのじゃ、バカもの!ソースとフラグが違っておるに違いないのじゃ!さっさと直すのじゃ」とのご宣託が下され、うんともすんとも言わなくなりました(爆笑)。おい、製品でどうしてデバッグ用の画面が出てくる?・・・しかし、これはもう、笑うしかないですな。今年の品質管理レベルワースト1のソフト会社はC's wareに決定〜!ちなみに次回作の「散櫻」は絵が全然好みじゃない時点で買わない買わない買ってやらない〜♪ ソフト会社としてこのままやっていくかどうかについて、少し考えてみた方がいいんじゃないですかね?>C's wareさん
今日こそ本番ってことで6時頃家を出る予定だったんですが・・・目が覚めると8時(死)。目覚ましで一度起きた記憶はあるんですが・・・はて? で、現地到着は11時半でした。バスから見た感じでは東館側にはまだ列が残っていたのですが、バスが到着した正面側は待ちなしで入場できてラッキー♪ まずはtab grahicsに行きCG集と、委託販売されていたTea RoomのCG集にゲームを購入。んでもって学園勇者部で同人誌(剣康之個人作品集)、Team CactusでCD-ROM、アリス財務局で同人誌(鳥龍戯画八・インドの神々)を購入。この時点でGALAXY'S CHILDと猫屋敷はすでに完売、MEDICINE COMPILATIONは人が多すぎて並ぶ気になれず。やはり出遅れが痛かったですねぃ。んでもってT.P.Kの楽描き本、てんぶりのCG集、天使と悪魔の18禁同人誌を買って隣のブロックに移動。こちらでは乃絵美18禁本、STUDIO Z.Mのロマ剣本、天使・悪魔本を買って企業ブースへ移動。するとどういうわけだかリーフには全然人が並んでおらなんだので、アレンジCDを購入。しかし・・・蟹ミサイルっていったい何?? んでもって、昨日売り切れてたKanonプレミアムブックをアスキーで購入。アスペクトから来年発売されるKanonビジュアルファンブック(5分冊仕様(笑))の準備号みたいな感じでした。この後はまた東館に戻ってぶらぶらと。てけとーに見て回りながら目に付いたのを4冊ほど買った模様。この時点で3時になったので撤収。さすがに疲れたので直帰しました。今回は予定していたうち3箇所ばかり行けなかったわけですが・・・そこは夏にも行けなかったような記憶アリ。縁がないのかしら(笑)。ところで、今回購入した同人誌をざっと見てみると・・・羽ものの比率がえらく高し。おお、思いっきり趣味が反映されてますなっ。でも、18禁ものはほとんど買ってません(笑)。それにしても、夏に使った金額の倍ほど突っ込んでしまったあたり、かなりヤバし。今度の夏にはすごいことになってたりして(笑)
今日は第二弾、今年一番の国内小説です。僕にとって国内小説とはほとんどすべてライトノベルです。それ以外はほとんどないです。そんなわけなんで、今年一番のライトノベルにしても問題ありません(笑)。昨日同様、去年以前から読んでいるシリーズは除きますが、シリーズ内での繋がりがわりと希薄なものは候補に入れてます。さて、僕の今年一番の国内小説、それは……「機甲都市伯林」に決定! やはり、ことあるごとに脱がされるヘイゼルがねぇ……うんうん。ま、そんなこと抜きにしても今年一番は間違いありませんがな。最終巻の、190ページに渡るトリスタン攻防戦とそれに続く最後の戦いはホント燃えるよ? うむー、OSAKAと巴里も早く読みたいなぁ。次点は「イリヤの空、UFOの夏」ですかね。秋山さんの本は「猫の地球儀」以来2作目ですが、あいかわらずの面白さでした。その他には、「ダブルブリッド」「明日の夜明け」「戦略拠点32098楽園」「黄昏の岸 暁の天」あたりが良かったです。「明日の夜明け」「戦略拠点32098楽園」は新人さんなので、次回作が楽しみ。「黄昏の岸 暁の天」は、5年ぶりの十二国記再開ってことでもう待ち続けてましたよ。しかし、講談社文庫版の1か月遅れでホワイトハート版が出るってのは何なんじゃろ……。逆の順番だったらホワイトハート版だけで済むのに、読者の餓えに付け込みおって……くそぅ。
さて、今年買った国内小説は全部で107冊。10冊くらい、まだ読んでないのが残ってますが。んー、あまり時間ないにしては読んだ方なのかな。
イブ、クリスマスと風邪で寝込んで超ぐったりです。なんだこれ。
前回のクラスタリング、さすがにキーワードに年を混ぜ込んで分類するのはどうだろう(それでも差異は出たんだけどね)と思うので、きちんと年の追加なしのクラスタリング結果を年ごとに計数してみることにしました。
もうひとつ、各サブクラスターで特徴的だと思っていた単語が意外と一部のシリーズに偏ってたり、こそあど指示代名詞の影響がでかかったりしたので、単語リストからこそあど指示代名詞を抜いてクラスタリングして、さらに各サブクラスターのメンバー(シリーズ)ごとにどんな単語が使われているのかを出力してみました。
こそあど指示代名詞を削除した名詞リストはdengeki_2000-2009_noun_count2.tsvです。行列データの生成は前回のものからキーワードに年を追加していた部分をコメントアウトしたget_matrix_by_series_year3b.plを使います。これらを使って行列データの生成、樹形図の出力、サブクラスターごとの単語の使用頻度テーブルの出力までは前回と同じ。
$ perl get_matrix_by_series_year3b.pl dengeki_2000-2009_arasuji3.tsv dengeki_series.tsv dengeki_2000-2009_noun_count2.tsv dengeki_2000-2009_noun.tsv 1 > dengeki_2000-2009_series_matrix.txt $ R --vanilla -q < clustering_no_tfidf.R --args dengeki_2000-2009_series_matrix.txt dengeki_2000-2009_series_dendrogram.pdf 1 0.1 10 subcluster.txt result.txt $ perl count_subcluster_word.pl subcluster.txt dengeki_2000-2009_series_matrix.txt > dengeki_2000-2009_subcluster_word_count.txt
樹形図はこんな感じ。PDF版はこちら。サブクラスターごとの単語のカウント結果はdengeki_2000-2009_series_subcluster_word_count.txtになります。
サブクラスターごとに主要な単語を抜き出すとこんな感じです。
単語 | 1(黄緑) | 2(藍) | 3(赤紫) | 4(赤) | 5(紫) | 6(水色) | 7(橙) | 8(青) | 9(緑) | 10(黄) | 合計 | ||||||||||
俺 | 39 | 6.5 | 10 | 0.0 | 26 | 0.3 | 0 | 0.0 | 0 | 0.0 | 2 | 0.1 | 0 | 0.0 | 0 | 0.0 | 1 | 0.1 | 0 | 0.0 | 78 |
人 | 6 | 1.0 | 282 | 1.4 | 93 | 1.1 | 297 | 5.4 | 14 | 0.6 | 20 | 0.9 | 12 | 0.7 | 3 | 0.3 | 29 | 1.7 | 13 | 1.1 | 769 |
彼女 | 3 | 0.5 | 96 | 0.5 | 134 | 1.7 | 52 | 0.9 | 12 | 0.5 | 19 | 0.8 | 25 | 1.5 | 2 | 0.2 | 11 | 0.6 | 27 | 2.3 | 381 |
二 | 0 | 0.0 | 118 | 0.6 | 54 | 0.7 | 126 | 2.3 | 6 | 0.3 | 10 | 0.4 | 8 | 0.5 | 1 | 0.1 | 14 | 0.8 | 4 | 0.3 | 341 |
二 人 | 0 | 0.0 | 67 | 0.3 | 28 | 0.3 | 110 | 2.0 | 4 | 0.2 | 8 | 0.3 | 4 | 0.2 | 1 | 0.1 | 12 | 0.7 | 2 | 0.2 | 236 |
一 | 2 | 0.3 | 105 | 0.5 | 40 | 0.5 | 94 | 1.7 | 5 | 0.2 | 4 | 0.2 | 10 | 0.6 | 0 | 0.0 | 10 | 0.6 | 7 | 0.6 | 277 |
少女 | 2 | 0.3 | 134 | 0.7 | 29 | 0.4 | 87 | 1.6 | 8 | 0.4 | 95 | 4.1 | 13 | 0.8 | 1 | 0.1 | 19 | 1.1 | 7 | 0.6 | 395 |
事件 | 0 | 0.0 | 80 | 0.4 | 27 | 0.3 | 35 | 0.6 | 44 | 2.0 | 3 | 0.1 | 3 | 0.2 | 0 | 0.0 | 4 | 0.2 | 11 | 0.9 | 207 |
世界 | 0 | 0.0 | 127 | 0.6 | 24 | 0.3 | 51 | 0.9 | 2 | 0.1 | 8 | 0.3 | 132 | 7.8 | 2 | 0.2 | 8 | 0.5 | 8 | 0.7 | 362 |
太郎 | 0 | 0.0 | 3 | 0.0 | 1 | 0.0 | 1 | 0.0 | 0 | 0.0 | 0 | 0.0 | 3 | 0.2 | 16 | 1.3 | 0 | 0.0 | 1 | 0.1 | 25 |
小説 | 3 | 0.5 | 23 | 0.1 | 12 | 0.1 | 16 | 0.3 | 2 | 0.1 | 2 | 0.1 | 2 | 0.1 | 16 | 1.3 | 43 | 2.5 | 6 | 0.5 | 125 |
阿智 太郎 | 0 | 0.0 | 3 | 0.0 | 1 | 0.0 | 1 | 0.0 | 0 | 0.0 | 0 | 0.0 | 3 | 0.2 | 15 | 1.3 | 0 | 0.0 | 1 | 0.1 | 24 |
アニメ | 0 | 0.0 | 3 | 0.0 | 0 | 0.0 | 1 | 0.0 | 0 | 0.0 | 0 | 0.0 | 1 | 0.1 | 14 | 1.2 | 0 | 0.0 | 0 | 0.0 | 19 |
登場 | 2 | 0.3 | 100 | 0.5 | 31 | 0.4 | 32 | 0.6 | 4 | 0.2 | 3 | 0.1 | 4 | 0.2 | 13 | 1.1 | 10 | 0.6 | 11 | 0.9 | 210 |
大賞 | 1 | 0.2 | 15 | 0.1 | 8 | 0.1 | 15 | 0.3 | 2 | 0.1 | 2 | 0.1 | 3 | 0.2 | 1 | 0.1 | 49 | 2.9 | 12 | 1.0 | 108 |
電撃 | 1 | 0.2 | 43 | 0.2 | 19 | 0.2 | 21 | 0.4 | 2 | 0.1 | 3 | 0.1 | 3 | 0.2 | 5 | 0.4 | 46 | 2.7 | 6 | 0.5 | 149 |
受賞 | 1 | 0.2 | 16 | 0.1 | 8 | 0.1 | 17 | 0.3 | 0 | 0.0 | 2 | 0.1 | 3 | 0.2 | 1 | 0.1 | 37 | 2.2 | 6 | 0.5 | 91 |
受賞 作 | 1 | 0.2 | 8 | 0.0 | 5 | 0.1 | 9 | 0.2 | 0 | 0.0 | 0 | 0.0 | 3 | 0.2 | 0 | 0.0 | 21 | 1.2 | 5 | 0.4 | 52 |
僕 | 0 | 0.0 | 11 | 0.1 | 24 | 0.3 | 1 | 0.0 | 8 | 0.4 | 5 | 0.2 | 1 | 0.1 | 5 | 0.4 | 2 | 0.1 | 92 | 7.7 | 149 |
サブクラスターごとの特徴を前回の結果と比べてみると、単語リストに発売年を追加しなくてもそれほど変わらない感じです。
以上の結果から、各サブクラスターごとにその構成メンバーがそのサブクラスターの主要単語(同じサブクラスター内の半分以上のシリーズで使われており、シリーズ当たりの平均使用頻度が1以上、またはシリーズ当たりの平均使用頻度が0.5以上でそのサブクラスター内での使用頻度の全体の使用頻度に対する割合がそのサブクラスター中のシリーズ数の全シリーズ数に対する割合の5倍以上)を何回使っているのか、また各サブクラスターの本が2000-2009年に何冊ずつ出ているかを出力します。スクリプトはcount_subcluster_word3.plです。まあ、主要単語を決める数値はかなり適当に決めたので、もっと妥当な数値があるのかも。
$ perl count_subcluster_word3.pl dengeki_2000-2009_arasuji3.tsv dengeki_series.tsv dengeki_2000-2009_series_matrix.txt subcluster.txt > count_result.txt
出力されるファイルはcount_result.txtになります。このテキストファイルに、各サブクラスターのメンバーがそのサブクラスターの主要単語をあらすじで何回使っているかが出力されます。ラベルの単語はシリーズ当たりの平均使用頻度が0.5以上でそのサブクラスター内での使用頻度の全体の使用頻度に対する割合がそのサブクラスター中のシリーズ数の全シリーズ数に対する割合の5倍以上のものは<<>>、シリーズ当たりの平均使用頻度が1以上のものは<>で囲んであります。実は上のテーブルが前回と比べてえらくすっきりしているのは、この結果を反映して単語数を減らしているからです。
また、このファイルの最後には各サブクラスターに分類される本が2000年-2009年に何冊発売されているかも出力しています。最後の方めんどくさくなって年が2000年-2009年固定になっているので、そのうち入力ファイルから年を出すように変更しないとな……。前回と同じように各年に発売された本の冊数を100%として各サブクラスターに含まれる本の割合をグラフにすると以下のようになります。
藍色、赤紫、水色はそれぞれ、藍色が「人」、赤紫が「彼女」、水色が「少女」という電撃文庫のあらすじにおける頻出名詞トップ3をメインとするサブグループですが、それなりに年ごとの変動があるようです。あとはまあ、黄緑と黄色の一人称あらすじがだんだんと多くなってるなーって感じですかね。