VOYAGE GROUP エンジニアブログ

voyagegroup_techのブログ
VOYAGE GROUPエンジニアブログです。

自炊

Happy Scaning(2): 島本和彦漫画の「濃度」の研究

こんにちは, 株式会社ECナビ システム本部の春山(@haruyama)です.

前回の記事「Happy Scaning(1): 「濃い」漫画「薄い」漫画」で予告したように, 島本 和彦(@simakazu)先生の漫画の濃度の研究をします. 「濃度」とは, 漫画をPDFにしたときのファイルサイズ/ページ数のことです. 詳細は前回の記事をご覧下さい.

「濃度」を比較する島本和彦漫画

今回は以下の島本漫画を対象とします.

炎の転校生
小学館文庫. 「心に棚を作れ」は名言. 他人のコードをレビューするときには常に心の中でつぶやいています.
燃えるV
MF文庫
仮面ボクサー
リュウ・コミックス
逆境ナイン
サンデーGXコミックス
燃えよペン
サンデーGXコミックス
ワンダービット
MF文庫. ログインを読んでいて第12話に感動したことを覚えています. 「正義の怒りが爆発した!!!!」
無謀キャプテン
リュウ・コミックス
卓球社長
ビッグコミックス. 弊社は会社に卓球台がありますよ.
スカルマン
MF文庫
吼えろペン
サンデーGXコミックス
ゲキトウ
リュウ・コミックス
新吼えろペン
サンデーGXコミックス
アオイホノオ
ヤングサンデーコミックス, 少年サンデーコミックススペシャル. いま一番先が楽しみな漫画です.
アスカ@未来系
サンデーGXコミックス

注: 島本先生以外の作品が含まれていたりあとがきやあとがきまんがが含まれている本もありますが, 島本先生の当時の漫画だけ抜き出して解析するのは面倒なのでやっていません. 厳密な解析ではないことをお断りしておきます.

Rを用いた島本漫画の「発表年」と「濃度」の関係

今回もCSVデータ()を用意しました. Rで島本漫画の「発表年」と「濃度」の関係を解析していきます.

散布図の作成(1冊単位)

まずは1冊単位で散布図を書いてみます.

> titles <- read.csv("mangapdf_simamoto_20100903.csv", header=T)
> head(titles)
      タイトル   シリーズ ページ数   サイズ      濃度 発表年
      1    燃えるV_1    燃えるV      318 38968411 119.67009   1986
      2    燃えるV_2    燃えるV      300 37353253 121.59262   1986
      3    燃えるV_3    燃えるV      322 39400631 119.49434   1986
      4   燃えよペン 燃えよペン      256 54833637 209.17373   1990
      5 炎の転校生_1 炎の転校生      352 31075035  86.21226   1983
      6 炎の転校生_2 炎の転校生      351 28646951  79.70239   1983
> attach(titles)
> plot(発表年,濃度, type="n", xlim=c(1980,2015))
> text(発表年, 濃度, タイトル)
> detach(titles)

simamoto_titles

散布図の作成(シリーズ単位)

1冊単位だとごちゃごちゃしているので, シリーズごとに平均をとって散布図を書いてみます.

> series <- data.frame(cbind(tapply(titles$発表年, titles$シリーズ, mean), tapply(titles$濃度, titles$シリーズ, mean))) 
> series
                 発表年      濃度
                 アオイホノオ   2008.500 222.38068
                 アスカ@未来系  2009.333 279.77622
                 ゲキトウ       2004.000 268.72471
                 スカルマン     1999.200 169.88056
                 ワンダービット 1992.000 147.18995
                 炎の転校生     1984.000  95.18908
                 仮面ボクサー   1988.000 186.40856
                 逆境ナイン     1990.333 184.23147
                 新吼えろペン   2006.182 217.06700
                 卓球社長       1997.000 217.79991
                 燃えよペン     1990.000 209.17373
                 燃えるV        1986.000 120.25235
                 無謀キャプテン 1992.500 175.62237
                 吼えろペン     2002.154 229.93902
> colnames(series) <- c("発表年", "濃度")
> attach(series)
> plot(発表年,濃度, type="n", xlim=c(1980,2015))
> text(発表年, 濃度, rownames(series), cex=2.5)
> detach(series)

simamoto_series

回帰分析

だいたい「発表年」と「濃度」に線形な関係がありそうなので分析してみます. タイトルごとの「発表年」と「濃度」について回帰分析を行ないます.

> attach(titles)
> summary(lm(濃度~発表年))

Call:
lm(formula = 濃度 ~ 発表年)

Residuals:
    Min      1Q  Median      3Q     Max 
    -51.184 -20.481  -2.988  20.218  57.185 

    Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
                  (Intercept) -9924.4382   860.2566  -11.54   <2e-16 ***
                  発表年          5.0635     0.4305   11.76   <2e-16 ***
                  ---
                  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

                  Residual standard error: 28.49 on 59 degrees of freedom
                  Multiple R-squared: 0.701,    Adjusted R-squared: 0.6959 
                  F-statistic: 138.3 on 1 and 59 DF,  p-value: < 2.2e-16 

> abline(lm(濃度~発表年))
> detach(titles)

simamoto_lm

各パラメータに対するp値も小さく, 「発表年」と「濃度」は以下の関係式で表わせるようです.

「濃度」 = -9924.4382 + 5.0635 * 「発表年」

この式によると「濃度」が0になるのは「発表年」が1960年のとき. 島本先生は1961年4月26日の生まれなので, だいたい合ってますね!

「濃度」の上昇には, 島本先生の画力の向上だけではなくアシスタントさんなど漫画を描くための体制も大きく寄与していると思われます. 今後も「濃度」の上昇に期待したいですね.

まとめ

島本和彦先生の漫画の「濃度」が「発表年」に対して線形に増加していることがわかりました.

島本和彦先生はまだまだ(「濃度」的に)成長する! きっとする!

Happy Scaning(1): 「濃い」漫画「薄い」漫画

こんにちは, 株式会社ECナビ システム本部の春山(@haruyama)です.

KindleやiPadの登場によって, 紙の本をスキャンしてPDF化する(いわゆる自炊)が盛り上っています. 私も今年ScanSnap SI1500とPL-513Lを購入し, 日々本を裁断してはスキャンしています. スキャンした本はPCやNetWalker(PC-Z1)で閲覧しています.

pc-z1

写真では画面を横断する線が入ってますが実際には見えません.

スキャン設定

主に技術書と漫画をスキャンしていて, すべての本に対して以下の設定を利用しています.

画質
スーパーファイン
カラーモードの選択
カラー高圧縮
読み取り面の選択
両面読み取り
ファイル形式
PDF
圧縮率
5(最大)
その他
  • 白紙のページは自動削除
  • 検索可能なPDFにはしない(技術書はあとでしています)
  • カバーはスキャンしていません.
  • 表紙はスキャンする意味のある場合にスキャンしています.
  • マルチフィード検出: 重なりで検出(超音波)

他の方の設定例: ScanSnap S1500 の設定まとめ - 電子書籍を自炊するときの 10 のポイント - 彼女からは、おいちゃんと呼ばれています

カラーモードの選択を「自動」にしていないのは, 漫画のスキャン時に白黒とカラーがいりまじることがあったからです.

マルチフィード検出は, 文庫本などではそれなりに失敗します. スキャン前に原稿の枚数を数えておいてスキャン後に確認し, 枚数が違ったらマルチフィードを見付けてその部分をパッチしています.

漫画のカバーは保存しています(写真はその一部です).

manga_cover

ScanSnap Organizerには技術書と漫画が雑然と並んでいます. 技術書のOCRの間に漫画をスキャンすることが多いからです.

scanscanp_orgnizer

「濃い」漫画「薄い」漫画

こうして作成した190冊の漫画PDFについて, ファイルサイズをページ数で割ったものを計算したデータ(mangapdf_20100824.tsv)を作りました. ファイルサイズ/ページ数が大きいほど「濃い」漫画, 小さいほど「薄い」漫画と呼ぶこととします. なお, ここで挙げている漫画はすべて好きな漫画です. 私は「濃い」漫画も「薄い」漫画もそうでない漫画もすべて好きです. 「濃い」「薄い」は絵柄などの情報量の違いを表す表現です.

ここでは私が持っている漫画のうち「濃い」「薄い」それぞれベスト5を紹介します.

「薄い」漫画ベスト5

まずは「薄い」ほうから.

「薄い」漫画ベスト5
順位漫画漫画家(敬称略)サイズ(kB)/ページ数
1かいしゃいんのメロディー大橋 ツヨシ24
2サカモト山上 たつひこ38
3水木しげる 恐怖貸本名作選 墓をほる男・手袋の怪水木 しげる51
412月生まれの少年施川 ユウキ52
5水木しげる 魍魎貸本名作選 地獄・地底の足音水木 しげる64

圧倒的な強さで「かいしゃいんのメロディー」がベスト1に輝きました. 他にも4コマ系が順当に上位に入っています.

貸本時代の水木しげる先生もランクイン. 「薄い」感じにはみえないのですが...

「濃い」漫画ベスト5

そして「濃い」ほうです.

「濃い」漫画ベスト5
順位漫画漫画家(敬称略)サイズ(kB)/ページ数
1へうげもの山田 芳裕343
2アスカ@未来系島本 和彦280
3ゲキトウ島本 和彦270
4ジャイアントキリングツジトモ248
5涼宮ハルヒちゃんの憂鬱ぷよ242

「へうげもの」が2位に大差を付けました. 山田 芳裕先生の「濃さ」に勝てる漫画はなかなかなさそうです.

2,3位は島本 和彦先生の作品が入りました. 島本先生の作品はスキャンした数が多いので, サイズ/ページ数をながめてみるとなかなかおもしろいです. というわけで次回は島本 和彦先生の漫画の作品ごとの「濃さ」を考察します!Happy Scaning(2): 島本和彦漫画の「濃度」の研究に続く!

記事検索
QRコード
QRコード