はてな人気blog言語分析:人気ブログと不人気ブログの統計的解析

という竜頭蛇尾的なタイトルをつけてみる。

今週見た記事に、「blogは丁寧調(ですます調)の方が理解されやすいためアクセスが伸びる」と書かれていた。

えっ

先週末から、はりきって断定調でblogを書き始めた私には軽い衝撃だっt・・・でした。もしこれが事実なら、私としては今後、丁寧調でblogを書くことになります。

そこで念のため、真偽を統計的に確認してみました。

はてなブログ、日記の人気エントリーと、人気ではない単なる新着エントリーにおいて、使われる口調を数えました。サンプルは人気、非人気で50件ずつです。

結果は以下のようになりました。あれ?

f:id:medakamaster:20131213233449p:plain

人気記事においては、非人気エントリーよりむしろ断定調の比率が高いようだ。

※その他の特徴としては、非人気エントリーには「~かしら」といったおネエ調や、歌詞や写真やコードや単語だけといった口調が存在しないノイズや、更に意味不明なものとしては「rsgfじょ」というような解読困難な記事があった。人気エントリーには現れることのない、はてなのフリーダムな面を垣間見たが、ここでは深入りしない。


さてここで、データから見られた以下の仮定

"人気エントリーにおいては、非人気エントリーより断定調が多い"

について、統計的に有意なのか、それとも単なるばらつきが生み出した差なのかを判断するため最近インストールしたRでカイ二乗検定を行った。なお今回の論点は丁寧調と断定調の差であるため、おネエ調とノイズは除いて検定を行う。

> hatena <-matrix(c(26,24,24,18),ncol=2,byrow=T)
> rownames(hatena) <-c("pupular","new")
> colnames(hatena) <-c("丁寧","断定")
> hatena
        丁寧 断定
pupular   26   24
new       24   18
> chisq.test(hatena)

	Pearson's Chi-squared test with Yates' continuity correction

data:  hatena
X-squared = 0.0802, df = 1, p-value = 0.777


検定の結果、p値=0.777 >0.05 となり5%有意の帰無仮説は棄却できず、有意差なしという結果となった。
したがって、今回のサンプルだけでは、はてな人気エントリー、非人気エントリー間に口調の差は見られなかったということになる。残念。
カイ二乗検定について調べたら、もう1桁多いサンプル数が必要なようにみえるが、これ以上数えるのは・・・。)

とりあえずは溢れる情報に惑わされることなく断定調を使い、はてな人気エントリの頂点を目指していこうと思う。


※統計もRも慣れないため、アドバイス、指摘をもらえると嬉しいです。

※因果関係は考えていません。Rの勉強ついでの釣り冗談記事です。