ブログのテキストマイニングはいろんな企業が取り組んでいるんだけど、母集団のクリーニングができてないからアフィリエイトブログとかがいっぱいある。ワードサラダとか、他人のRSSから自動で乱造してるブログとかね。体験談しかないと言ってるSHOOTIでさえノイズがかなり多い。これが現実。
AllConsumingでもブラックリストを作って排除してるんだけど、次から次へと作られるのでキリがない(負荷ばっかり高まってサーバーも安定してない)。特にRSSでコピーされたブログは機械的には判別できないから、どうしようもない。
とはいえブログの解析、分析は本当に重要です。ぼくはブログの一番いいところはみんなが生活者の本音を書いている点だと常に主張しているんだけど、それをきちんと糧にして企業が自社の製品やサービスに反映することができないと意味がない。一方通行じゃなくて、きちんとリアクションをする、コミュニケーションとはいつも双方向であり、マーケティングもまたコミュニケーションなのです。
だからこそなんとかしたい。
で、ブラックリストがダメならホワイトリストで考えてみようと思った。
とりあえず複数人がRSSリーダーで購読してるようなのはSPAM率が低そうとか、そういうのもあるんだけど、なるだけ人力で登録していきたい。RSSリーダー利用者は偏ってるので、もっと普通の人のブログを入れたいし。
できれば協力者を受け付けて、あるブログの登録を提案したら、協力者からランダムで5人くらいに審査希望のメールが送られて、そのうち4人がOKしたらリストに追加するとかして(性善説を信じながらも)悪い人の入り込む余地もなるだけ減らす感じで。
でもってホワイトリストを使ってどうしようかなあ。クローラーから用意して全部を作るか、フィルタにして他の検索エンジンのAPIを借りるか。
そのへんよくわかんないからもうちょっと考えないといけないなあ。
[追記]
そういえば、こういうのを作ろうと思って「blogtrends.jp」ってドメインを取得したのだった。











感想メール