在博客研究中引入数据挖掘的想法
盛振中
2005年5月23日
根据文献检索情况,目前对博客进行定量分析的研究还不多见。我设想在博客研究中引入数据挖掘。
假设以博客中国作为研究对象,我设想的初步框架如下:
对注册博客数量、每个博客的文章数量、留言数量、评论数量等项目进行数据监测,一定时期后(比如一周,一个月,一个季度等等),对获得的统计数据进行数据挖掘。
对原始统计数据进行预处理后,利用关联规则的数据挖掘技术对其进行了挖掘,从而获取了博客发展中一些潜在的行为规律,并对这些行为规律给出相应描述。从理论上分析,应该可以得到一些新的发现,尤其是目前没有进入我们研究视野的方面。
这是对注册博客增长及活动情况的数据挖掘,另外也可以对文章统计数据进行数据挖掘,比如
在《课题研究工作于今日正式启动》(http://research.blogchina.com/1590894.html)一文中提到的:
比如就某一个话题,就《联想裁员事件》,研究一下文章的长度、集中报道的时间、读者情况,以及报道的形式、媒体覆盖范围等待。这方面的数据将展示博客与传统媒体的不同之处。
文章中是从对比博客与传统媒体的角度对单篇文章进行数据分析。还可以集中对一类话题,比如分别对博客中国的“科技”和“新知”两类话题进行数据监测,然后对统计数据进行数据挖掘。
等等,还可以从其他角度进行数据挖掘分析。
以上只是我个人的一些不成熟的想法,在此提出来,希望得到高人的指点。也以此抛砖引玉,希望能与大家交流,从更多角度研究博客,以便更好地开展博客研究。
附:文献检索的情况.
======================================================================
以下是2005年5月23日14:30至15:00之间在中国期刊全文数据库中检索的结果:
数据库链接地址(www.chinajournal.net.cn)
检索项:篇名/关键词/摘要
范围 1994年至2005年
(1) 一次检索:“博客”, 文章数 829篇
二次检索 “数据挖掘” 文章数 3篇(如图1)

检索得到的3篇文章与“博客”和“数据挖掘”不相关。
(2)一次检索:“博客”, 文章数 829篇
二次检索 “数据分析” 文章数 4篇(如图2)

检索得到的4篇文章参加价值不大。
(3)一次检索:“虚拟社区”, 文章数 525篇
二次检索 “数据挖掘” 文章数 10篇(如图3)

其中,*孙颖,毛波,基于数据挖掘技术的虚拟社区成员行为研究, 计算机应用, 2003年01期,这篇论文对于在博客研究中引入数据挖掘的参考价值较大。
======================================================================
基于数据挖掘技术的虚拟社区成员行为研究
孙 颖,毛 波
(清华大学经济管理学院,北京100084)
摘 要:虚拟社区的研究对于社区的建设、管理和发展都具有重要意义。然而目前对虚拟社区和社
区中的成员行为的定量研究还不多见。本文抽样采集了某一典型虚拟社区中的成员文章数据,在进
行预处理后,利用关联规则的数据挖掘技术对其进行了挖掘,从而获取了虚拟社区中一些潜在的行为
规律,并给出这些行为规律的相应描述。其研究结果具有一定的意义,对虚拟社区的建设、发展和管
理起到预见和指导作用。
关键词:虚拟社区;数据挖掘;BBS;关联规则
中图分类号:TP30 文献标识码:A
======================================================================
你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=1623640
就我对数据挖掘的了解来看,分析的结果可能是定量的,但是实际上在现实范例中只能达到定性的效果,真正从统计学来模拟分析最终的定量元素必须要有改分析行业深层次的行业积累才行,所以我一直认为对于数据来说,最开始的对错决定了最后的对错。也就是initialization的最先阶段最为困难复杂。
很有价值啊。值得深入思考