有做过舆情分析系统的吗,我崩溃了~
信息抓取模块倒是完成了,我用本本做实验,一晚上能取到几十万条有效内容(主要是指定的多个论坛的帖子内容,多页自动合并),包括: 标题 、发表日期、 回复/浏览数量、主帖+回帖内容等等。
现在拿着这个大一个数据库,不知道该怎么办。
仅仅做字典比对吗?(悲催的是我连语义倾向性的字典都搞不到)
还有中文分词技术,太难了吧,连词都分不出来还判断啥?
我纠结了,郁闷了。各位大大帮助我吧,有哪些突破点可以操作,不胜感激!
------解决方案--------------------这个技术难度当然大,我是肯定做不出的,不然的话这个行业的祖师爷也不会去当北邮的校长。
------解决方案--------------------再说中文处理复杂,随便举个敏感词“64”,
中文表达就有:64、64、六四、陆肆,这还不算它们的组合,
没有经过实践检验的算法根本完成不了这个任务。
------解决方案--------------------通过和谐的上层关系联系大学研究所,请他们帮忙吧
------解决方案--------------------呵呵,这个月份CSDN上好多问题是和毕业设计有关的。
理论联系实际,做出来了你就是人才,做不出来也没关系,只要钻研了就有知识积累,有付出必然有回报。
------解决方案--------------------既然是搞毕业设计你的重心不是实现多么强和全的功能,你的导师也未必有这个能耐,否则早成老方的得力干将了。
你的重点是要把架构设计好,尤其是方便信息处理功能扩展。