日期:2014-05-16 浏览次数:20880 次
我们在百度、Google上搜索东西的时候,经常会发现一些莫名其妙的网站,点进去正文可能是我们需要的文字,但四周全部都是广告。这种网站的正文,一般是从其它网站上爬来的。CSDN论坛、博客也经常被爬。那些网站把内容爬去后发布在他们的网站上,挂上广告,靠点击量赚钱。我寻思着我们也来做这个一个网站试试,于是我们尝试爬www.haha.mx 上的笑话和笑图,其实细心观察可以发现www.haha.mx网上的笑话也是他们从各网站、论坛上爬来的。我负责用MFC写程序,自动从该网站上获取笑话正文和图片URL,提交到我同学用PHP做的仿站上。虽说WEB数据抓取、提交,并不是C++的长项。很多做数据挖掘的都是用JAVA,但毕竟微软提供了winInet,可以方便的通过HTTP协议获取和提交数据。MFC对winInet做了封装,用起来也方便。
下面分享MFC和PHP源码,我已打包:
http://download.csdn.net/detail/charlessimonyi/5185806