日期:2014-05-16  浏览次数:21377 次

如何提取公司真实名称
就是我有一份公司信息数据,我要提取出每个公司名称并去重。
现在的问题是:
例1::“江西省新余市某某农机有限公司”和“新余市某某农业机械制造有限公司”其实是同一公司
例2:“江西赣州第一建筑有限公司”和“江西抚州第一建筑有限公司”,去掉前面地区和后面有限公司后都是“第一建筑”,可这是俩公司啊
像碰到这类情况如何去重
数据

------解决方案--------------------
提取并建立关键字的库,规定同时匹配多少项为相同,匹配越多,精度越高,效率越低