我曾经用EXCEL为客户清洗过电子邮件地址数据库,今天把思路整理下来跟大家分享。EXCEL的缺点是一个工作表只能整理65535条记录,优点是比较直观。现在我已经学会用ACCESS清洗了,不过思路还是EXCEL的方法。哈哈。
电子邮件地址主要分成3个部分,第一部分@前内容,第二部分@,第三部分@后内容,这三段内容都有可能出现问题。首先需要把这3个部分从邮件地址列表中分离出来。
(1)分离
选择find函数,可以返回邮件地址中的@的位置.
使用LEFTB函数,可以获得@前内容。
使用LEN函数,返回邮件地址字符个数。
使用RIGHTB函数,可以获得@后内容。
fficeffice" />
(2)@前内容清洗
选择数据/筛选或排序,清洗出含逗号,分号,句号,冒号,www,http, 空格,和不多于3个字符的地址
(3)@后内容清洗
选择数据/筛选或排序,寻找无效DNS/拼写错误域名/失效域名。比如把sina.com拼写成snia.com的就有很多。还有etang.com, fm365.com这些域名早就不使用的。
寻找包含www,分号等多于1个邮件地址,一律标记“错误”
对@后内容进行排序和分类汇总,对一些数量使用非常少的域名筛选出来。
如上,供大家参考。谢谢。
欢迎光临 栖息谷-管理人的网上家园 (https://bbs.21manager.com.cn/) | Powered by Discuz! X3.2 |