对于一个站点使用多个编码原因很简单,都是为了防止采集的,如果有一些朋友需要采集该怎么办,下面给大家推荐一个有效自动转换编码的工具:
大家可以使用因特网自主研发的爬虫代理ip,代理可以可以忽视目标站编码转换为你需要的编码。
比如:a站点有gbk和utf-8两种编码随机混合出现,如果使用采集器直接采集会出现乱码,因为采集器只能指定一种编码采集,如果你指定gbk采集utf-8就会乱码,反之一样,解决方法
在代理ip加入一个参数即可。
比如:这是正常的代理接口使用 http://www.inte.net/proxy/api.ashx?url=你要获取的地址
加入指定编码参数:inteproxyencoding=要转换的编码
完整示例:http://www.inte.net/proxy/api.ashx?inteproxyencoding=gbk&url= 你要获取的地址
上面的意思就是不管对方是什么编码直接输入gbk编码,如果需要utf-8把gbk换成utf-8即可
完整示例: http://www.inte.net/proxy/api.ashx?inteproxyencoding=utf-8&url= 你要获取的地址
通过以上方法即可解决编码问题,如果使用当中有疑问可以联系我们,QQ:2602126172