一、非UTF-8页面处理.
1.背景
windows-1251编码
比如俄语网站:https://vk.com/cciinniikk
可耻地发现是这种编码所有这里主要说的是 Windows-1251(cp1251)编码与utf-8编码的问题
写在前面
在web服务端开发中,字符的编解码几乎每天都要打交道。编解码一旦处理不当,就会出现令人头疼的乱码问题。
不少从事node服务端开发的同学,由于对字符编码码相关知识了解不足,遇到问题时,经常会一筹莫展,花大量的时间在排查、解决问题。
在这里记录了nodejs过程中的一些乱码情况,这里的乱码主要是由于网页的编码方式与nodejs的默认解码方式(utf8)不一致所造成的。这一次要说一下的是在C语言和nodejs与MySQL进行交互的时候出现的乱码问题。1,由于爬虫程序在多个
Node.js 抓取非 utf-8 的中文网页时会出现乱码问题,比如网易的首页编码是 gb2312,抓取时会出现乱码var request = require('request') var url = 'http://www.163.co