苏 超 发布于 07月24, 2014

浅谈Python中的编码问题

对于Python的初学者来说,编码问题相当令人头疼。本文就根据我在学习过程中遇到的问题简单谈一下Python中的编码。首先简单介绍一下几种常见的编码。

一、几种常见的字符编码

ASCII码

ASCII码是基于拉丁字码的一套电脑编码系统。它对英语字符与二进制位之间的关系做了统一的规定,使用指定的7位或8为二进制数组合来表示128或256种可能的字符。标准ASCII码也叫基础ASCII码,使用7位二进制来表示所有的大写和小写字母,数字0到9、标点符号,以及在美式英语中使用的特殊控制字符。

英语中英文字母用128个符号编码就够了,但是用来表示其他语言,128个符号显然是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。

阅读全文 »

苏 超 发布于 06月12, 2014

多IP数据的构造

研究背景:业务中需要使用多IP地址访问网站的日志来计算数据,为了获取更加真实的数据,我们试图通过前端对网站的访问来制造访问日志。因此构造多ip数据的方法进行了一番调研。

阅读全文 »