字典(1)

字典，这个东西你现在还用吗？随着网络的发展，用的人越来越少了。不少人习惯于在网上搜索，不仅有 web 版，乃至于已经有手机版的各种字典了。我在上小学的时候曾经用过一本小小的《新华字典》，记得是拾了不少废品，然后换钱，最终花费了 1.01 元人民币买的。

《新华字典》是中国第一部现代汉语字典。最早的名字叫《伍记小字典》，但未能编纂完成。自 1953 年，开始重编，其凡例完全采用《伍记小字典》。从 1953 年开始出版，经过反复修订，但是以 1957 年商务印书馆出版的《新华字典》作为第一版。原由新华辞书社编写，1956 年并入中科院语言研究所（现中国社科院语言研究所）词典编辑室。新华字典由商务印书馆出版。历经几代上百名专家学者 10 余次大规模的修订，重印 200 多次。成为迄今为止世界出版史上最高发行量的字典。

这里讲到字典，不是为了回忆青葱岁月。而是提醒看官想想我们如何使用字典：先查索引（不管是拼音还是偏旁查字），然后通过索引找到相应内容。不用从头开始一页一页地找。

这种方法能够快捷的找到目标。

正是基于这种需要，Python 中有了一种叫做 dictionary 的数据类型，翻译过来就是“字典”，用 dict 表示。

假设一种需要，要存储城市和电话区号，苏州的区号是 0512，唐山的是 0315，北京的是 011，上海的是 012。用前面已经学习过的知识，可以这么来做：

>>> citys = ["suzhou", "tangshan", "beijing", "shanghai"]
>>> city_codes = ["0512", "0315", "011", "012"]

用一个列表来存储城市名称，然后用另外一个列表，一一对应地保存区号。假如要输出苏州的区号，可以这么做：

>>> print "{} : {}".format(citys[0], city_codes[0])
suzhou : 0512

请特别注意，我在 city_codes 中，表示区号的元素没有用整数型，而是使用了字符串类型，你知道为什么吗？如果用整数，就是这样的。

suzhou_code = 0512 print suzhou_code 330

怎么会这样？原来在 Python 中，如果按照上面那样做，0512 并没有被认为是一个八进制的数，用 print 打印的时候，将它转换为了十进制输出。关于进制转换问题，看官可以网上搜索一下有关资料。此处不详述。一般是用几个内建函数实现：int(), bin(), oct(), hex()

这样来看，用两个列表分别来存储城市和区号，似乎能够解决问题。但是，这不是最好的选择，至少在 Python 里面。因为 Python 还提供了另外一种方案，那就是字典(dict)。

创建 dict

方法 1:

创建一个空的 dict，这个空 dict，可以在以后向里面加东西用。

>>> mydict = {}
>>> mydict
{}

不要小看“空”，“色即是空，空即是色”，在编程中，“空”是很重要。一般带“空”字的人都很有名，比如孙悟空，哦。好像他应该是猴、或者是神。举一个人的名字，带“空”字，你懂得。

创建有内容的 dict。

>>> person = {"name":"qiwsir","site":"qiwsir.github.io","language":"python"}
>>> person
{'name': 'qiwsir', 'language': 'python', 'site': 'qiwsir.github.io'}

"name":"qiwsir"，有一个优雅的名字：键值对。前面的 name 叫做键（key），后面的 qiwsir 是前面的键所对应的值(value)。在一个 dict 中，键是唯一的，不能重复。值则是对应于键，值可以重复。键值之间用(:)英文的分号，每一对键值之间用英文的逗号(,)隔开。

>>> person['name2']="qiwsir"    #这是一种向 dict 中增加键值对的方法
>>> person
{'name2': 'qiwsir', 'name': 'qiwsir', 'language': 'Python', 'site': 'qiwsir.github.io'}

用这样的方法可以向一个 dict 类型的数据中增加“键值对”，也可以说是增加数值。那么，增加了值之后，那个字典还是原来的吗？也就是也要同样探讨一下，字典是否能原地修改？（列表可以，所以列表是可变的；字符串和元组都不行，所以它们是不可变的。）

>>> ad = {}
>>> id(ad)
3072770636L
>>> ad["name"] = "qiwsir"
>>> ad
{'name': 'qiwsir'}
>>> id(ad)
3072770636L

实验表明，字典可以原地修改，即它是可变的。

方法 2:

利用元组在建构字典，方法如下：

>>> name = (["first","Google"],["second","Yahoo"])      
>>> website = dict(name)
>>> website
{'second': 'Yahoo', 'first': 'Google'}

或者用这样的方法：

>>> ad = dict(name="qiwsir", age=42)
>>> ad
{'age': 42, 'name': 'qiwsir'}

方法 3:

这个方法，跟上面的不同在于使用 fromkeys

>>> website = {}.fromkeys(("third","forth"),"facebook")
>>> website
{'forth': 'facebook', 'third': 'facebook'}

需要提醒的是，这种方法是重新建立一个 dict。

需要提醒注意的是，在字典中的“键”，必须是不可变的数据类型；“值”可以是任意数据类型。

>>> dd = {(1,2):1}
>>> dd
{(1, 2): 1}
>>> dd = {[1,2]:1}
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: unhashable type: 'list'

访问 dict 的值

dict 数据类型是以键值对的形式存储数据的，所以，只要知道键，就能得到值。这本质上就是一种映射关系。

映射，就好比“物体”和“影子”的关系，“形影相吊”，两者之间是映射关系。此外，映射也是一个严格数学概念：A 是非空集合，A 到 B 的映射是指：A 中每个元素都对应到 B 中的某个元素。

既然是映射，就可以通过字典的“键”找到相应的“值”。

>>> person
{'name2': 'qiwsir', 'name': 'qiwsir', 'language': 'python', 'site': 'qiwsir.github.io'}
>>> person['name']
'qiwsir'
>>> person['language']
'python'

如同前面所讲，通过“键”能够增加 dict 中的“值”，通过“键”能够改变 dict 中的“值”，通过“键”也能够访问 dict 中的“值”。

本节开头那个城市和区号的关系，也可以用字典来存储和读取。

>>> city_code = {"suzhou":"0512", "tangshan":"0315", "beijing":"011", "shanghai":"012"}
>>> print city_code["suzhou"]
0512

既然 dict 是键值对的映射，就不用考虑所谓“排序”问题了，只要通过键就能找到值，至于这个键值对位置在哪里就不用考虑了。比如，刚才建立的 city_code

>>> city_code
{'suzhou': '0512', 'beijing': '011', 'shanghai': '012', 'tangshan': '0315'}

虽然这里显示的和刚刚赋值的时候顺序有别，但是不影响读取其中的值。

在 list 中，得到值是用索引的方法。那么在字典中有索引吗？当然没有，因为它没有顺序，哪里来的索引呢？所以，在字典中就不要什么索引和切片了。

dict 中的这类以键值对的映射方式存储数据，是一种非常高效的方法，比如要读取值得时候，如果用列表，Python 需要从头开始读，直到找到指定的那个索引值。但是，在 dict 中是通过“键”来得到值。要高效得多。正是这个特点，键值对这样的形式可以用来存储大规模的数据，因为检索快捷。规模越大越明显。所以，mongdb 这种非关系型数据库在大数据方面比较流行了。

基本操作

字典虽然跟列表有很大的区别，但是依然有不少类似的地方。它的基本操作：

len(d)，返回字典(d)中的键值对的数量
d[key]，返回字典(d)中的键(key)的值
d[key]=value，将值(value)赋给字典(d)中的键(key)
del d[key]，删除字典(d)的键(key)项（将该键值对删除）
key in d，检查字典(d)中是否含有键为 key 的项

下面依次进行演示。

>>> city_code
{'suzhou': '0512', 'beijing': '011', 'shanghai': '012', 'tangshan': '0315'}
>>> len(city_code)
4

以 city_code 为操作对象，len(city_code)的值是 4，表明有四组键值对，也可以说是四项。

>>> city_code["nanjing"] = "025"
>>> city_code
{'suzhou': '0512', 'beijing': '011', 'shanghai': '012', 'tangshan': '0315', 'nanjing': '025'}

向其中增加一项

>>> city_code["beijing"] = "010"
>>> city_code
{'suzhou': '0512', 'beijing': '010', 'shanghai': '012', 'tangshan': '0315', 'nanjing': '025'}

突然发现北京的区号写错了。可以这样修改。这进一步说明字典是可变的。

>>> city_code["shanghai"]
'012'
>>> del city_code["shanghai"]

通过 city_code["shanghai"]能够查看到该键(key)所对应的值(value)，结果发现也错了。干脆删除，用 del，将那一项都删掉。

>>> city_code["shanghai"]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError: 'shanghai'
>>> "shanghai" in city_code
False

因为键是"shanghai"的那个键值对项已经删除了，随意不能找到，用 in 来看看，返回的是 False。

>>> city_code
{'suzhou': '0512', 'beijing': '010', 'tangshan': '0315', 'nanjing': '025'}

真的删除了哦。没有了。

字符串格式化输出

这是一个前面已经探讨过的话题，请参看《字符串(4)》，这里再次提到，就是因为用字典也可以实现格式化字符串的目的。虽然在《字符串(4)》那节中已经有了简单演示，但是我还是愿意重复一下。

>>> city_code = {"suzhou":"0512", "tangshan":"0315", "hangzhou":"0571"}
>>> " Suzhou is a beautiful city, its area code is %(suzhou)s" % city_code
' Suzhou is a beautiful city, its area code is 0512'

这种写法是非常简洁，而且很有意思的。有人说它简直是酷。

其实，更酷还是下面的——模板

在做网页开发的时候，通常要用到模板，也就是你只需要写好 HTML 代码，然后将某些部位空出来，等着 Python 后台提供相应的数据即可。当然，下面所演示的是玩具代码，基本没有什么使用价值，因为在真实的网站开发中，这样的姿势很少用上。但是，它绝非花拳绣腿，而是你能够明了其本质，至少了解到一种格式化方法的应用。

>>> temp = "<html><head><title>%(lang)s<title><body><p>My name is %(name)s.</p></body></head></html>"
>>> my = {"name":"qiwsir", "lang":"python"}
>>> temp % my
'<html><head><title>python<title><body><p>My name is qiwsir.</p></body></head></html>'

temp 就是所谓的模板，在双引号所包裹的实质上是一段 HTML 代码。然后在 dict 中写好一些数据，按照模板的要求在相应位置显示对应的数据。

是不是一个很有意思的屠龙之技？

什么是 HTML? 下面是在《维基百科》上抄录的：

超文本标记语言（英文：HyperText Markup Language，HTML）是为「网页创建和其它可在网页浏览器中看到的信息」设计的一种标记语言。HTML 被用来结构化信息——例如标题、段落和列表等等，也可用来在一定程度上描述文档的外观和语义。1982 年由蒂姆·伯纳斯-李创建，由 IETF 用简化的 SGML（标准通用标记语言）语法进行进一步发展的 HTML，后来成为国际标准，由万维网联盟（W3C）维护。

HTML 经过发展，现在已经到 HTML5 了。现在的 HTML 设计，更强调“响应式”设计，就是能够兼顾 PC、手机和各种 PAD 的不同尺寸的显示器浏览。如果要开发一个网站，一定要做到“响应式”设计，否则就只能在 PC 上看，在手机上看就不得不左右移动。

知识

什么是关联数组？以下解释来自维基百科

在计算机科学中，关联数组（英语：Associative Array），又称映射（Map）、字典（Dictionary）是一个抽象的数据结构，它包含着类似于（键，值）的有序对。一个关联数组中的有序对可以重复（如 C++ 中的 multimap）也可以不重复（如 C++ 中的 map）。

这种数据结构包含以下几种常见的操作：

向关联数组添加配对

从关联数组内删除配对

修改关联数组内的配对

根据已知的键寻找配对

字典问题是设计一种能够具备关联数组特性的数据结构。解决字典问题的常用方法，是利用散列表，但有些情况下，也可以直接使用有地址的数组，或二叉树，和其他结构。

许多程序设计语言内置基本的数据类型，提供对关联数组的支持。而 Content-addressable memory 则是硬件层面上实现对关联数组的支持。

什么是哈希表？关于哈希表的叙述比较多，这里仅仅截取了概念描述，更多的可以到维基百科上阅读。

散列表（Hash table，也叫哈希表），是根据关键字（Key value）而直接访问在内存存储位置的数据结构。也就是说，它通过把键值通过一个函数的计算，映射到表中一个位置来访问记录，这加快了查找速度。这个映射函数称做散列函数，存放记录的数组称做散列表。

总目录 | 上节：元组 | 下节：字典(2)

如果你认为有必要打赏我，请通过支付宝：qiwsir@126.com,不胜感激。