包含在pandas对象的数据可以通过多种方式联合在一起:
合并或连接操作通过一个或多个键连接行来联合数据集。这些操作是关系型数据库的核心内容(例如基于SQL的数据库)。pandas中的merge函数主要用于将各种join操作算法运用在你的数据上:
这是一个多对一连接的例子;df1的数据有多个行的标签为a和b,而df2在key列中每个值仅有一行。调用merge处理我们获得的对象:
并没有指定在哪一列上进行连接。如果连接的键信息没有指定,merge会自动将重叠列名作为连接的键。但是,显式地指定连接键才是好的实现:
如果每个对象的列名是不同的,你可以分别为它们指定列名:
默认情况下,merge做的是内连接(’inner’join),结果中的键是两张表的交集。其他可选的选项有’left’、’right’和’outer’。外连接(outer join)是键的并集,联合了左连接和右连接的效果:
下表是对how选项的总结。
在某些情况下,DataFrame中用于合并的键是它的索引。在这种情况下,你可以传递left_index=True或right_index=True(或者都传)来表示索引需要用来作为合并的键:
由于默认的合并方法是连接键相交,可以使用外连接来进行合并:
另一种数据组合操作可互换地称为拼接、绑定或堆叠。NumPy的concatenate函数可以在NumPy数组上实现该功能:
在Series和DataFrame等pandas对象的上下文中,使用标记的轴可以进一步泛化数组连接。尤其是还有许多需要考虑的事情:
在许多情况下,DataFrame中的默认整数标签在连接期间最好丢弃。
pandas的concat函数提供了一种一致性的方式来解决以上问题。
用列表中的这些对象调用concat方法会将值和索引粘在一起:
默认情况下,concat方法是沿着axis=0的轴向生效的,生成另一个Series。如果传递axis=1,返回的结果则是一个DataFrame(axis=1时是列):
在这个案例中另一个轴向上并没有重叠,可以看到排序后的索引合集(’outer’ join外连接)。也可以传入join=’inner’:
下表是concat函数的参数。
还有另一个数据联合场景,既不是合并操作,也不是连接操作。可能有两个数据集,这两个数据集的索引全部或部分重叠。作为一个示例,考虑NumPy的where函数,这个函数可以进行面向数组的if-else等价操作:
Series有一个combine_first方法,该方法可以等价于下面这种使用pandas常见数据对齐逻辑的轴向操作:
在DataFrame中,combine_first逐列做相同的操作,因此可以认为它是根据传入的对象来”修补“调用对象的缺失值: