问题:使用熊猫将字符串前缀添加到字符串列中的每个值
我想在熊猫数据帧的所述列中的每个值的开头附加一个字符串(优雅)。我已经弄清楚该如何做,目前正在使用:
df.ix[(df['col'] != False), 'col'] = 'str'+df[(df['col'] != False), 'col']
这似乎是一件微不足道的事情-您是否知道其他任何方式(可能还会将该字符添加到该列为0或NaN的行中)?
如果还不清楚,我想转一下:
col
1 a
2 0
变成:
col
1 stra
2 str0
回答 0
df['col'] = 'str' + df['col'].astype(str)
例:
>>> df = pd.DataFrame({'col':['a',0]})
>>> df
col
0 a
1 0
>>> df['col'] = 'str' + df['col'].astype(str)
>>> df
col
0 stra
1 str0
回答 1
另外,您也可以使用apply
组合format
(或f字符串更好),如果例如还想添加后缀或操纵元素本身,我会觉得可读性更高:
df = pd.DataFrame({'col':['a', 0]})
df['col'] = df['col'].apply(lambda x: "{}{}".format('str', x))
这也会产生所需的输出:
col
0 stra
1 str0
如果您使用的是Python 3.6+,则还可以使用f字符串:
df['col'] = df['col'].apply(lambda x: f"str{x}")
产生相同的输出。
f字符串版本几乎与@RomanPekar的解决方案(python 3.6.4)一样快:
df = pd.DataFrame({'col':['a', 0]*200000})
%timeit df['col'].apply(lambda x: f"str{x}")
117 ms ± 451 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
%timeit 'str' + df['col'].astype(str)
112 ms ± 1.04 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
format
但是,使用的确确实要慢得多:
%timeit df['col'].apply(lambda x: "{}{}".format('str', x))
185 ms ± 1.07 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
回答 2
您可以使用pandas.Series.map:
df['col'].map('str{}'.format)
它将在所有值之前加上“ str”一词。
回答 3
如果使用加载表文件dtype=str
或将列类型转换为字符串,df['a'] = df['a'].astype(str)
则可以使用以下方法:
df['a']= 'col' + df['a'].str[:]
这种方法允许使用的前缀,追加和子集字符串df
。
适用于Pandas v0.23.4,v0.24.1。不了解较早的版本。
回答 4
.loc的另一种解决方案:
df = pd.DataFrame({'col': ['a', 0]})
df.loc[df.index, 'col'] = 'string' + df['col'].astype(str)
这没有上述解决方案快(每个循环慢1ms以上),但在需要条件更改时可能有用,例如:
mask = (df['col'] == 0)
df.loc[mask, 'col'] = 'string' + df['col'].astype(str)