问题:CSV导入熊猫时跳过行
我正在尝试使用导入.csv文件pandas.read_csv()
,但是我不想导入数据文件的第二行(索引为0的索引为1的行)。
我看不到如何不导入它,因为与命令一起使用的参数似乎模棱两可:
从熊猫网站:
skiprows
:类列表或整数文件开头要跳过的行号(索引为0)或要跳过的行数(整数)。”
如果输入skiprows=1
参数,它如何知道是跳过第一行还是跳过索引为1的行?
回答 0
您可以尝试:
>>> import pandas as pd
>>> from StringIO import StringIO
>>> s = """1, 2
... 3, 4
... 5, 6"""
>>> pd.read_csv(StringIO(s), skiprows=[1], header=None)
0 1
0 1 2
1 5 6
>>> pd.read_csv(StringIO(s), skiprows=1, header=None)
0 1
0 3 4
1 5 6
回答 1
回答 2
在读取csv文件时运行行列时遇到相同的问题。我当时在做skip_rows = 1这行不通
一个简单的示例给出了一个在读取csv文件时如何使用跳栏的想法。
import pandas as pd
#skiprows=1 will skip first line and try to read from second line
df = pd.read_csv('my_csv_file.csv', skiprows=1) ## pandas as pd
#print the data frame
df
回答 3
所有这些答案都遗漏了一个重要点-第n行是文件中的第n行,而不是数据集中的第n行。我遇到从USGS下载一些过时的流量表数据的情况。数据集的开头用“#”注释,其后的第一行是标签,下一行是描述日期类型的行,最后是数据本身。我不知道有多少条注释行,但是我知道前几行是什么。例:
– – – – – – – – – – – – – – – 警告 – – – – – – – – – – ————–
您从此美国地质调查局数据库中获得的一些数据
可能尚未获得董事的批准。… agency_cd site_no datetime tz_cd 139719_00065 139719_00065_cd
5s 15s 20d 6s 14n 10s USGS 08041780 2018-05-06 00:00 CDT 1.98 A
如果有一种方法可以自动跳过第n行和第n行,那就太好了。
作为说明,我能够通过以下方式解决问题:
import pandas as pd
ds = pd.read_csv(fname, comment='#', sep='\t', header=0, parse_dates=True)
ds.drop(0, inplace=True)
回答 4
skip[1]
将跳过第二行,而不是第一行。
回答 5
另外,请确保您的文件实际上是CSV文件。例如,如果您有一个.xls文件,并且只是将文件扩展名更改为.csv,则该文件将不会导入,并且会出现上述错误。要检查是否是您的问题,请在excel中打开文件,该文件可能会显示:
“’Filename.csv’的文件格式和扩展名不匹配。该文件可能已损坏或不安全。除非您信任它的来源,否则请不要打开它。是否仍要打开它?”
修复文件:在Excel中打开文件,单击“另存为”,选择要另存为的文件格式(使用.cvs),然后替换现有文件。
这是我的问题,并为我修复了错误。