如何在拥抱脸的 load_dataset 的文本文件中启用标题?

扎眼的阳光 nlp 342

原文标题How to enable header in text files of load_dataset in huggingface?

我正在尝试使用 huggingface (https://huggingface.co/docs/datasets/v1.2.1/loading_datasets.html) 加载文本文件

from datasets import load_dataset
dataset = load_dataset('text', data_files='my_file.txt')

这个文本文件已经包含标题,我如何向模块表明这一点(比如,header = True,如果是 pandasread_csv())?

另外,我如何提及它是制表符/逗号分隔的?

有没有办法以表格格式显示这些数据?

原文链接:https://stackoverflow.com//questions/71882450/how-to-enable-header-in-text-files-of-load-dataset-in-huggingface

回复

我来回复
  • cronoik的头像
    cronoik 评论

    他们正在使用pandas.read_csv(),您可以通过load_dataset传递参数:

    from datasets import load_dataset
    
    a = load_dataset("csv", data_files="bla.tsv", sep="\t")
    
    2年前 0条评论