type
status
date
slug
summary
tags
category
icon
password
在学术研究中,获取文献的详细信息对于文献综述、引用管理以及进一步研究至关重要。本文将介绍如何利用 Crossref 的 API,根据 DOI(数字对象标识符)从 Excel 文件中批量获取文献信息,包括期刊名称、论文标题、出版日期以及 GitHub 地址。
步骤1:准备工作
1.1 准备DOI数据
假设你已经有一个包含DOI的Excel文件,格式如下:
你需要从Excel中读取这些DOI,并将其用来从Crossref API获取文献信息。
1.2 安装所需的Python库
我们需要以下Python库来完成任务:
- pandas:用于处理Excel数据。
- requests:用于发送HTTP请求。
- tqdm:用于显示进度条,方便监控进度。
- re:用于从文章摘要中提取GitHub URL。
你可以通过以下命令安装所需库:
步骤2:编写代码
2.1 定义获取元数据的函数
我们将使用Crossref API来获取文献的元数据。这个API允许我们通过DOI号查询期刊标题、论文标题、发表日期等信息。
2.2 查找GitHub地址
有些文章可能会在摘要或正文中包含GitHub链接。为了提取这些链接,我们定义一个简单的函数。
2.3 获取所有DOI的元数据
我们使用progress_apply来迭代DataFrame中的每个DOI,并获取其元数据。
2.4 将元数据合并到原始数据
我们将获取的元数据合并到原始DataFrame中。
步骤3:处理代理问题(可选)
如果你在请求过程中需要使用代理,可以在requests.get中设置代理:
完整代码
结合上面的步骤,完整的代码如下:
通过以上步骤,你可以轻松地根据DOI号提取文献的详细信息,并将其保存到Excel文件中。如果在请求过程中需要代理,也可以进行配置,确保顺利访问API。
希望这篇博客能够帮助你顺利提取并导出DOI文献信息!
- 作者:Yinqi Yang
- 链接:https://yangyinqi.top/article/doi_metadata_extractor
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。