根据 DOI 获取文献信息的实用指南
00 分钟
2025-1-6
2025-1-7
type
status
date
slug
summary
tags
category
icon
password
在学术研究中,获取文献的详细信息对于文献综述、引用管理以及进一步研究至关重要。本文将介绍如何利用 Crossref 的 API,根据 DOI(数字对象标识符)从 Excel 文件中批量获取文献信息,包括期刊名称、论文标题、出版日期以及 GitHub 地址。
 

步骤1:准备工作

1.1 准备DOI数据

假设你已经有一个包含DOI的Excel文件,格式如下:
notion image
你需要从Excel中读取这些DOI,并将其用来从Crossref API获取文献信息。
 

1.2 安装所需的Python库

我们需要以下Python库来完成任务:
  • pandas:用于处理Excel数据。
  • requests:用于发送HTTP请求。
  • tqdm:用于显示进度条,方便监控进度。
  • re:用于从文章摘要中提取GitHub URL。
你可以通过以下命令安装所需库:
 

步骤2:编写代码

2.1 定义获取元数据的函数

我们将使用Crossref API来获取文献的元数据。这个API允许我们通过DOI号查询期刊标题、论文标题、发表日期等信息。
 

2.2 查找GitHub地址

有些文章可能会在摘要或正文中包含GitHub链接。为了提取这些链接,我们定义一个简单的函数。
 

2.3 获取所有DOI的元数据

我们使用progress_apply来迭代DataFrame中的每个DOI,并获取其元数据。
 

2.4 将元数据合并到原始数据

我们将获取的元数据合并到原始DataFrame中。
 

步骤3:处理代理问题(可选)

如果你在请求过程中需要使用代理,可以在requests.get中设置代理:
 

完整代码

结合上面的步骤,完整的代码如下:
 
通过以上步骤,你可以轻松地根据DOI号提取文献的详细信息,并将其保存到Excel文件中。如果在请求过程中需要代理,也可以进行配置,确保顺利访问API。
希望这篇博客能够帮助你顺利提取并导出DOI文献信息!
 
上一篇
机器学习
下一篇
linux 系统安装

评论
Loading...