ASCII码 ASCII码

Kaggle八项大奖斩获其6:用于筛选和分析文献的paperai

发布于:2020-12-17 10:22:46  栏目:技术文档

  木易发自凹非寺 

  量子位报道公众号 QbitAI

  近日,一项用于筛选和分析文献的 AI 工具 paperai,冲上了 Reddit 热榜。

  原因是:他在 CORD-19(COVID-19 文献数据集) Kaggle 挑战赛中斩获了6 项大奖

  对于这一项工具,开发者说:

帮助研究人员从枯燥乏味的文献筛选中解放出来,让他们可以更加专注于核心工作。

  这又是一项什么神仙工具?让我们来仔细看看。

  Kaggle CORD-19 斩获 6 项大奖

  Kaggle CORD-19 挑战赛,全称是 COVID-19 开放研究数据集挑战赛。

  主办方准备了一个庞大的文献数据库,包含了 20 多万篇学术论文,其中有 10 万余篇是与 COVID-19 相关的研究。

  该比赛希望全世界 AI 专家使用文本挖掘工具,来完成比赛中的各类任务。

  最后,帮助研究人员能从浩如烟海的文献进行高效检索,为推进 COVID-19 的研究提供帮助。

  就是在这样一项比赛中,这个 paperai,获得了8 项任务大奖中的6 项

  • 创建了与新冠肺炎相关的人口研究的汇总表;

  • 创建了与新冠肺炎相关的患者描述的汇总表;

  • 创建了与新冠肺炎相关的模型和未决问题的汇总表;

  • 创建了与新冠肺炎相关的材料研究的汇总表;

  • 创建了针对新冠肺炎诊断的汇总表;

  • 创建了与新冠肺炎相关的风险因素的汇总表。

  对于一项工具,在多项任务的普适,这毫无疑问是巨大的成功。

  那么,这么强势的一项工具,其背后,又是如何运行工作的呢?

  句嵌入索引分析 CORD-19

  简单来说就是,该模型就是句嵌入索引带有文章的 SQLite 数据库的组合。

  首先,每篇文章都被解析成句子,并与文章元数据一起存储在 SQLite 中。

  SQLite 本身就具有虚拟表模块FTS5,可以进行全文搜索。

  这个全文搜索引擎,允许用户在大量文档集合中高效地搜索包含一个或多个搜索词。

  SQLite 的 FTS5 默认加权方案是 tf-idf,此外,它还支持 BM25,这使得性能够进一步提高。

  之后,使用FastText+BM25创建句嵌入索引。

  BM25 是一个词袋检索功能,它根据每个文档中出现的查询词对一组文档进行排序。

  最后,开发者选择使用 FastText 为每个标记检索单词嵌入。为了构建句子嵌入,嵌入可以被平均在一起以创建单个嵌入向量。

  于是,在各种 Buff 的加持下,我们能够看到的是:

  在整个语料库上,预先训练得到了 FastText 向量,加上了 BM25 辅助建立索引并排列。最后,得到带有句嵌入索引的文章,帮助检索产生最相关的结果。

  最后,检索出来句子,会通过过 TextRank 算法进行分析和运行,以便在最终的报告中,以高亮的形式框出。

  以上图为例,在目标进行检索后,系统会输出文献的基本信息,如日期研究方向期刊等。

  之后,会在对你所检索的问题进行句子提取和所在文献的排序,最终在文献中,所在句子会以高亮的形式框出。

  目前,检索生成的报告支持多种格式的输出:

  1. Markdown(默认),输出 Markdown 报告。

  2. CSV,输出 CSV 报告。

  3. 注释,从文章中提取结果,并在原始的 PDF 文件上进行注释。

  目前,该项目已经在 Github 开源获取,感兴趣的小伙伴可以点击下面链接访问获得。

  Reddit 链接:

https://www.reddit.com/r/MachineLearning/comments/kbnlte/p_paperai_aipowered_literature_discovery_and/

  Github 链接:

https://github.com/neuml/paperai

相关推荐
阅读 +