首页 体育 教育 财经 社会 娱乐 军事 国内 科技 互联网 房产 国际 女人 汽车 游戏

今日GitHub热榜第一:最全中华古诗词数据库,收录30多万诗词

2020-01-12

录入5.5万首唐诗,超越28万首宋词,还包括了诗经、论语、蒙学等……

这个名为“chinese-poetry”、声称“最全中文诗篇古典文集数据库”的项目,今天登顶GitHub热榜榜首。

截止发稿,这一项目已取得近2.5万标星,Fork超越4600,受欢迎度可见一斑。

项目发起者名为Jackey,在Teambition从事运维自动化作业。他解说了为什么要做这个库房:

从某种意义上来说,这些巨大的文集离咱们是有必定间隔的。而电子版便利复制,所以此开源数据库诞生了。此数据库经过 JSON 格局分发,能够让你很便利的开端你的项目。

整个项目最中心的内容,便是数据集了。

现在,库房中一共有10个数据集,分别是:全唐诗、全宋诗、全宋词、五代 花间集、五代 南唐二主词、论语、诗经、幽梦影、四书五经、蒙学。

这些数据,都来自互联网。怎么收集的?项目发起者也共享了全宋词爬取进程及数据剖析。

为什么没有古诗?他也给出了解说,古诗收集没有记载进程,由于古诗数据巨大,方针网站有约束,收集进程常常中止超越了一个星期。

围绕着数据库,他也进行了一个开始的词频剖析:

但这些数据集的运用,远远不止于此。

在项目中,作者也放上了运用数据集的运用事例。

有根据浏览器的诗词网站,有安卓版的运用“离线全唐诗”,有简体唐诗生成,也诗词桌面和相关小程序等等。

并且这些项目,也大都在GitHub上开源了。

假如你有爱好,能够收好传送门:

https://github.com/chinese-poetry/chinese-poetry

版权所有,未经授权不得以任何方式转载及运用,违者必究。

热门文章

随机推荐

推荐文章