分享
  • 收藏
    X
    HathiTrust Digital Library 图书馆书籍下载器
    5982
    59

    2021.7.14更新:

    近日有书友反映下载器失效了,究其原因,可能是网页进行了改版导致下载器失效。

    于是抽了些时间对下载器进行了更新。同时把下载器下载全本、单卷功能集中到一起,任君选择。界面如下图所示。

    食用方法仍与之前一致。


    --------------------------------------------------------------------------------------------------------------------------------

    2021.7.1 更新:

    昨天说到,下载单个章节(卷次)功能的下载器,卷次及文件名称会自动命名为网页中的名称,但这个名称往往不是我们需要的,影响阅读。所以今天再次进行更新,可以在下载之前输入自己想要命名的名称,则在下载后,建立的文件夹及文件会自动命名为自己的需要的名称。

    --------------------------------------------------------------------------------------------------------------------------------

    2021.6.30更新:

    上次下载器经推出后,承蒙书友的厚爱,得到了不少书友的认可。最近有书友提出希望实现下载单个章节(卷次)的功能,这功能本来是下载器逻辑的一部分,只是没有单独拿出来。既然有人提出需求,那么就再更新一个下载单个章节(卷次)的下载器……


    本次没有采用图形化界面,因为上次的界面感觉有点华而不实,遂弃之。能把书下载下来才是王道嘛!

    同样的操作方式,只是输入的链接有点区别,不是输入“Catalog Record”里面的链接,而是输入“Full View”里面的链接(见下图上方)。这点要注意!同样地,可以下载image或pdf两种格式。


            PS:在win7系统下,在窗口中不能直接用ctrl+V快捷键粘贴链接,要采用如上图方式进行粘贴(在下载器上方,鼠标右键,依次选择编辑/粘贴)。输入image或pdf时则直接输入即可。

    两个要素输入后,会自动在本下载器同路径生成一个“HathiTrust Digital Library”文件夹,所有下载的文件会按章节(卷次)名建立文件夹,下载的文件会在里面。章节(卷次)名以及文件会以网页内左侧的名称(见下图左侧)来命名,比较遗憾的是这个名称往往是拼音或其他表现形式,而不是中文。


    下载文件过程中同样会出现超时等现象,如果发现有漏下的情况,只须重新运行下载器,输入同样的链接及文件类型即可,下载器会跳过已经存在的文件,对漏下文件进行补下。

    --------------------------------------------------------------------------------------------------------------------------------

    此前与书友聊起下载书籍事宜,得知“HathiTrust Digital Library”(https://www.hathitrust.org/)这个网站拥有丰富的书籍资源,并且对外免费开放,只是下载不便。正好识得编程皮毛,本着提升技术及方便书友的初心,遂尝试写了一个下载器。经过一段时间的努力及若干书友的测试,下载器终于勉强算是完成了,虽然仍有不如意的地方,但总算能够实现下载功能。今天将它分享出来,以供需要者之需。

    下面简单介绍一下下载器的使用方法及注意事项,以减少使用中出错的可能。

    一、获得下载链接及选择下载文件类型

    1.打开网站HathiTrust Digital Library主页(https://www.hathitrust.org/),如下图所示,在箭头处的搜索框输入想要搜索的书籍(由于是国外的网站,有时要用繁体或英文、拼音尝试搜索),然后点击“Search HathiTrust”进行搜索。(注意,搜索框下面的“Full-text”及“Catalog”选项应该会影响搜索结果,大家可以尝试一下有什么不同效果)


    2.在上一步中,以搜索“西廂記”例,来到下载这个界面。假设,下面这本书就是我们要的书籍,它有两个链接,分别是:“Catalog Record”和“Full View”。可以分别点击进去看一下,有什么区别。


    “Catalog Record”标签点击进去的界面如下:




    “Full View”标签点击进去的界面如下:


    可以发现,“Catalog Record”标签页相当是该书籍的目录页,里面记载了书籍的基本信息、分卷情况以及每卷的访问链接。

    “Full View”标签页则是某卷的具体内容,里面有该卷的总页数,以及可以选择pdf、txt、image三种格式进行下载。不过如果在这里下载的话,则只能一次性下载一张。这显然是一项很麻烦的工作。

    二、下载器界面


    如上图,下载器有两个界面,上一个是输入下载页链接及下载文件类别的界面,下一个是显示下载进度等其他信息的界面。

    三、下载器的操作

    下载器界面中,其中一个界面文本框内可以输入书籍链接。刚刚说了,如果在原网址上下载,每次只能下载一页,这种慢效率的方法显然不可取,我们又了解到在 “Catalog Record”标签中,罗列了书籍的基本信息及分卷情况。所以本着最简便的原则,我们当然想一次性自动把该书籍的所有卷次下载下来。所以在下载器界面中输入链接的文本框是输入“Catalog Record”标签页的链接,输入“Full View”标签页的链接是无效的。切记!

    另外,上面在“Full View”标签页中可以看到,下载的文件格式有pdf、txt、image三种,这里实现了下载pdf及image格式文件的功能,所以下载器界面中第二个文本框中,则输入pdf或image,输入其他字符也是无效的。(建议优先下载image格式,下载器对pdf格式的下载支持不算友好,部分pdf文档下载下来没有内容,打不开)。

    如下图所示:



    undefined

    然后点击“开始下载”,就可以愉快地下载该书籍了。下载界面进度等其他信息在另一个界面,请留意观察。


    四、下载的文件

    下载之初,下载器首先会在下载器同路径下新建一个叫“HathiTrust Digital Library”的文件夹,所有下载的书籍都会按照书籍名、卷次名依次放在这个文件夹内。





    书籍的命名规则是抓取“Catalog Record”标签页中的书籍名,卷次命名规则也是“Catalog Record”标签页中的卷次名,每卷次文件夹中的文件命名是按照“卷次名”+“序号”的原则。虽然阅读起来不够直观,但后续如果用类似adobe acrobat软件合并成pdf倒是很方便,因为它们按照顺序排序的,倒不担心会出错。

     五、若干说明

    1.关于杀软报毒问题。据反馈360会误报病毒,这个只能保证此下载器确实没有病毒,如果介意的话,请考虑清楚再使用。

    2.关于响应超时问题。在下载过程中,如果尝试下载某一页超过设定的时间,则会判定该页响应超时,则自动开始尝试下载下一页,这意味着这一页在本次下载并没有下载下来。

    3.下载过程中关闭下载器的问题。在下载过程中,如果关闭了下载器,也无须担心,只需要再次运行下载器,输入正确的链接及相同的文件格式(如image),则下载器会智能跳过此前已经存在的图片或pdf,快速来到没有下载的地方,继续下载。同理,针对响应超时的情况,则只要再次运行下载器,它就能执行补下载操作。

    4.个人水平有限,下载器难免有不足之处,如发现问题,可到古书网与本人联系。

    5.本下载器仅作为交流之用,请勿用于商业用途,请于下载24小时内删除。

    六、下载器下载链接

    附件上下载器链接

    以下是隐藏的内容需要回复才可见,你回复后,需要刷新网页才可见!
    ************************************

    16
    收藏
    点击回复
        全部留言
    • 59
    • 三贤 普通會員 消费:0元 1天前 20:561楼
      好东西
    0 回复
    • Victor 普通會員 消费:0元 1天前 16:362楼

      赞赞赞。。
    0 回复
    • 正定西邢 普通會員 消费:0元 4天前 19:523楼
      感谢分享!
    0 回复
    • 吴柏林 普通會員 消费:0元 5天前 15:354楼
      还能不能用了
    0 回复
    • 会飞的鱼 古書會員VIP 消费:50元 7天前 06:25
      其他手机
      5楼
      不错
    0 回复
    • 海上小舟 普通會員 消费:0元 7天前 11:58
      华为
      6楼
      谢谢分享。
    0 回复
    • 大熊的风筝 普通會員 消费:0元 10天前 13:017楼
      还能不能用了
    0 回复
    0 回复
    • 孤翁 普通會員 消费:0元 16天前 09:239楼
      求链接,谢谢分享
    0 回复
    0 回复
    • 正定西邢 普通會員 消费:0元 23天前 08:0311楼
      谢谢分享!
    0 回复
    0 回复
    0 回复
    • 金灿灿 普通會員 消费:0元 23天前 14:57
      iPhone
      14楼
      感谢开发者分享
    0 回复
    • 小盘盘 普通會員 消费:0元 23天前 14:3815楼
      下载器
    0 回复
    更多回复
        你可能感兴趣的主题
    软件圈
        圈内贴子599
    • 古书商圈成员41

    扫一扫访问手机版