Hướng dẫn dùng Wayback machine scraper để lấy lại data web cũ trên Google Collaboratory

Table of Contents

Hướng dẫn dùng Wayback machine scraper để lấy lại data web cũ trên Google Collaboratory

Chuyện là hồi trước, từ xa xưa rồi. Từ những năm 2013 mình có làm 1 site cá nhân tên là trangxoa.com

trangxoa.com

Sau vì một phút "sầu đời" mà mình bỏ rơi nó và kênh Youtube - soiqualang.chentreu, không gian hạn domain, hosting đi ở đậu nhà người ta cũng bỏ luôn mất hết database và source code

Nay bình tâm lại thì mình sai rồi. Muốn sửa sai với em nó thì.. hỡi ôi, gương vỡ sao lành được nữa. Data đã mất thì còn mong gì lấy lại được trọn vẹn =))

May nhờ cỗ máy thời gian web.archive.org còn lưu trữ chút hình bóng của người xưa. Nay có mong muốn backup về để mà lưu giữ và chia sẻ những kiến thức trong Web cũ. Đó cũng là việc khiến cho em ấy có thêm ý nghĩa với cuộc đời này :v

Giờ thì mình đã mua lại domain cũ rồi, nhưng nó sẽ không bao giờ quay lại với nội dung như trước nữa, mà nó sẽ là trang chia sẻ các câu châm ngôn của mình

Giao diện của Wayback machine

Dưới là khung thời gian mà trang web này "sao chụp" lại trang web của mình (Khoảng năm 2013 đến 2016)

Hic, cái giao diện thân quen khi xưa

https://web.archive.org/web/20161009185733/http://trangxoa.com/

Tool The Wayback Machine Scraper

https://github.com/soiqualang/wayback-machine-scraper

Đây là tool giúp chúng ta crawl data từ cái web.archive.org ở trên

https://web.archive.org/web/20161009185733/http://trangxoa.com/

Tool này được viết bằng python, do vậy cần máy có cài python để chạy. Hôm qua mình mới giới thiệu Google Cola (Google Collaboratory) nên giờ mình sẽ dùng nó để chạy tool luôn :v. Bắt đầu nào!

0 thoughts on “Hướng dẫn dùng Wayback machine scraper để lấy lại data web cũ trên Google Collaboratory”

Phong Thần Thánh says:

26/11/2020 at 11:34 am

Cái này chỉ là lưu dưới dạng HTML xong sau đó mình vẫn phải mở ra và copy tay lên web đúng k bác? Cám ơn bác nhiều!

Reply
1. soiqualang_chentreu says:
  
  01/12/2020 at 3:30 pm
  
  Đúng rồi bạn, bản chất cái tool này là nó crawl web của mình ở dạng html rồi lưu lại, giờ mình download về cũng là html (web tĩnh thôi), nếu muốn đưa vô cái web động hiện có của mình thì phải đưa dữ liệu vào lại Database (copy thủ công hoặc viết tool import html vô DB). Còn làm biếng thì cứ vậy up lên host thì cũng duyệt được như web tĩnh thôi.
  
  Reply
  1. Phong Thần Thánh says:
    
    17/02/2021 at 10:07 pm
    
    Mình không biết python thì có cách nào sử dụng được không ạ? Hoặc bạn có thể tải cho mình 1 site được không? Mình gửi phí cafe ạ. Thanks bác ạ!
    
    Reply
    1. soiqualang_chentreu says:
      
      19/02/2021 at 11:36 am
      
      Thế bạn tính download site nào? Mình xem thử mới đánh giá được download được hay ko hay trên Wayback machine đang có những snapshot nào khả dụng. Còn phí cà phê thì để xem bạn cần gì, nếu đơn giản thì khỏi cũng được, xem như quen thêm người bạn.
      
      Reply
      1. Phong Thần Thánh says:
        
        07/04/2021 at 10:02 pm
        
        Em cám ơn bác. E định dựng lại mà thấy mất công quá nên bán luôn domain rồi. Chúc site bác luôn phát triển ạ!
      2. Phong Thần Thánh says:
        
        09/02/2022 at 2:51 pm
        
        Không thấy contact của bác nhỉ @@
An says:

17/02/2021 at 4:51 pm

cái này chỉ down đc 1 trang url thôi hả chủ thớt? chứ o down đc cả site

Reply
1. soiqualang_chentreu says:
  
  19/02/2021 at 11:39 am
  
  Cái này download được cả trang đó bạn, nhưng chỉ những trang mà Wayback machine đã lưu trước khi site đó ngủm đó nên có thể có những trang (không được index) sẽ không có.
  Còn nếu site đó còn sống thì mình có thể download được tất cả các page luôn (Dùng tool khác hoặc tự viết)
  
  Reply
toang says:

08/04/2021 at 12:11 pm

Bác cho hỏi có lấy được ảnh về không?

Reply
Thành says:

10/02/2022 at 4:55 pm

Bác cho em xin contact hỏi cho dễ được không. Em gửi ít tiền cafe

Reply

Long's blog

Hướng dẫn dùng Wayback machine scraper để lấy lại data web cũ trên Google Collaboratory

Hướng dẫn dùng Wayback machine scraper để lấy lại data web cũ trên Google Collaboratory

Tool The Wayback Machine Scraper

0 thoughts on “Hướng dẫn dùng Wayback machine scraper để lấy lại data web cũ trên Google Collaboratory”

Leave a Reply Cancel reply