Hướng dẫn dùng Wayback machine scraper để lấy lại data web cũ trên Google Collaboratory
Chuyện là hồi trước, từ xa xưa rồi. Từ những năm 2013 mình có làm 1 site cá nhân tên là trangxoa.com
trangxoa.com
Sau vì một phút "sầu đời" mà mình bỏ rơi nó và kênh Youtube - soiqualang.chentreu, không gian hạn domain, hosting đi ở đậu nhà người ta cũng bỏ luôn mất hết database và source code
Nay bình tâm lại thì mình sai rồi. Muốn sửa sai với em nó thì.. hỡi ôi, gương vỡ sao lành được nữa. Data đã mất thì còn mong gì lấy lại được trọn vẹn =))
May nhờ cỗ máy thời gian web.archive.org còn lưu trữ chút hình bóng của người xưa. Nay có mong muốn backup về để mà lưu giữ và chia sẻ những kiến thức trong Web cũ. Đó cũng là việc khiến cho em ấy có thêm ý nghĩa với cuộc đời này :v
Giờ thì mình đã mua lại domain cũ rồi, nhưng nó sẽ không bao giờ quay lại với nội dung như trước nữa, mà nó sẽ là trang chia sẻ các câu châm ngôn của mình
Giao diện của Wayback machine
Dưới là khung thời gian mà trang web này "sao chụp" lại trang web của mình (Khoảng năm 2013 đến 2016)
Hic, cái giao diện thân quen khi xưa
https://web.archive.org/web/20161009185733/http://trangxoa.com/
Tool The Wayback Machine Scraper
https://github.com/soiqualang/wayback-machine-scraper
Đây là tool giúp chúng ta crawl data từ cái web.archive.org ở trên
https://web.archive.org/web/20161009185733/http://trangxoa.com/
Tool này được viết bằng python, do vậy cần máy có cài python để chạy. Hôm qua mình mới giới thiệu Google Cola (Google Collaboratory) nên giờ mình sẽ dùng nó để chạy tool luôn :v. Bắt đầu nào!
Cái này chỉ là lưu dưới dạng HTML xong sau đó mình vẫn phải mở ra và copy tay lên web đúng k bác? Cám ơn bác nhiều!
Đúng rồi bạn, bản chất cái tool này là nó crawl web của mình ở dạng html rồi lưu lại, giờ mình download về cũng là html (web tĩnh thôi), nếu muốn đưa vô cái web động hiện có của mình thì phải đưa dữ liệu vào lại Database (copy thủ công hoặc viết tool import html vô DB). Còn làm biếng thì cứ vậy up lên host thì cũng duyệt được như web tĩnh thôi.
Mình không biết python thì có cách nào sử dụng được không ạ? Hoặc bạn có thể tải cho mình 1 site được không? Mình gửi phí cafe ạ. Thanks bác ạ!
Thế bạn tính download site nào? Mình xem thử mới đánh giá được download được hay ko hay trên Wayback machine đang có những snapshot nào khả dụng. Còn phí cà phê thì để xem bạn cần gì, nếu đơn giản thì khỏi cũng được, xem như quen thêm người bạn.
Em cám ơn bác. E định dựng lại mà thấy mất công quá nên bán luôn domain rồi. Chúc site bác luôn phát triển ạ!
Không thấy contact của bác nhỉ @@
cái này chỉ down đc 1 trang url thôi hả chủ thớt? chứ o down đc cả site
Cái này download được cả trang đó bạn, nhưng chỉ những trang mà Wayback machine đã lưu trước khi site đó ngủm đó nên có thể có những trang (không được index) sẽ không có.
Còn nếu site đó còn sống thì mình có thể download được tất cả các page luôn (Dùng tool khác hoặc tự viết)
Bác cho hỏi có lấy được ảnh về không?
Bác cho em xin contact hỏi cho dễ được không. Em gửi ít tiền cafe