Menggunakan caching file Cloud Storage FUSE

Fitur cache file Cloud Storage FUSE adalah cache baca berbasis klien yang memungkinkan pembacaan file berulang ditayangkan dari penyimpanan cache yang lebih cepat sesuai pilihan Anda. Halaman ini menjelaskan cara mengaktifkan dan menggunakan penyimpanan dalam cache file Cloud Storage FUSE. Untuk ringkasan penyimpanan ke dalam cache file, penyimpanan ke dalam cache statistik, atau penyimpanan ke dalam cache jenis, lihat Ringkasan penyimpanan ke dalam cache.

Sebelum memulai

Cache file memerlukan jalur direktori yang akan digunakan untuk meng-cache file. Anda dapat membuat direktori baru di sistem file yang ada atau membuat sistem file baru di penyimpanan yang disediakan. Jika Anda menyediakan penyimpanan baru untuk digunakan, gunakan petunjuk berikut untuk membuat sistem file baru:

  1. Untuk Google Cloud Hyperdisk, lihat Membuat volume Google Cloud Hyperdisk baru.

  2. Untuk Persistent Disk, lihat Membuat volume Persistent Disk baru.

  3. Untuk SSD Lokal, lihat Menambahkan SSD Lokal ke VM.

  4. Untuk disk RAM dalam memori, lihat Membuat disk RAM dalam memori.

Mengaktifkan dan mengonfigurasi perilaku caching

  1. Aktifkan dan konfigurasikan penyimpanan dalam cache file menggunakan kolom file-cache di file konfigurasi Cloud Storage FUSE dan tentukan direktori cache yang ingin Anda gunakan di kolom cache-dir. Cache file dinonaktifkan secara default. Perhatikan bahwa Anda mengaktifkan penyimpanan dalam cache file dengan meneruskan direktori ke kolom cache-dir.

  2. Opsional: konfigurasikan statistik caching dan jenis caching menggunakan kolom metadata-cache dalam file konfigurasi. Untuk mempelajari cache statis dan jenis lebih lanjut, lihat Ringkasan caching jenis atau Ringkasan caching statis.

  3. Opsional: tingkatkan TTL entri yang di-cache dengan menetapkan opsi ttl-secs ke nilai berdasarkan waktu yang diharapkan antara pembacaan berulang sekaligus menyeimbangkan kebutuhan konsistensi. Sebaiknya tetapkan nilai ttl-secs setinggi mungkin sesuai dengan beban kerja Anda. Anda dapat mengonfigurasi TTL di file konfigurasi Cloud Storage FUSE. Untuk mengetahui informasi selengkapnya tentang cara menetapkan TTL untuk entri yang di-cache, lihat Time to live.

    Misalnya, file konfigurasi berikut mengaktifkan penyimpanan dalam cache file, penyimpanan dalam cache statis, dan penyimpanan dalam cache jenis dengan TTL 3600 detik dan direktori cache ditetapkan ke /path/to/a/directory/. Perhatikan bahwa max-size-mb ditetapkan ke -1, yang mengonfigurasi cache file untuk menggunakan semua kapasitas yang tersedia.

    file-cache:
      max-size-mb: -1
      cache-file-for-range-read: false
    
    metadata-cache:
      stat-cache-max-size-mb: 32
      ttl-secs: 3600
      type-cache-max-size-mb: 4
    
    cache-dir: /path/to/a/directory
    
  4. Opsional: percepat pembacaan file besar, termasuk pembacaan pertama kali, dengan mengaktifkan properti enable-parallel-downloads yang menggunakan beberapa pekerja untuk mendownload file besar secara paralel menggunakan direktori cache file sebagai buffering pengambilan data. Untuk informasi selengkapnya tentang download paralel dan cara mengonfigurasi properti pendukungnya, lihat Meningkatkan performa baca menggunakan download paralel.

  5. Jalankan perintah ls -R secara manual di bucket yang dipasang sebelum menjalankan beban kerja untuk mengisi metadata terlebih dahulu guna memastikan cache jenis diisi sebelum pembacaan pertama dalam metode batch yang lebih cepat. Untuk mengetahui informasi selengkapnya tentang cara meningkatkan performa pembacaan pertama kali, lihat Meningkatkan pembacaan pertama kali.

Mendownload beberapa file secara paralel menggunakan download paralel

Anda dapat meningkatkan performa baca dengan mengaktifkan dan mengonfigurasi fitur download paralel, yang menggunakan beberapa pekerja untuk mendownload file secara paralel menggunakan direktori cache file sebagai buffering pengambilan data. Sebaiknya gunakan download paralel untuk skenario pembacaan single-thread yang memuat file besar seperti penayangan model dan pemulihan titik pemeriksaan.

Sebelum Anda mengaktifkan download paralel, pertimbangkan hal berikut:

  • Jika aplikasi Anda melakukan paralelisme baca tinggi di atas delapan thread, Anda mungkin mengalami sedikit penurunan performa.

  • Sebaiknya jangan gunakan download paralel untuk beban kerja pelatihan karena paralelisme bacanya yang tinggi.

  • Untuk menggunakan download paralel, Anda harus mengaktifkan dan mengonfigurasi cache file terlebih dahulu.

  • File yang dibaca harus sesuai dengan kapasitas direktori cache file yang tersedia yang dapat dikontrol menggunakan properti max-size-mb.

Mengonfigurasi download paralel

  1. Dalam file konfigurasi Cloud Storage FUSE, tetapkan properti enable-parallel-downloads ke true dan secara opsional konfigurasikan setelan pendukung berikut:

    • parallel-downloads-per-file: jumlah pekerja maksimum yang dapat dibuat per file untuk mendownload objek dari Cloud Storage ke dalam cache file. Nilai defaultnya adalah 16.

    • max-parallel-downloads: jumlah pekerja maksimum yang dapat dibuat pada waktu tertentu di semua tugas download file. Setelan default ditetapkan ke dua kali jumlah core CPU di komputer Anda. Untuk menentukan tidak ada batas, masukkan nilai -1.

    • download-chunk-size-mb: ukuran setiap permintaan baca dalam MiB yang dibuat setiap pekerja ke Cloud Storage saat mendownload objek ke cache file. Ukuran default-nya adalah 50 MiB. Perhatikan bahwa download paralel hanya dipicu jika file yang dibaca adalah ukuran yang ditentukan.

Langkah selanjutnya