Utilisez JuiceFS pour transformer le stockage cloud en un lecteur local haute performance

Le paradoxe du stockage cloud : Échelle bon marché, vitesse épouvantable

Le stockage d'objets cloud, exemplifié par AWS S3, offre une évolutivité et une rentabilité inégalées. Cependant, sa nature fondamentale axée sur les API crée un paradoxe significatif : les applications conçues pour les systèmes de fichiers traditionnels conformes à POSIX ont du mal à s'interfacer directement. Cette incompatibilité oblige les développeurs à réécrire du code ou à subir des performances abyssales, car les outils standards s'attendent à une sémantique de système de fichiers local, et non à des appels réseau à haute latence pour récupérer des objets de données individuels.

JuiceFS résout ce problème en agissant comme une couche d'abstraction transparente. Il sépare radicalement les métadonnées de fichiers des blocs de données brutes. Les métadonnées, englobant la disposition du système de fichiers, les permissions et les structures de répertoires, résident dans une base de données rapide et robuste comme Redis ou Postgres. Simultanément, les blocs de données brutes sont intelligemment poussés directement vers votre fournisseur de cloud choisi, tirant parti de l'échelle infinie de services comme S3.

La véritable innovation réside dans le moteur de cache multi-niveaux agressif de JuiceFS. Cette « arme secrète » pré-récupère et stocke les blocs de données fréquemment accédés sur un lecteur NVMe local. Bien que l'accès initial aux données implique une latence réseau, les requêtes ultérieures sont servies instantanément à partir de ce cache local à des vitesses de ligne matérielles. Cela permet même aux applications exigeantes de s'exécuter directement sur le stockage d'objets cloud, transformant une ressource lente et liée aux API en un lecteur local haute performance, conforme à POSIX.

De votre Cloud Bucket à un lecteur local en 5 minutes

La construction de votre lecteur local à partir du stockage cloud commence par un moteur de métadonnées. Lancez une instance Redis à l'aide de Docker ; cette base de données gérera la disposition, les permissions et les structures de répertoires de votre système de fichiers. Cette première étape cruciale prépare le terrain pour que JuiceFS sépare vos données de leurs métadonnées, optimisant ainsi les performances.

Ensuite, initialisez le système de fichiers avec la commande juicefs format. Fournissez la chaîne de connexion Redis, le nom de votre S3 bucket et les identifiants d'accès au cloud. Cette commande configure le schéma de stockage dans Redis et attribue un UUID unique à votre nouveau système de fichiers virtuel, sans modifier le S3 bucket lui-même.

Montez le lecteur virtuel vers un chemin de répertoire local à l'aide de la commande juicefs mount. Pointez la commande vers votre instance Redis et le dossier local souhaité. Les utilisateurs de macOS nécessitent macFUSE pour activer la prise en charge des systèmes de fichiers personnalisés, fournissant l'extension de noyau nécessaire au fonctionnement de JuiceFS.

Optimisez la gestion du cache local avec l'option --free-space-ratio. Ce paramètre empêche votre lecteur local de manquer d'espace en demandant à JuiceFS de purger agressivement les blocs de cache plus anciens et moins accédés lorsque le lecteur de cache local tombe en dessous d'un pourcentage de capacité spécifié. Par défaut à 20%, l'ajustement de ce ratio est essentiel pour une utilisation efficace de l'espace de travail.

Preuve : Du décalage réseau aux lectures à vitesse de ligne

Pour prouver cette transformation des performances, évaluez le lecteur JuiceFS nouvellement monté à l'aide de l'utilitaire classique dd. Cette commande lit un fichier vidéo volumineux (par exemple, input.mp4) à partir du montage JuiceFS, redirigeant la sortie vers /dev/null pour empêcher la copie réelle, tout en définissant une taille de bloc (bs) de 4 mégaoctets pour correspondre au découpage des données de JuiceFS. Le préfixe time mesure la durée d'exécution.

Exécutez cette commande dd une fois pour le test de « lecture à froid ». Étant donné que le fichier a été récemment téléchargé et n'est pas encore mis en cache localement, JuiceFS doit récupérer tous les blocs de données de 4 Mo depuis le cloud via Internet. Cette première exécution démontre une latence liée au réseau, prenant une durée considérablement plus longue à mesure que les données sont diffusées depuis le Amazon S3 - Cloud Object Storage distant.

Maintenant, exécutez exactement la même commande dd une seconde fois. L'invite du terminal revient presque instantanément, se terminant en moins d'une seconde. Cette « lecture à chaud » met en évidence l'efficacité de JuiceFS : les données sont désormais servies directement depuis le cache SSD local à la vitesse de ligne du matériel, en contournant entièrement Internet.

Cette différence de vitesse spectaculaire souligne la puissance du moteur de mise en cache multi-niveaux de JuiceFS. Lors de la lecture à froid, JuiceFS a silencieusement copié les blocs téléchargés sur le disque de travail NVMe local. Les requêtes ultérieures accèdent à ces données mises en cache, offrant des performances indiscernables de celles d'un lecteur local natif.

Cet article vous plaît ? Recevez-en un comme celui-ci chaque matin.

un e-mail par jour · désinscription en deux clics · aucun traqueur tiers

Alimenter Kubernetes, l'IA et l'Observabilité

JuiceFS transforme radicalement les déploiements cloud-natifs, offrant une solution robuste de stockage persistant à travers les clusters Kubernetes. Cela élimine la nécessité de provisionner un stockage de blocs cloud coûteux pour chaque nœud, réduisant considérablement les coûts d'infrastructure et simplifiant la gestion du stockage. Les clusters obtiennent un accès partagé à des ensembles de données massifs basés sur S3, rationalisant les déploiements d'applications gourmandes en données et améliorant l'efficacité globale des ressources.

Les pipelines d'IA et d'apprentissage automatique tirent d'immenses avantages de cette intégration directe du stockage d'objets cloud. Les scripts d'entraînement s'exécutent désormais instantanément sur des ensembles de données S3 à l'échelle du pétaoctet, contournant l'exigence traditionnelle et chronophage de tout télécharger localement en premier. Cette capacité accélère considérablement le développement de modèles, permettant une itération plus rapide et une utilisation plus efficace des ressources de calcul pour les charges de travail gourmandes en données.

L'observabilité intégrée offre des informations approfondies sur les opérations de stockage. JuiceFS expose un point de terminaison Prometheus standard, fournissant des métriques granulaires sur des aspects cruciaux tels que les taux d'accès au cache, le débit de lecture/écriture et la latence. Les utilisateurs peuvent facilement tunneler ce point de terminaison avec ngrok et configurer une plateforme d'observabilité, telle que Better Stack, pour collecter ces métriques. Cette configuration permet des tableaux de bord de performances en temps réel et des alertes proactives, garantissant une santé et une efficacité optimales du stockage.

Foire aux questions

Qu'est-ce que JuiceFS ?

JuiceFS est un système de fichiers distribué open-source et haute performance qui vous permet de monter un stockage d'objets cloud (comme AWS S3) comme un lecteur local, combinant l'évolutivité du cloud avec les performances locales.

Comment JuiceFS atteint-il des vitesses de lecteur local avec le stockage cloud ?

JuiceFS utilise un moteur de mise en cache multi-niveaux. Il sépare les métadonnées (structure de fichier, permissions) dans une base de données rapide comme Redis et stocke les blocs de données dans le cloud. Lorsqu'un fichier est accédé, il est mis en cache sur un SSD local, ce qui permet aux lectures ultérieures de se produire à la vitesse de ligne du matériel.

De quoi ai-je besoin pour commencer avec JuiceFS ?

Vous avez besoin de trois composants principaux : un compartiment de stockage d'objets cloud (par exemple, AWS S3), une base de données de métadonnées (par exemple, Redis) et le client JuiceFS installé sur votre machine. Pour macOS, vous devrez également installer macFUSE.

Plusieurs machines peuvent-elles monter le même volume JuiceFS ?

Oui, JuiceFS est conçu pour l'accès concurrentiel. Plusieurs clients ou pods dans un cluster Kubernetes peuvent monter et partager le même volume JuiceFS simultanément, ce qui le rend idéal pour le stockage persistant partagé.

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

Votre S3 Bucket est maintenant un SSD