• il y a 3 jours
22 941 vues 23 mars 2025
Utiliser une IA comme ChatGPT sans Internet, gratuitement et en gardant tes données 100% privées ? C’est possible… et même simple, quand on sait quoi faire !

Dans cette vidéo, je te montre comment installer et utiliser des IA locales (comme Mistral, DeepSeek, Gemma…) sur ton propre ordinateur.
Je te partage tout ce que j’ai appris après avoir dû bosser dans un avion sans Wi-Fi 🛫 — spoiler : mon nouveau setup m’a sauvé 💡

📍 Au programme :
→ Démo en live sans connexion Internet (Enchanted, LM Studio, etc.)
→ C’est quoi un modèle open source ?
→ Comment les installer (Windows / Mac)
→ Quel modèle choisir selon tes besoins et la puissance de ton ordi
→ Astuces pour optimiser ton setup (PDF, images, voix, RAG, etc.)
→ Utilisations avancées : API, Make, n8n, génération de code locale…



📦 Outils mentionnés :
→ Ollama : https://ollama.com
→ LM Studio : https://lmstudio.ai
→ Enchanted (Mac) : https://enchanted.chat
→ Ngrok : https://ngrok.com
→ Continue (VS Code) : https://continue.dev
→ Make : https://www.make.com/
→ N8N : https://n8n.io

🔗 La liste des LLM open source
https://github.com/Hannibal046/Awesom...
#ChatGPT #Ollama #LMStudio #Enchanted #Ngrok

Catégorie

🤖
Technologie
Transcription
00:00Les amis je suis devenu littéralement accro à des outils comme chatgpt ou cloud et je suis certain que vous aussi je les utilise
00:06littéralement plus d'une centaine de fois dans une seule journée. Mais récemment j'ai dû prendre un vol
00:11long courrier donc de 9 heures pour aller en Inde sans connexion internet. Et là panique j'avais une grosse session de taf qui m'attendait dans
00:18l'avion et je savais pertinemment que j'allais être beaucoup moins productif sans un outil comme chatgpt ou cloud.
00:23Alors heureusement que j'ai trouvé une solution avant de monter dans le vol qui est celle d'installer une IA conversationnel un petit peu comme chatgpt
00:29mais en local sur mon ordi et donc pas besoin de connexion internet. Et cerise sur le gâteau c'est 100% gratuit et beaucoup plus
00:37sécurisé si jamais on balance des informations confidentielles sur ce genre de chatbot
00:41conversationnel. Dans cette vidéo je vais vous montrer comment faire vous allez voir c'est assez simple quand on sait où regarder et quoi faire.
00:46Vous allez voir c'est un game changer une fois qu'on a une solution à nous et donc on est beaucoup plus indépendant que
00:52n'importe quel outil comme chatgpt. Mais je vais pas vous mentir il y a des avantages et des inconvénients à utiliser des IA locales
00:57VS des IA propriétaires mais on va voir tout ça dans cette vidéo mais avant ça je vous fais une petite démo. Alors pendant toute
01:03cette vidéo je vais couper ma connexion internet pour vous montrer que je mens pas et en effet quand là je suis sur chatgpt
01:09et que j'ai envie de lui demander un truc évidemment il va me dire que c'est pas possible parce qu'il n'a pas
01:15de connexion internet. Donc il va essayer de chercher quand même mais là vu que j'ai pas de wifi du tout il me dit la
01:21connexion est impossible.
01:23Et donc moi je vais utiliser
01:24Enchanted qui est une interface graphique qui permet et bien d'utiliser des modèles locaux que moi j'ai
01:30installés sur mon ordi c'est des modèles open source on va voir plus en détail ce que c'est tout à l'heure.
01:35Mais un peu comme chatgpt où en fait chatgpt nous permet d'aller regarder et d'utiliser plusieurs modèles différents là moi j'ai installé mes
01:42propres modèles. Donc comment ça marche je vais aller par exemple lui poser une question simple est-ce que tu peux m'aider à écrire une vidéo
01:48une intro pour ma vidéo sur l'open source hop il s'exécute et il m'aide. Et donc là dans l'avion typiquement ça m'a permis de
01:54brainstormer un petit peu quand j'étais en train de préparer cette vidéo.
01:57Ça c'est pour les utilisateurs de Mac parce que Enchanted il est uniquement disponible sur Mac mais
02:02vous avez aussi un autre outil pour les utilisateurs Windows mais
02:05même en général on va voir que c'est un très bon outil même pour les utilisateurs de Mac c'est
02:09LM studio. LM studio de la même manière en fait il va me permettre ici de choisir des modèles que j'ai
02:16installés. Il a aussi une librairie de modèles qu'on va
02:19qu'on va pouvoir installer plus en détail.
02:20Ici on va vraiment voir tout ça tout à l'heure donc ça c'est tous les modèles open source qui sont disponibles mais de la même
02:26manière si je lui demande
02:27corrige moi ce mail en français je lui ai donné un mail rapidement à corriger je lui envoie ça et pareil il va ici
02:36me corriger ce mail. J'ai aussi la possibilité dans LM studio et bien contrairement à Enchanted
02:42d'uploader des images donc là typiquement si je lui donne cette image et je lui demande de me décrire ce qu'il y a sur l'image
02:51Lui il va pouvoir
02:54regarder ce qu'il y a dans cette image parce que c'est des modèles qui sont multimodaux. Là GEMA c'est un modèle de Google qui est
03:00open source et donc il va pouvoir
03:02me lire ça mais j'aurais pu utiliser Mistral ou d'autres logos d'autres pardon
03:06LLM qui me permettent de faire ça. Donc là il m'explique un petit peu ce qu'il y a sur l'image
03:10avec tous les logos qu'il y a dessus et encore une fois je suis encore hors ligne
03:15Dernière chose rapide c'est l'ajout de pdf. Donc typiquement je vais ici trouver un pdf qu'il y a
03:21sur mon ordi et donc je sais pas je vais trouver une presse peut-être
03:25voilà presse mobile summit c'est une presse que j'avais fait pour
03:30pour un client donc j'envoie ça je vais dire donne moi le plan
03:35de cette presse en pdf et donc là normalement ce modèle il est capable
03:40d'aller lire dans le pdf et d'aller me prendre les informations. On va voir ce qu'il va
03:46ce qu'il va me dire. Donc là ce qu'il est en train de faire c'est essayer de
03:51d'extraire ce qu'il y a sur le pdf. Donc il me fait le plan
03:54du pdf il me le fait en anglais je crois que parce que la presse je sais pas si elle est en anglais non elle
03:59est pas en anglais mais je peux comme dans chat gpt et bien mettre des systèmes prompt
04:04donc je peux aller par exemple dans Enchanted et
04:08dans settings je peux lui mettre un système prompt qui lui dit que tout ce qui va se passer dans
04:12cette application va se faire uniquement en français ou en anglais peu importe. Bon la réalité c'est que je vous démontrer là
04:18uniquement deux exemples sur cinq
04:21pour ces exemples là j'ai besoin en fait de vous donner un peu plus de contexte de vous donner
04:26ce qui va se passer dans la suite de cette vidéo et donc pour
04:30pour mieux comprendre il faut qu'on avance un petit peu. Mais pour tous ceux qui me découvrent via cette vidéo je m'appelle Shoubham
04:34Sharma. Aujourd'hui je forme des milliers de personnes à l'automatisation et à l'IA. Avant ça j'étais ingénieur développeur dans plusieurs start-up
04:41françaises et scale-up françaises également
04:44et notamment j'ai travaillé pas mal avec des outils open source comme
04:46MGML ou encore PM2 pour les développeurs à qui ça parle et aujourd'hui je passe tout mon temps à
04:51geeker sur les outils d'IA. On est dans un monde qui va très très vite et donc
04:55je vous partage un petit peu sur cette chaîne youtube tout ce que je trouve. N'hésitez pas à vous abonner si
05:00vous êtes nouveau ici. Maintenant que les connaissances sont faites je vous présente un petit peu le plan de cette vidéo.
05:04Donc avant de voir les trois exemples restants on va d'abord commencer à regarder ce que c'est qu'un modèle open source, comment ça fonctionne un
05:10petit peu et surtout comment l'installer sur notre ordi. On a deux possibilités et on va voir les deux
05:15que vous soyez sur Mac ou sur Windows et ensuite on va comprendre un petit peu comment est-ce qu'on choisit ces modèles
05:22open source donc ces large language model. Ça s'appelle des LLM.
05:25On en entend souvent parler. J'ai même fait une vidéo sur ce que c'est qu'un LLM si jamais vous savez pas mais on va le
05:29revoir aussi également. Comment
05:31choisir son modèle. On va voir quelles sont les manières et les bonnes pratiques pour choisir ces différents
05:37modèles open source et ensuite on va voir comment est-ce qu'on va optimiser petit à petit l'utilisation
05:43et on va voir aussi des utilisations avancées avec Annuiten,
05:46Make et aussi comment est-ce que sans connexion internet on peut utiliser
05:50et bien de la génération de code avec des modèles qui sont open source.
05:53Ce qui très honnêtement avant de faire cette vidéo je ne le savais même pas donc franchement c'était même découverte pour moi. Donc je
05:58vous incite vraiment à si vous êtes curieux et peut-être un peu avancé de rester jusque là et même pour les nouveaux je pense que
06:04c'est vraiment quelque chose de génial de savoir que ça existe.
06:07Il y a de plus en plus de boîtes qui vont vers ces solutions open source tout simplement parce que sont beaucoup plus sécurisées
06:12notamment quand on a par exemple un cabinet d'avocat il n'a pas envie de mettre
06:17ces informations de ses clients sur des sujets hyper sensibles sur des outils comme cloud ou gpt parce que évidemment
06:23ces grandes entreprises là utilisent vos données pour pouvoir réentraîner leur modèle et quand bien même on sait pas si un jour ça fuite.
06:29Maintenant qu'on sait où on va on va essayer de comprendre un peu
06:32ce que c'est qu'un modèle open source. Alors dans cette partie de la vidéo on va essayer de clarifier un petit peu ce qui
06:37différencie l'utilisation d'un chatbot comme chat gpt ou cloud et l'utilisation de ce que je vous ai montré tout à l'heure donc un modèle open source.
06:43Même ceux qui pensent connaître je suis persuadé que vous allez apprendre des choses dans cette partie de la vidéo.
06:48Donc en gros quand vous utilisez un chat gpt comme ça donc c'est une interface graphique
06:52en réalité qui communique avec les serveurs de chez openAI.
06:57OpenAI c'est l'entreprise qui fait chat gpt. Donc quand vous cliquez et vous tapez du texte dessus
07:03l'information arrive vers les serveurs derrière elle revient mais elle revient pas par magie ces serveurs en fait ils hébergent des modèles des modèles
07:11de langage qu'on appelle des LLM.
07:15Ces modèles vous pouvez d'ailleurs les choisir dans l'interface
07:18et notamment si vous voulez utiliser le modèle 4 o c'est celui qui est par défaut et bien c'est ce modèle là qui va être
07:24exécuté sur leur serveur. La raison pour laquelle ils vous chargent de l'argent ces boîtes là c'est parce que
07:29un ils ont construit ce modèle en tout cas ils l'ont
07:32entraîné ça coûte de l'argent et en plus de ça le fait de le faire tourner ça coûte de l'argent.
07:37Ça marche pareil pour cloud qui est géré par Anthropic qui est la boîte derrière cloud
07:42et bah là aussi vous allez pouvoir sélectionner le modèle que vous voulez utiliser et de la même manière
07:46quand vous utilisez ce modèle
07:49ici bah c'est les serveurs de chez Anthropic qui
07:52qui en fait
07:53run ce modèle donc qui vont faire tourner ce modèle.
07:56Pareil chez Google et en fait à chaque fois ici on va avoir un serveur qui va faire tourner un modèle de langage.
08:02Ce modèle de langage on a dit qui s'appelait les LLM
08:05et en fait ce serveur là faut qu'il ait quand même pas mal de patates en fait faut qu'il ait ce qu'on appelle du
08:10GPU donc en fait c'est de la puissance de calcul vidéo
08:14Parce que en fait pourquoi vidéo parce que pour faire tourner un modèle de langage il y a besoin de faire beaucoup de
08:19multiplication de matrice et en fait c'est un truc qui se fait beaucoup dans le monde de la de la vidéo de la génération 3D
08:24etc c'est pour ça qu'en fait le monde
08:26des cartes graphiques et la Valouda Nvidia a explosé et du coup tous ces LLM en question
08:31il y en a de deux types il y a les modèles qui sont
08:34propriétaires et les modèles open source. Dans les modèles propriétaires on en a parlé il y a cloud, il y a groc, il y a JGPT, il y a
08:42Gemini de Google, tous ces modèles là et bien en fait ils ont été entraînés et en fait on peut pas les faire tourner sur
08:47nos machines, sur nos ordinateurs contrairement à ceux là.
08:50Typiquement Mistral c'est un modèle français open source qu'on peut faire tourner sur notre propre ordi.
08:55Il faut qu'on ait la patate là aussi de la puissance de calcul mais on peut le faire. En fait ces modèles ici qui sont développés
09:00par ces entreprises là c'est ceux là qu'on va essayer d'installer sur nos ordis.
09:05Donc comme je vous ai dit la raison pour laquelle ces boîtes nous font payer de l'argent c'est pour en fait le fait que
09:10ils font tourner ces modèles. Mais nous si on veut on peut prendre ces modèles là et les faire tourner sur nos propres ordis à nous.
09:17Evidemment il faut qu'ils soient un peu puissants
09:19mais on peut prendre par exemple le modèle chinois DeepSeek et le faire tourner sur notre ordi, sur notre macbook à nous.
09:23Et c'est ce qu'on va apprendre à faire aujourd'hui. Il y a
09:27plusieurs avantages à ça. Donc le fait que ça soit confidentiel parce que du coup ça arrête sur notre ordi.
09:32Là il n'y a pas besoin
09:33d'activer votre connexion internet. Toutes les infos que vous allez mettre dedans vont rester sur votre ordi.
09:37C'est gratuit, c'est à dire que ça demande uniquement la puissance de calcul de votre ordi.
09:42Encore faut-il qu'il soit puissant et on va voir aussi à quel point il faut qu'il soit puissant.
09:46En tout cas quels sont les paramètres dans votre ordi à regarder pour qu'il soit puissant.
09:49Et le fait que ça soit hors ligne. Et c'est ça qui m'intéressait moi avant de monter dans l'avion. Donc ça c'est le site qui
09:55répertorie un petit peu tous les
09:57modèles open source. Donc il y a celui de DeepSeek, donc j'en ai parlé. Il y a Alibaba qui a lancé Quen. Il y a Meta qui
10:03fait pas mal de contributions open source avec plusieurs modèles. Il y a le français Milstral, il y a Google qui fait aussi
10:09des modèles open source, notamment Gema.
10:11Et il y en a plusieurs. Donc je vous laisserai le lien en description comme je l'ai dit. Et
10:16maintenant on va voir comment l'installer.
10:18Il y a deux manières de l'installer. Il y en a un premier. Une première manière c'est d'utiliser Olama. Olama j'en ai déjà un petit peu
10:24parlé dans cette vidéo, sur cette chaîne.
10:27Mais c'est la première qu'on va aller voir. Et la deuxième c'est LM Studio. C'est l'outil que je vous avais montré initialement
10:32qu'on va revoir ici. Donc on commence tout de suite par la première manière qui est d'installer Olama. Alors nous voici sur le site de Olama.
10:40Olama.com, qu'est ce que c'est ? C'est un outil qui va nous permettre d'installer et
10:46d'exécuter ces modèles open source.
10:49Donc ces modèles open source, il y en a plein. Donc ils en
10:52proposent plusieurs. Quand on va cliquer sur modèle ici, donc il y a plein plein plein plein de modèles qu'on va pouvoir en fait installer.
10:58Mais avant toute chose, il va falloir
11:01installer Olama. Donc on va cliquer sur télécharger. Et d'ailleurs selon votre système d'exploitation,
11:06c'est une installation assez classique. Vous avez un zip, vous devez ouvrir le zip et mettre l'application derrière dans votre
11:13outil, enfin dans votre dossier d'application si vous êtes sur Mac. Et l'installation Windows, elle est assez classique.
11:17Mais une fois que vous l'aurez fait, que vous soyez sur Mac ou sur Windows, si vous lancez le terminal,
11:22donc vous allez donc avoir un écran blanc ou noir selon votre configuration.
11:26Et là quand vous allez aller du coup dans le modèle, vous allez pouvoir installer ces modèles là. Donc par exemple si moi je veux
11:31installer le modèle Lama 3.2 que j'ai pas encore, et bien je vais venir ici et
11:37copier ce truc là. Je vais le coller ici. Là ce qui est en train de se passer, c'est que Olama est en train de
11:42télécharger le modèle. Donc selon le modèle que vous prenez, il peut être plus ou moins lourd. Là c'est le modèle qui est à 2 gigas.
11:49Donc ça va le télécharger. Donc voyez là, ça le télécharge. Une fois que ça l'aura téléchargé, et bien vous allez pouvoir
11:56l'utiliser. Donc c'est ce qu'on appelle « run » le modèle. Donc
12:00l'exécuter sur votre machine, sur votre ordinateur. Pendant que le téléchargement a lieu, moi je vais ouvrir une autre fenêtre
12:05pour vous montrer un peu tous les autres modèles que j'ai d'installer. Pour ça, on va faire « olama ls »
12:11donc ça va venir lister tous les modèles que j'ai installés. Et donc moi j'en ai plusieurs qui sont installés ici.
12:17Bon, pour du coup les utiliser par exemple si je vais utiliser le modèle Mistral
12:23qui est le modèle français, et bien je vais ici sur Mistral et je vais taper ça.
12:30Je viens, je colle. Et donc là ce qui se passe, c'est qu'étant donné que moi Mistral était déjà installé sur mon ordi,
12:36j'en ai pas besoin. Donc si je lui dis « est-ce que tu peux m'aider à écrire une vidéo, une intro de vidéo ? »
12:41et bien lui ce qui va se passer, c'est qu'il va
12:43m'écrire l'intro de vidéo, mais dans cette interface qui n'est pas terrible terrible.
12:48C'est pourquoi en fait, comme
12:51sur ChatGPT, il y a une interface graphique, et bien pour Olama, il y a des interfaces graphiques.
12:56Donc là aussi, pendant que ça télécharge, je vais vous montrer un petit peu
13:01ce qu'on avait tout à l'heure. Tout à l'heure, ce qu'on avait, c'est une interface graphique, un modèle et un serveur. Et de la même manière,
13:06là on a notre serveur qui est en fait notre ordi, le LLM en question c'est Mistral,
13:11mais il nous manque l'interface. Et donc des interfaces pour Olama, il y en a plusieurs.
13:15Il y a une interface qui s'appelle Web UI, dont je vous ai déjà parlé sur cette chaîne. C'est un petit peu
13:23compliqué à installer, mais c'est possible pour les développeurs d'entre nous. Sinon, pour ceux qui sont sur Mac, il y a un truc qui s'appelle
13:30Enchanted,
13:31du coup, qui est une app Mac
13:33à télécharger. Donc je vous invite à la télécharger, et vous allez voir qu'une fois que j'aurai installé Enchanted, et bien je vais voir
13:41ici tous les modèles qui sont dispo, donc les mêmes modèles qu'Olama. Et en fait, ça se configure
13:47automatiquement avec Olama. Ici, on peut même sélectionner
13:51le modèle par défaut. Ici,
13:54changer plein de choses,
13:55assez classiquement de n'importe quelle app. Donc je vous incite vraiment à
14:00télécharger Enchanted, parce que je trouve que ça change vraiment la manière d'utiliser
14:05Olama. Autrement, pour ceux qui ne sont pas sur Mac, il y a aussi MSTY,
14:10je sais pas comment le prononcer, mais c'est un agrégateur, un petit peu de LLM, dans lequel vous allez pouvoir lancer les LLM classiques,
14:16mais aussi ceux qui sont sur votre ordi,
14:20qui peut être intéressant. Il y en a plein d'autres, en fait. Il y a OlamaGUI, il y a LibreChat,
14:27qui est là aussi un outil qui va vous permettre
14:31d'avoir plusieurs LLM dans un même outil.
14:34Bon, maintenant que ça, c'est terminé. Vous avez vu qu'Olama Run, il a réussi, il a installé 3.2 et maintenant je peux parler à
14:43Lama 3.2, qui est du coup le modèle de chez Meta.
14:47Les amis, si jamais vous êtes en train d'apprécier
14:49cette vidéo, n'hésitez pas à mettre un petit like, ça m'aide beaucoup. Et surtout, si jamais l'IA, l'automatisation et la productivité vous intéressent,
14:56je fais beaucoup de vidéos dans ce genre, donc n'hésitez pas à vous abonner. Bref, on y retourne.
14:59Maintenant, il y a une autre manière d'installer tous ces modèles open source et,
15:03très honnêtement, je vous le conseille parce que je ne le connaissais pas, ou en tout cas je ne l'utilisais pas, c'est LM Studio.
15:09LM Studio, avant, je pensais que c'était un truc de développeur.
15:12Du coup, je pensais, et parce qu'Olama était le plus connu,
15:15eh bien, j'avais pas vraiment été regarder ça. Et en fait, malgré son interface un peu dev,
15:22il est très pratique. Donc LM Studio, je vais l'ouvrir. Donc là aussi, comme
15:28Olama, en fait, comme Enchanted, pardon, je vais avoir mes conversations, un peu comme chat GPT.
15:32Ici, je vais avoir mes modèles. Alors, ils ne sont pas partagés avec Olama, donc on va devoir les télécharger ici,
15:38dans Discover. Pour info, si jamais vous n'avez pas ce truc Discover, il faut aller sur Power User, ici.
15:43Et donc là, vous allez dans Discover et là, vous allez pouvoir télécharger plein, plein de modèles. Donc pareil, il y a Mistral,
15:507B, par exemple, ici. Je fais ça, je fais Download et là, c'est en train de télécharger
15:55la version de Mistral 7B. Donc ça, je peux le laisser comme ça.
16:00Et en fait, la différence avec Olama, c'est que les deux sont ensembles. C'est-à-dire qu'on a à la fois
16:05l'interface et à la fois le LLM et le serveur sur votre ordi. Et donc, c'est quand même bien pratique.
16:11Moi, ce que je vous conseille de faire dedans, c'est donc vous mettre en mode Power User,
16:15d'utiliser
16:16cette version-là, là, avec le chat, du coup, et de télécharger directement vos modèles ici. Un des éléments
16:23avec lesquels il va falloir faire attention, c'est ce truc-là. C'est la puissance de votre ordi. En fait,
16:30si vous mettez en mode développeur, ce qui va être cool, c'est d'aller regarder ce truc-là. Ce truc qui s'appelle
16:36Token par seconde. Et en fait, selon la puissance de votre ordi et selon le modèle que vous allez choisir, il y a des modèles qui
16:42vont être plus ou moins lents. Parce que votre ordi, il n'a peut-être pas, du coup, assez de patates, assez de GPU, ou ce qu'on appelle assez de
16:50mémoire
16:52vidéo, donc de VRAM.
16:53On va en discuter un peu plus en détail de tout ça. Donc, en gros, maintenant qu'on sait comment installer, on va pouvoir se poser
16:58la question de quel modèle choisir.
17:00Déjà, il faut réfléchir selon le besoin. Si votre besoin, il est plutôt
17:05d'avoir un assistant généraliste, comme ChatGPT, etc., ou de faire
17:10du résumé de documents PDF, de la génération de codes. Si vous voulez faire plutôt du RAG, donc c'est-à-dire avoir plusieurs
17:17documents et derrière aller les requêter, et bien votre utilisation va être différente.
17:22Et en fait, selon tout ça, vous n'allez pas choisir les mêmes modèles.
17:26Et il y a aussi la puissance de votre ordi. En fait, ce qui se passe, je vous ai expliqué que le truc le plus important
17:31pour faire tourner ces modèles, c'est de faire de la multiplication de matrice. Et pour ça, il faut du GPU, en tout cas du VRAM,
17:37et voir un petit peu la puissance de votre ordi. Et donc, sur LM Studio, ce qui est quand même très cool,
17:43c'est que quand on va dans la partie configuration, ici en bas à droite,
17:46et bien, quand on va dans Hardware, on a cette information.
17:49C'est le type de votre ordi, le GPU, si vous avez un GPU ou pas, donc une carte graphique ou pas.
17:56Est-ce que vous avez de la VRAM ? Et c'est ce truc-là qui est important.
18:00Moi, j'ai un ordinateur qui est assez puissant, c'est pour ça qu'il le fait tourner assez rapidement, mais selon votre ordi, ça peut être plus ou moins
18:05long. Et ce qui est le plus important, en fait, c'est du coup GPU. Et donc, dans le GPU, il y a de la VRAM.
18:11Évidemment, votre processeur et votre RAM est importante, mais le plus important, c'est cette VRAM et ce GPU.
18:17Maintenant, vous n'avez pas changé d'ordi pour ça, évidemment, mais si jamais, un jour, vous voulez faire ça en local, il y a
18:23notamment les Mac Mini, en ce moment, qui sont pas mal, parce qu'ils ont une mémoire partagée avec
18:28le processeur. La mémoire graphique et la mémoire du processeur sont unifiées, et donc, ça permet d'avoir
18:33pas mal de VRAM. Donc, c'est l'élément qu'il va falloir regarder.
18:37Et c'est d'ailleurs l'élément
18:39qu'on va regarder, aussi, en fonction du nombre de tokens par seconde. C'est ça qui va venir augmenter
18:44la rapidité avec laquelle ça va s'afficher. Si j'utilise un modèle, par exemple, assez
18:50balèze pour mon ordi, donc là, j'en ai pas. Mais si je vais sur OLAMA, donc je vais regarder
18:55Enchanted, et je vais prendre peut-être un modèle qui est peut-être trop gros
18:58pour moi. Donc là, j'en ai pas. Mais si j'en avais un, typiquement, DeepSeek 7, déjà,
19:04il est un peu plus gros que les autres. Et donc, parce que c'est un modèle à 7
19:10milliards de tokens, 7 billions de tokens. Et donc, déjà, il est plus lent que les autres. Pour un modèle à 7 millions de tokens,
19:18grossièrement, il va vous falloir au moins 8 gigas de VRAM pour que ça puisse déjà tourner. En fait, le nombre de
19:26paramètres, pardon, j'ai dit token tout à l'heure, mais c'est le nombre de paramètres, il va être marqué au moment du téléchargement
19:32du modèle. Donc, si on va
19:34ici, donc vous voyez ici, il y a marqué le nombre de paramètres sur les modèles de chez
19:41OLAMA. Et bien, là aussi, il y a marqué quels sont les
19:45nombres de paramètres. Et donc, selon ce que vous allez mettre comme nombre de paramètres, ils vont pouvoir, oui ou non, tourner sur votre machine.
19:51Et donc, moins il y a de paramètres, moins ils sont
19:54précis, plus ils peuvent halluciner. Et plus ils sont balèzes,
19:58plus ils sont précis. Mais évidemment, il faut des ordis quand même assez puissants. Donc, comment faire pour pouvoir optimiser l'utilisation des LLM
20:05locaux sur notre ordi ? Et bien, première chose, pas choisir des modèles trop gros pour optimiser cette vitesse. Je vous ai montré le nombre de
20:12tokens par seconde, c'est la mesure, en fait, de la vitesse de ces LLM. Et donc, regardez
20:17que vous ne prenez pas un modèle trop gros selon la puissance de votre ordi.
20:21Derrière,
20:22tous les modèles ne sont pas des modèles
20:25multimodaux, c'est-à-dire qu'ils ne vont pas pouvoir tous prendre des images et des PDF. Je vous donne un exemple.
20:29Par exemple, ici, il y a un truc qui s'appelle vision. Et donc, dans vision, ce qu'on va pouvoir avoir, c'est tous les modèles. Donc, ça,
20:35ça va venir filtrer les modèles ici. Tous les modèles de vision, c'est ceux qui vont pouvoir regarder. Et c'est ceux
20:41donc qui vont pouvoir lire des images, lire des PDF, etc.
20:44Tous les modèles ne permettent pas de faire ça. Il y a des modèles qui sont plus des outils, qui sont des outils du coup
20:50spécialisés. Il y a des modèles, c'est des modèles de embedding qui vont être bien meilleurs à
20:54retrouver de l'information, notamment pour du RAG. Et on va en parler du RAG. J'ai d'ailleurs fait une vidéo au-dessus si vous savez pas
21:00ce que c'est. Mais c'est des modèles qui vont pas utiliser du texte, mais qui vont utiliser des vecteurs pour pouvoir ranger les informations sur notre
21:07ordi et les retrouver. Et donc, selon tout ça, vous allez choisir en fait votre modèle. Très honnêtement,
21:13si vous êtes débutant et que vous savez pas, prenez Mistral 7b si jamais votre ordi est assez
21:19balèze. Sinon, prenez Gemma 3, qui est un modèle de Google en version 1b ou 4b.
21:26Et sinon DeepSeek R1 1.5 billion ou 7 billion parameters.
21:31Ça va être largement suffisant si vous êtes vraiment débutant. Pour ce qui est de la voix, parce qu'il y a des modèles qui permettent de
21:37gérer la voix, notamment Whisper. C'est un modèle qui est d'ailleurs développé par
21:42OpenAI, mais qui est un modèle open source. Et du coup, vous pouvez l'installer sur votre ordi et derrière
21:47parler à votre ordi. Et derrière, il le retranscrit. Le problème, c'est que c'est assez compliqué à installer. Et surtout que moi, déjà, j'utilise
21:54Super Whisper. J'utilise ce truc-là. En fait, Super Whisper, ça permet de comprendre tout ce que je suis en train de dire et derrière de
22:00le transcrire. C'est un outil qui est certes
22:03payant pour une partie, mais sinon, il est gratuit dans la version de base.
22:07J'avais fait une vidéo dessus et très honnêtement, si vous ne l'avez pas encore vue, je vous invite à aller
22:10la regarder. Et ça aussi, ça se passe en local en fait.
22:13Super Whisper, lui, ne travaille que directement sur votre ordi. Donc, dans l'avion, j'étais capable de
22:18parler et que lui, il me comprenne. Derrière, pour ce qui est du
22:21RAG. RAG, c'est la possibilité de mettre plein de documents ensemble
22:25et derrière, de les donner à un LLM pour qu'il puisse aller chercher dedans. Et bien, il y a un truc qui existe qui s'appelle
22:31Private GPT.
22:33Si jamais vous êtes une boîte et que vous avez besoin d'avoir plein de documents
22:37que vous voulez que les LLM aillent regarder, Private GPT, c'est une superbe solution.
22:43Enfin, on arrive aux utilisations avancées pour ceux que ça intéresse. Moi, c'est là où j'ai pris le plus de plaisir.
22:48En gros, je ne sais pas si vous savez, mais n8n, c'est
22:52un outil open source, là aussi. Donc, en fait, ce que j'ai fait, moi, c'est que j'ai
22:58lancé n8n sur mon ordi. Comment est-ce que j'ai fait ça ? Et bien, là aussi, je vais sur mon terminal, je tape
23:05npx n8n. Et donc, ce que ça a fait, ce truc-là, c'est que c'est venu
23:10installer sur mon ordi n8n. Si vous, vous le faites, ça ne va probablement pas marcher parce qu'il y a quand même pas mal de
23:15dépendance à aller installer. Mais une fois qu'on fait ça et qu'on va sur ce lien-là, en fait, n8n,
23:21il est installé sur mon ordi. Et donc, là aussi, sans connexion Internet, je peux l'utiliser. Donc, là aussi, je peux créer un workflow et
23:28je peux créer un workflow, par exemple, avec un agent.
23:31Ceux qui voient peut-être ce que c'est qu'un agent,
23:34sinon, allez regarder ma vidéo sur les agents IA. Ici, je peux discuter avec mon agent.
23:38Et mon agent, je peux lui donner un modèle. Et en fait, ce qui est génial, c'est qu'ici, je peux choisir
23:43OLAMA. Ça veut dire que pour des boîtes qui ont des besoins d'automatisation, je ne sais pas si je travaille
23:47dans un cabinet d'avocats, à l'armée, etc., on va pouvoir utiliser OLAMA ici.
23:54Vous voyez, c'est les mêmes modèles que j'ai ici. Je peux utiliser Coder, CoinCoder, donc, du coup, qui est spécialisé dans le code.
24:01Et donc, là, je vais pouvoir lui donner une mémoire simple. Et là, si je vais aller parler ici, je vais faire Hello.
24:07Vous allez voir, c'est bien OLAMA qui va me répondre.
24:10Et donc, je peux avoir une conversation avec le modèle qui est sur mon ordi. Là, vous allez me dire, oui, mais je suis même à quoi bon faire de l'automatisation si on n'a pas Internet ?
24:18Eh bien, dans ce cas-là, typiquement. Là, par exemple, je vais aller sur une autre automatisation qui
24:24prend des éléments sur mon disque, donc, en fait, sur mon ordi, qui va
24:31extraire des éléments
24:32d'un CSV, par exemple, et qui, derrière, va utiliser un modèle OLAMA pour pouvoir faire des interactions avec des fichiers.
24:40Il y a aussi la possibilité, ici, de gérer tout ce qui est images.
24:44Et donc, là, on va pouvoir
24:46resizer des images, avoir, écrire des éléments sur des images. Tout ça, ça va être possible sans coder avec un outil
24:53comme N8n ici. Autre élément, Make, qui est un des outils préférés aussi d'automatisation, ce qui est génial avec
25:01LM Studio, c'est qu'on a une API qui est disponible. Donc, si on va dans le mode
25:06développeur ou power user, il y a une API qui est là. Et donc, cette API en question, elle est uniquement locale.
25:13Ça veut dire que je peux l'appeler via
25:16cette URL-là. Le problème avec mon API qui est en local, c'est que je ne peux pas l'appeler depuis un outil
25:21externe comme Make. Je peux l'appeler depuis un outil installé sur mon ordi, mais si j'ai envie, parce que j'ai un sujet de
25:28confidentialité de données, là aussi,
25:30et je vous prends un scénario que je vous ai préparé sur Make, ici, admettons, j'ai un Google Sheet dans lequel il y a
25:37des informations confidentielles, d'avocats, etc., des échanges avec des avocats, et j'ai besoin de générer des réponses.
25:42Admettons, je suis moi-même avocat, ce qui n'est pas le cas, mais admettons. Et bien, là, je n'ai pas envie de mettre mes données
25:48sur ChatGPT ou sur Cloud. J'aurais pu utiliser ici
25:54un module de Cloud, mais j'ai préféré utiliser l'API qui est de LM Studio.
26:00Maintenant, vous avez vu, ici, par exemple, je n'ai pas du tout mis
26:03le même lien que là, c'est parce que ce lien-là, il est local à mon ordi, et pour pouvoir faire le lien entre les deux,
26:09eh bien, il faut utiliser un outil. Et là, on va un peu plus
26:14dans le monde des développeurs ou dans le monde technique, c'est, on va créer ce qu'on appelle un tunnel
26:19entre le monde externe et le monde de notre ordi. Et donc, ce tunnel-là, ça s'utilise avec ngrok.
26:25Je vous épargne un peu les détails,
26:27mais grossièrement, ça s'installe comme ça, et puis ça s'utilise comme ça. C'est-à-dire que ça s'installe, vous suivez la documentation de ngrok
26:35ici, et puis derrière, on va dire ngrok HTTP 1, 2, 3, 4. Ça veut dire qu'en gros, il va faire
26:42en sorte que tout ce qui arrive sur le lien de l'API
26:46avec ce
26:48cet URL-là, eh bien, aille
26:51directement en local sur LM Studio.
26:54Vous allez voir, la démo, c'est assez cool. Donc typiquement, là, je vais aller sur mon
27:00truc ici. Je vais bien changer le lien parce que du coup, entre-temps, il a changé.
27:04Voilà, je fais Save. Ce que je lui ai demandé,
27:08c'est
27:09lui dire
27:10voici un message initial avec le dernier échange pour son prénom, et je vais dire aide-moi à écrire un message de réponse.
27:17Et derrière, je vais lire chacune
27:19des
27:22des éléments dans mon Google Sheet. Je vais en mettre dix,
27:26et je vais venir les mettre à jour dans mon Google Sheet, également dans une des colonnes. Et je veux lui dire ici
27:33ne
27:36n'affiche que le message.
27:43Et là, je fais Run Once, et vous allez voir qu'ici, ce qui est en train de se passer,
27:48et vous allez voir LM Studio. LM Studio, ici, il est en train de recevoir
27:53des
27:54infos, et il est en train de donner des infos à Mike, alors que Mike, il est lointain. Il est ailleurs, en fait.
28:00Et donc ici, vous voyez, ça met... Bon, le prompt, il n'était pas le plus
28:06simple, mais en tout cas, vous voyez. Et du coup, il est en train de proposer des options
28:09pour chacune des personnes ici, ce qui est génial. Et donc, pour bien comprendre, grossièrement, ce qui s'est passé, c'est que ici,
28:15moi, j'ai mon ordi sur lequel j'ai un modèle qui tourne en local. Ce modèle-là, eh bien,
28:23derrière, il est appelable via une API. Cette API, vu qu'elle est uniquement sur mon ordi, j'en ai fait un tunnel
28:31avec Ngrok. Et donc, ce tunnel sur Ngrok, je peux, derrière, maintenant, avec le lien qu'on m'a donné,
28:39utiliser ça dans une app Make, ce qui est juste magique, parce que du coup, c'est gratuit et j'ai la confidentialité.
28:46Ça, c'est des modules Make, pour ceux qui ne sauraient pas.
28:49Vous voyez, c'est quand même assez dingue ce qu'on arrive à faire. Et puis, dernier exemple que je voulais vous montrer, c'était la partie code.
28:55Donc là, on arrive vraiment vers la fin de la vidéo où,
28:57j'espère que ceux qui regardent, c'est peut-être des devs ou en tout cas des gens qui s'intéressent aux devs. Là, vous voyez, j'ai utilisé...
29:03Je fais du piton. J'ai
29:06un fichier qui est ouvert sur un outil qui s'appelle VS Code, qui est un éditeur de code. Et là, je peux vouloir, par exemple,
29:12prendre ça, faire commande L. Et là, j'ai ce truc qui va s'ouvrir, un peu comme Cursor.
29:17Je ne sais pas si ceux qui connaissent Cursor, c'est un éditeur de code, mais cette fois-ci, qui peut se connecter à plusieurs LLM payants.
29:23Et bien là, je peux,
29:26ici, prendre des modèles qui sont des modèles open source, parce que lui a
29:31automatiquement détecté, en fait, tout ce que j'avais dans
29:35mon OLAMA. Vous voyez, c'est les mêmes modèles que mon OLAMA, tout à l'heure. Et donc là, je peux lui dire
29:43réécrit
29:45cette fonction
29:47sur un port différent,
29:50par exemple. Et donc là, ce qu'il va faire, c'est qu'il va écrire ici des éléments. Il a changé le port.
29:56Et là, il va me demander, est-ce que c'est ok ?
29:59Et moi, j'aurai plus qu'à valider.
30:01Apply. Voilà, c'est en train d'appliquer les changements. Et voilà. Et là, du coup, il a réussi à faire ce qu'on lui demandait. Et donc ça,
30:06ça se fait avec une extension
30:09qui s'appelle Continuo. Cette extension permet,
30:13du coup, extension
30:15VS Code, qui permet, du coup, à VS Code de se connecter avec des
30:23LLM qui vont être locaux ou distants.
30:26Je vous ai montré un petit peu des outils d'automatisation,
30:28dont un qui est N8n et l'autre Make. Ce que je vous incite à aller voir, c'est comment moi, j'utilise Make
30:34au quotidien. Et donc, je vous incite à aller voir cette vidéo. Et si jamais
30:38vous l'avez déjà vue, je vous incite à aller voir celle sur les agents IA avec N8n.
30:42Très honnêtement, sur une des deux, vous allez être bluffés sur tout ce qu'on peut faire avec de l'automatisation. Et pour ceux qui sont
30:49des spectateurs récurrents, je suis curieux d'avoir votre avis sur ce genre de vidéo
30:53qui est beaucoup moins monté, beaucoup plus chill. Et très honnêtement, moi, je prends un grand plaisir parce que je passe mon temps à
30:58découvrir des trucs. Et à chaque fois, je me prends la tête.
31:00Il faut que je fasse du storytelling, etc. Et en fait, j'ai l'impression que là, je prends mon pied. Donc, curieux d'avoir votre avis.

Recommandations