Arrêtez de payer ChatGPT, utilisez ces IA à la place

Mot 2 Passe

il y a 3 jours

22 941 vues 23 mars 2025
Utiliser une IA comme ChatGPT sans Internet, gratuitement et en gardant tes données 100% privées ? C’est possible… et même simple, quand on sait quoi faire !

Dans cette vidéo, je te montre comment installer et utiliser des IA locales (comme Mistral, DeepSeek, Gemma…) sur ton propre ordinateur.
Je te partage tout ce que j’ai appris après avoir dû bosser dans un avion sans Wi-Fi 🛫 — spoiler : mon nouveau setup m’a sauvé 💡

📍 Au programme :
→ Démo en live sans connexion Internet (Enchanted, LM Studio, etc.)
→ C’est quoi un modèle open source ?
→ Comment les installer (Windows / Mac)
→ Quel modèle choisir selon tes besoins et la puissance de ton ordi
→ Astuces pour optimiser ton setup (PDF, images, voix, RAG, etc.)
→ Utilisations avancées : API, Make, n8n, génération de code locale…

⸻

📦 Outils mentionnés :
→ Ollama : https://ollama.com
→ LM Studio : https://lmstudio.ai
→ Enchanted (Mac) : https://enchanted.chat
→ Ngrok : https://ngrok.com
→ Continue (VS Code) : https://continue.dev
→ Make : https://www.make.com/
→ N8N : https://n8n.io

🔗 La liste des LLM open source
https://github.com/Hannibal046/Awesom...
#ChatGPT #Ollama #LMStudio #Enchanted #Ngrok

Catégorie

🤖

Technologie

Transcription

Afficher la transcription complète de la vidéo

00:00Les amis je suis devenu littéralement accro à des outils comme chatgpt ou cloud et je suis certain que vous aussi je les utilise

00:06littéralement plus d'une centaine de fois dans une seule journée. Mais récemment j'ai dû prendre un vol

00:11long courrier donc de 9 heures pour aller en Inde sans connexion internet. Et là panique j'avais une grosse session de taf qui m'attendait dans

00:18l'avion et je savais pertinemment que j'allais être beaucoup moins productif sans un outil comme chatgpt ou cloud.

00:23Alors heureusement que j'ai trouvé une solution avant de monter dans le vol qui est celle d'installer une IA conversationnel un petit peu comme chatgpt

00:29mais en local sur mon ordi et donc pas besoin de connexion internet. Et cerise sur le gâteau c'est 100% gratuit et beaucoup plus

00:37sécurisé si jamais on balance des informations confidentielles sur ce genre de chatbot

00:41conversationnel. Dans cette vidéo je vais vous montrer comment faire vous allez voir c'est assez simple quand on sait où regarder et quoi faire.

00:46Vous allez voir c'est un game changer une fois qu'on a une solution à nous et donc on est beaucoup plus indépendant que

00:52n'importe quel outil comme chatgpt. Mais je vais pas vous mentir il y a des avantages et des inconvénients à utiliser des IA locales

00:57VS des IA propriétaires mais on va voir tout ça dans cette vidéo mais avant ça je vous fais une petite démo. Alors pendant toute

01:03cette vidéo je vais couper ma connexion internet pour vous montrer que je mens pas et en effet quand là je suis sur chatgpt

01:09et que j'ai envie de lui demander un truc évidemment il va me dire que c'est pas possible parce qu'il n'a pas

01:15de connexion internet. Donc il va essayer de chercher quand même mais là vu que j'ai pas de wifi du tout il me dit la

01:21connexion est impossible.

01:23Et donc moi je vais utiliser

01:24Enchanted qui est une interface graphique qui permet et bien d'utiliser des modèles locaux que moi j'ai

01:30installés sur mon ordi c'est des modèles open source on va voir plus en détail ce que c'est tout à l'heure.

01:35Mais un peu comme chatgpt où en fait chatgpt nous permet d'aller regarder et d'utiliser plusieurs modèles différents là moi j'ai installé mes

01:42propres modèles. Donc comment ça marche je vais aller par exemple lui poser une question simple est-ce que tu peux m'aider à écrire une vidéo

01:48une intro pour ma vidéo sur l'open source hop il s'exécute et il m'aide. Et donc là dans l'avion typiquement ça m'a permis de

01:54brainstormer un petit peu quand j'étais en train de préparer cette vidéo.

01:57Ça c'est pour les utilisateurs de Mac parce que Enchanted il est uniquement disponible sur Mac mais

02:02vous avez aussi un autre outil pour les utilisateurs Windows mais

02:05même en général on va voir que c'est un très bon outil même pour les utilisateurs de Mac c'est

02:09LM studio. LM studio de la même manière en fait il va me permettre ici de choisir des modèles que j'ai

02:16installés. Il a aussi une librairie de modèles qu'on va

02:19qu'on va pouvoir installer plus en détail.

02:20Ici on va vraiment voir tout ça tout à l'heure donc ça c'est tous les modèles open source qui sont disponibles mais de la même

02:26manière si je lui demande

02:27corrige moi ce mail en français je lui ai donné un mail rapidement à corriger je lui envoie ça et pareil il va ici

02:36me corriger ce mail. J'ai aussi la possibilité dans LM studio et bien contrairement à Enchanted

02:42d'uploader des images donc là typiquement si je lui donne cette image et je lui demande de me décrire ce qu'il y a sur l'image

02:51Lui il va pouvoir

02:54regarder ce qu'il y a dans cette image parce que c'est des modèles qui sont multimodaux. Là GEMA c'est un modèle de Google qui est

03:00open source et donc il va pouvoir

03:02me lire ça mais j'aurais pu utiliser Mistral ou d'autres logos d'autres pardon

03:06LLM qui me permettent de faire ça. Donc là il m'explique un petit peu ce qu'il y a sur l'image

03:10avec tous les logos qu'il y a dessus et encore une fois je suis encore hors ligne

03:15Dernière chose rapide c'est l'ajout de pdf. Donc typiquement je vais ici trouver un pdf qu'il y a

03:21sur mon ordi et donc je sais pas je vais trouver une presse peut-être

03:25voilà presse mobile summit c'est une presse que j'avais fait pour

03:30pour un client donc j'envoie ça je vais dire donne moi le plan

03:35de cette presse en pdf et donc là normalement ce modèle il est capable

03:40d'aller lire dans le pdf et d'aller me prendre les informations. On va voir ce qu'il va

03:46ce qu'il va me dire. Donc là ce qu'il est en train de faire c'est essayer de

03:51d'extraire ce qu'il y a sur le pdf. Donc il me fait le plan

03:54du pdf il me le fait en anglais je crois que parce que la presse je sais pas si elle est en anglais non elle

03:59est pas en anglais mais je peux comme dans chat gpt et bien mettre des systèmes prompt

04:04donc je peux aller par exemple dans Enchanted et

04:08dans settings je peux lui mettre un système prompt qui lui dit que tout ce qui va se passer dans

04:12cette application va se faire uniquement en français ou en anglais peu importe. Bon la réalité c'est que je vous démontrer là

04:18uniquement deux exemples sur cinq

04:21pour ces exemples là j'ai besoin en fait de vous donner un peu plus de contexte de vous donner

04:26ce qui va se passer dans la suite de cette vidéo et donc pour

04:30pour mieux comprendre il faut qu'on avance un petit peu. Mais pour tous ceux qui me découvrent via cette vidéo je m'appelle Shoubham

04:34Sharma. Aujourd'hui je forme des milliers de personnes à l'automatisation et à l'IA. Avant ça j'étais ingénieur développeur dans plusieurs start-up

04:41françaises et scale-up françaises également

04:44et notamment j'ai travaillé pas mal avec des outils open source comme

04:46MGML ou encore PM2 pour les développeurs à qui ça parle et aujourd'hui je passe tout mon temps à

04:51geeker sur les outils d'IA. On est dans un monde qui va très très vite et donc

04:55je vous partage un petit peu sur cette chaîne youtube tout ce que je trouve. N'hésitez pas à vous abonner si

05:00vous êtes nouveau ici. Maintenant que les connaissances sont faites je vous présente un petit peu le plan de cette vidéo.

05:04Donc avant de voir les trois exemples restants on va d'abord commencer à regarder ce que c'est qu'un modèle open source, comment ça fonctionne un

05:10petit peu et surtout comment l'installer sur notre ordi. On a deux possibilités et on va voir les deux

05:15que vous soyez sur Mac ou sur Windows et ensuite on va comprendre un petit peu comment est-ce qu'on choisit ces modèles

05:22open source donc ces large language model. Ça s'appelle des LLM.

05:25On en entend souvent parler. J'ai même fait une vidéo sur ce que c'est qu'un LLM si jamais vous savez pas mais on va le

05:29revoir aussi également. Comment

05:31choisir son modèle. On va voir quelles sont les manières et les bonnes pratiques pour choisir ces différents

05:37modèles open source et ensuite on va voir comment est-ce qu'on va optimiser petit à petit l'utilisation

05:43et on va voir aussi des utilisations avancées avec Annuiten,

05:46Make et aussi comment est-ce que sans connexion internet on peut utiliser

05:50et bien de la génération de code avec des modèles qui sont open source.

05:53Ce qui très honnêtement avant de faire cette vidéo je ne le savais même pas donc franchement c'était même découverte pour moi. Donc je

05:58vous incite vraiment à si vous êtes curieux et peut-être un peu avancé de rester jusque là et même pour les nouveaux je pense que

06:04c'est vraiment quelque chose de génial de savoir que ça existe.

06:07Il y a de plus en plus de boîtes qui vont vers ces solutions open source tout simplement parce que sont beaucoup plus sécurisées

06:12notamment quand on a par exemple un cabinet d'avocat il n'a pas envie de mettre

06:17ces informations de ses clients sur des sujets hyper sensibles sur des outils comme cloud ou gpt parce que évidemment

06:23ces grandes entreprises là utilisent vos données pour pouvoir réentraîner leur modèle et quand bien même on sait pas si un jour ça fuite.

06:29Maintenant qu'on sait où on va on va essayer de comprendre un peu

06:32ce que c'est qu'un modèle open source. Alors dans cette partie de la vidéo on va essayer de clarifier un petit peu ce qui

06:37différencie l'utilisation d'un chatbot comme chat gpt ou cloud et l'utilisation de ce que je vous ai montré tout à l'heure donc un modèle open source.

06:43Même ceux qui pensent connaître je suis persuadé que vous allez apprendre des choses dans cette partie de la vidéo.

06:48Donc en gros quand vous utilisez un chat gpt comme ça donc c'est une interface graphique

06:52en réalité qui communique avec les serveurs de chez openAI.

06:57OpenAI c'est l'entreprise qui fait chat gpt. Donc quand vous cliquez et vous tapez du texte dessus

07:03l'information arrive vers les serveurs derrière elle revient mais elle revient pas par magie ces serveurs en fait ils hébergent des modèles des modèles

07:11de langage qu'on appelle des LLM.

07:15Ces modèles vous pouvez d'ailleurs les choisir dans l'interface

07:18et notamment si vous voulez utiliser le modèle 4 o c'est celui qui est par défaut et bien c'est ce modèle là qui va être

07:24exécuté sur leur serveur. La raison pour laquelle ils vous chargent de l'argent ces boîtes là c'est parce que

07:29un ils ont construit ce modèle en tout cas ils l'ont

07:32entraîné ça coûte de l'argent et en plus de ça le fait de le faire tourner ça coûte de l'argent.

07:37Ça marche pareil pour cloud qui est géré par Anthropic qui est la boîte derrière cloud

07:42et bah là aussi vous allez pouvoir sélectionner le modèle que vous voulez utiliser et de la même manière

07:46quand vous utilisez ce modèle

07:49ici bah c'est les serveurs de chez Anthropic qui

07:52qui en fait

07:53run ce modèle donc qui vont faire tourner ce modèle.

07:56Pareil chez Google et en fait à chaque fois ici on va avoir un serveur qui va faire tourner un modèle de langage.

08:02Ce modèle de langage on a dit qui s'appelait les LLM

08:05et en fait ce serveur là faut qu'il ait quand même pas mal de patates en fait faut qu'il ait ce qu'on appelle du

08:10GPU donc en fait c'est de la puissance de calcul vidéo

08:14Parce que en fait pourquoi vidéo parce que pour faire tourner un modèle de langage il y a besoin de faire beaucoup de

08:19multiplication de matrice et en fait c'est un truc qui se fait beaucoup dans le monde de la de la vidéo de la génération 3D

08:24etc c'est pour ça qu'en fait le monde

08:26des cartes graphiques et la Valouda Nvidia a explosé et du coup tous ces LLM en question

08:31il y en a de deux types il y a les modèles qui sont

08:34propriétaires et les modèles open source. Dans les modèles propriétaires on en a parlé il y a cloud, il y a groc, il y a JGPT, il y a

08:42Gemini de Google, tous ces modèles là et bien en fait ils ont été entraînés et en fait on peut pas les faire tourner sur

08:47nos machines, sur nos ordinateurs contrairement à ceux là.

08:50Typiquement Mistral c'est un modèle français open source qu'on peut faire tourner sur notre propre ordi.

08:55Il faut qu'on ait la patate là aussi de la puissance de calcul mais on peut le faire. En fait ces modèles ici qui sont développés

09:00par ces entreprises là c'est ceux là qu'on va essayer d'installer sur nos ordis.

09:05Donc comme je vous ai dit la raison pour laquelle ces boîtes nous font payer de l'argent c'est pour en fait le fait que

09:10ils font tourner ces modèles. Mais nous si on veut on peut prendre ces modèles là et les faire tourner sur nos propres ordis à nous.

09:17Evidemment il faut qu'ils soient un peu puissants

09:19mais on peut prendre par exemple le modèle chinois DeepSeek et le faire tourner sur notre ordi, sur notre macbook à nous.

09:23Et c'est ce qu'on va apprendre à faire aujourd'hui. Il y a

09:27plusieurs avantages à ça. Donc le fait que ça soit confidentiel parce que du coup ça arrête sur notre ordi.

09:32Là il n'y a pas besoin

09:33d'activer votre connexion internet. Toutes les infos que vous allez mettre dedans vont rester sur votre ordi.

09:37C'est gratuit, c'est à dire que ça demande uniquement la puissance de calcul de votre ordi.

09:42Encore faut-il qu'il soit puissant et on va voir aussi à quel point il faut qu'il soit puissant.

09:46En tout cas quels sont les paramètres dans votre ordi à regarder pour qu'il soit puissant.

09:49Et le fait que ça soit hors ligne. Et c'est ça qui m'intéressait moi avant de monter dans l'avion. Donc ça c'est le site qui

09:55répertorie un petit peu tous les

09:57modèles open source. Donc il y a celui de DeepSeek, donc j'en ai parlé. Il y a Alibaba qui a lancé Quen. Il y a Meta qui

10:03fait pas mal de contributions open source avec plusieurs modèles. Il y a le français Milstral, il y a Google qui fait aussi

10:09des modèles open source, notamment Gema.

10:11Et il y en a plusieurs. Donc je vous laisserai le lien en description comme je l'ai dit. Et

10:16maintenant on va voir comment l'installer.

10:18Il y a deux manières de l'installer. Il y en a un premier. Une première manière c'est d'utiliser Olama. Olama j'en ai déjà un petit peu

10:24parlé dans cette vidéo, sur cette chaîne.

10:27Mais c'est la première qu'on va aller voir. Et la deuxième c'est LM Studio. C'est l'outil que je vous avais montré initialement

10:32qu'on va revoir ici. Donc on commence tout de suite par la première manière qui est d'installer Olama. Alors nous voici sur le site de Olama.

10:40Olama.com, qu'est ce que c'est ? C'est un outil qui va nous permettre d'installer et

10:46d'exécuter ces modèles open source.

10:49Donc ces modèles open source, il y en a plein. Donc ils en

10:52proposent plusieurs. Quand on va cliquer sur modèle ici, donc il y a plein plein plein plein de modèles qu'on va pouvoir en fait installer.

10:58Mais avant toute chose, il va falloir

11:01installer Olama. Donc on va cliquer sur télécharger. Et d'ailleurs selon votre système d'exploitation,

11:06c'est une installation assez classique. Vous avez un zip, vous devez ouvrir le zip et mettre l'application derrière dans votre

11:13outil, enfin dans votre dossier d'application si vous êtes sur Mac. Et l'installation Windows, elle est assez classique.

11:17Mais une fois que vous l'aurez fait, que vous soyez sur Mac ou sur Windows, si vous lancez le terminal,

11:22donc vous allez donc avoir un écran blanc ou noir selon votre configuration.

11:26Et là quand vous allez aller du coup dans le modèle, vous allez pouvoir installer ces modèles là. Donc par exemple si moi je veux

11:31installer le modèle Lama 3.2 que j'ai pas encore, et bien je vais venir ici et

11:37copier ce truc là. Je vais le coller ici. Là ce qui est en train de se passer, c'est que Olama est en train de

11:42télécharger le modèle. Donc selon le modèle que vous prenez, il peut être plus ou moins lourd. Là c'est le modèle qui est à 2 gigas.

11:49Donc ça va le télécharger. Donc voyez là, ça le télécharge. Une fois que ça l'aura téléchargé, et bien vous allez pouvoir

11:56l'utiliser. Donc c'est ce qu'on appelle « run » le modèle. Donc

12:00l'exécuter sur votre machine, sur votre ordinateur. Pendant que le téléchargement a lieu, moi je vais ouvrir une autre fenêtre

12:05pour vous montrer un peu tous les autres modèles que j'ai d'installer. Pour ça, on va faire « olama ls »

12:11donc ça va venir lister tous les modèles que j'ai installés. Et donc moi j'en ai plusieurs qui sont installés ici.

12:17Bon, pour du coup les utiliser par exemple si je vais utiliser le modèle Mistral

12:23qui est le modèle français, et bien je vais ici sur Mistral et je vais taper ça.

12:30Je viens, je colle. Et donc là ce qui se passe, c'est qu'étant donné que moi Mistral était déjà installé sur mon ordi,

12:36j'en ai pas besoin. Donc si je lui dis « est-ce que tu peux m'aider à écrire une vidéo, une intro de vidéo ? »

12:41et bien lui ce qui va se passer, c'est qu'il va

12:43m'écrire l'intro de vidéo, mais dans cette interface qui n'est pas terrible terrible.

12:48C'est pourquoi en fait, comme

12:51sur ChatGPT, il y a une interface graphique, et bien pour Olama, il y a des interfaces graphiques.

12:56Donc là aussi, pendant que ça télécharge, je vais vous montrer un petit peu

13:01ce qu'on avait tout à l'heure. Tout à l'heure, ce qu'on avait, c'est une interface graphique, un modèle et un serveur. Et de la même manière,

13:06là on a notre serveur qui est en fait notre ordi, le LLM en question c'est Mistral,

13:11mais il nous manque l'interface. Et donc des interfaces pour Olama, il y en a plusieurs.

13:15Il y a une interface qui s'appelle Web UI, dont je vous ai déjà parlé sur cette chaîne. C'est un petit peu

13:23compliqué à installer, mais c'est possible pour les développeurs d'entre nous. Sinon, pour ceux qui sont sur Mac, il y a un truc qui s'appelle

13:30Enchanted,

13:31du coup, qui est une app Mac

13:33à télécharger. Donc je vous invite à la télécharger, et vous allez voir qu'une fois que j'aurai installé Enchanted, et bien je vais voir

13:41ici tous les modèles qui sont dispo, donc les mêmes modèles qu'Olama. Et en fait, ça se configure

13:47automatiquement avec Olama. Ici, on peut même sélectionner

13:51le modèle par défaut. Ici,

13:54changer plein de choses,

13:55assez classiquement de n'importe quelle app. Donc je vous incite vraiment à

14:00télécharger Enchanted, parce que je trouve que ça change vraiment la manière d'utiliser

14:05Olama. Autrement, pour ceux qui ne sont pas sur Mac, il y a aussi MSTY,

14:10je sais pas comment le prononcer, mais c'est un agrégateur, un petit peu de LLM, dans lequel vous allez pouvoir lancer les LLM classiques,

14:16mais aussi ceux qui sont sur votre ordi,

14:20qui peut être intéressant. Il y en a plein d'autres, en fait. Il y a OlamaGUI, il y a LibreChat,

14:27qui est là aussi un outil qui va vous permettre

14:31d'avoir plusieurs LLM dans un même outil.

14:34Bon, maintenant que ça, c'est terminé. Vous avez vu qu'Olama Run, il a réussi, il a installé 3.2 et maintenant je peux parler à

14:43Lama 3.2, qui est du coup le modèle de chez Meta.

14:47Les amis, si jamais vous êtes en train d'apprécier

14:49cette vidéo, n'hésitez pas à mettre un petit like, ça m'aide beaucoup. Et surtout, si jamais l'IA, l'automatisation et la productivité vous intéressent,

14:56je fais beaucoup de vidéos dans ce genre, donc n'hésitez pas à vous abonner. Bref, on y retourne.

14:59Maintenant, il y a une autre manière d'installer tous ces modèles open source et,

15:03très honnêtement, je vous le conseille parce que je ne le connaissais pas, ou en tout cas je ne l'utilisais pas, c'est LM Studio.

15:09LM Studio, avant, je pensais que c'était un truc de développeur.

15:12Du coup, je pensais, et parce qu'Olama était le plus connu,

15:15eh bien, j'avais pas vraiment été regarder ça. Et en fait, malgré son interface un peu dev,

15:22il est très pratique. Donc LM Studio, je vais l'ouvrir. Donc là aussi, comme

15:28Olama, en fait, comme Enchanted, pardon, je vais avoir mes conversations, un peu comme chat GPT.

15:32Ici, je vais avoir mes modèles. Alors, ils ne sont pas partagés avec Olama, donc on va devoir les télécharger ici,

15:38dans Discover. Pour info, si jamais vous n'avez pas ce truc Discover, il faut aller sur Power User, ici.

15:43Et donc là, vous allez dans Discover et là, vous allez pouvoir télécharger plein, plein de modèles. Donc pareil, il y a Mistral,

15:507B, par exemple, ici. Je fais ça, je fais Download et là, c'est en train de télécharger

15:55la version de Mistral 7B. Donc ça, je peux le laisser comme ça.

16:00Et en fait, la différence avec Olama, c'est que les deux sont ensembles. C'est-à-dire qu'on a à la fois

16:05l'interface et à la fois le LLM et le serveur sur votre ordi. Et donc, c'est quand même bien pratique.

16:11Moi, ce que je vous conseille de faire dedans, c'est donc vous mettre en mode Power User,

16:15d'utiliser

16:16cette version-là, là, avec le chat, du coup, et de télécharger directement vos modèles ici. Un des éléments

16:23avec lesquels il va falloir faire attention, c'est ce truc-là. C'est la puissance de votre ordi. En fait,

16:30si vous mettez en mode développeur, ce qui va être cool, c'est d'aller regarder ce truc-là. Ce truc qui s'appelle

16:36Token par seconde. Et en fait, selon la puissance de votre ordi et selon le modèle que vous allez choisir, il y a des modèles qui

16:42vont être plus ou moins lents. Parce que votre ordi, il n'a peut-être pas, du coup, assez de patates, assez de GPU, ou ce qu'on appelle assez de

16:50mémoire

16:52vidéo, donc de VRAM.

16:53On va en discuter un peu plus en détail de tout ça. Donc, en gros, maintenant qu'on sait comment installer, on va pouvoir se poser

16:58la question de quel modèle choisir.

17:00Déjà, il faut réfléchir selon le besoin. Si votre besoin, il est plutôt

17:05d'avoir un assistant généraliste, comme ChatGPT, etc., ou de faire

17:10du résumé de documents PDF, de la génération de codes. Si vous voulez faire plutôt du RAG, donc c'est-à-dire avoir plusieurs

17:17documents et derrière aller les requêter, et bien votre utilisation va être différente.

17:22Et en fait, selon tout ça, vous n'allez pas choisir les mêmes modèles.

17:26Et il y a aussi la puissance de votre ordi. En fait, ce qui se passe, je vous ai expliqué que le truc le plus important

17:31pour faire tourner ces modèles, c'est de faire de la multiplication de matrice. Et pour ça, il faut du GPU, en tout cas du VRAM,

17:37et voir un petit peu la puissance de votre ordi. Et donc, sur LM Studio, ce qui est quand même très cool,

17:43c'est que quand on va dans la partie configuration, ici en bas à droite,

17:46et bien, quand on va dans Hardware, on a cette information.

17:49C'est le type de votre ordi, le GPU, si vous avez un GPU ou pas, donc une carte graphique ou pas.

17:56Est-ce que vous avez de la VRAM ? Et c'est ce truc-là qui est important.

18:00Moi, j'ai un ordinateur qui est assez puissant, c'est pour ça qu'il le fait tourner assez rapidement, mais selon votre ordi, ça peut être plus ou moins

18:05long. Et ce qui est le plus important, en fait, c'est du coup GPU. Et donc, dans le GPU, il y a de la VRAM.

18:11Évidemment, votre processeur et votre RAM est importante, mais le plus important, c'est cette VRAM et ce GPU.

18:17Maintenant, vous n'avez pas changé d'ordi pour ça, évidemment, mais si jamais, un jour, vous voulez faire ça en local, il y a

18:23notamment les Mac Mini, en ce moment, qui sont pas mal, parce qu'ils ont une mémoire partagée avec

18:28le processeur. La mémoire graphique et la mémoire du processeur sont unifiées, et donc, ça permet d'avoir

18:33pas mal de VRAM. Donc, c'est l'élément qu'il va falloir regarder.

18:37Et c'est d'ailleurs l'élément

18:39qu'on va regarder, aussi, en fonction du nombre de tokens par seconde. C'est ça qui va venir augmenter

18:44la rapidité avec laquelle ça va s'afficher. Si j'utilise un modèle, par exemple, assez

18:50balèze pour mon ordi, donc là, j'en ai pas. Mais si je vais sur OLAMA, donc je vais regarder

18:55Enchanted, et je vais prendre peut-être un modèle qui est peut-être trop gros

18:58pour moi. Donc là, j'en ai pas. Mais si j'en avais un, typiquement, DeepSeek 7, déjà,

19:04il est un peu plus gros que les autres. Et donc, parce que c'est un modèle à 7

19:10milliards de tokens, 7 billions de tokens. Et donc, déjà, il est plus lent que les autres. Pour un modèle à 7 millions de tokens,

19:18grossièrement, il va vous falloir au moins 8 gigas de VRAM pour que ça puisse déjà tourner. En fait, le nombre de

19:26paramètres, pardon, j'ai dit token tout à l'heure, mais c'est le nombre de paramètres, il va être marqué au moment du téléchargement

19:32du modèle. Donc, si on va

19:34ici, donc vous voyez ici, il y a marqué le nombre de paramètres sur les modèles de chez

19:41OLAMA. Et bien, là aussi, il y a marqué quels sont les

19:45nombres de paramètres. Et donc, selon ce que vous allez mettre comme nombre de paramètres, ils vont pouvoir, oui ou non, tourner sur votre machine.

19:51Et donc, moins il y a de paramètres, moins ils sont

19:54précis, plus ils peuvent halluciner. Et plus ils sont balèzes,

19:58plus ils sont précis. Mais évidemment, il faut des ordis quand même assez puissants. Donc, comment faire pour pouvoir optimiser l'utilisation des LLM

20:05locaux sur notre ordi ? Et bien, première chose, pas choisir des modèles trop gros pour optimiser cette vitesse. Je vous ai montré le nombre de

20:12tokens par seconde, c'est la mesure, en fait, de la vitesse de ces LLM. Et donc, regardez

20:17que vous ne prenez pas un modèle trop gros selon la puissance de votre ordi.

20:21Derrière,

20:22tous les modèles ne sont pas des modèles

20:25multimodaux, c'est-à-dire qu'ils ne vont pas pouvoir tous prendre des images et des PDF. Je vous donne un exemple.

20:29Par exemple, ici, il y a un truc qui s'appelle vision. Et donc, dans vision, ce qu'on va pouvoir avoir, c'est tous les modèles. Donc, ça,

20:35ça va venir filtrer les modèles ici. Tous les modèles de vision, c'est ceux qui vont pouvoir regarder. Et c'est ceux

20:41donc qui vont pouvoir lire des images, lire des PDF, etc.

20:44Tous les modèles ne permettent pas de faire ça. Il y a des modèles qui sont plus des outils, qui sont des outils du coup

20:50spécialisés. Il y a des modèles, c'est des modèles de embedding qui vont être bien meilleurs à

20:54retrouver de l'information, notamment pour du RAG. Et on va en parler du RAG. J'ai d'ailleurs fait une vidéo au-dessus si vous savez pas

21:00ce que c'est. Mais c'est des modèles qui vont pas utiliser du texte, mais qui vont utiliser des vecteurs pour pouvoir ranger les informations sur notre

21:07ordi et les retrouver. Et donc, selon tout ça, vous allez choisir en fait votre modèle. Très honnêtement,

21:13si vous êtes débutant et que vous savez pas, prenez Mistral 7b si jamais votre ordi est assez

21:19balèze. Sinon, prenez Gemma 3, qui est un modèle de Google en version 1b ou 4b.

21:26Et sinon DeepSeek R1 1.5 billion ou 7 billion parameters.

21:31Ça va être largement suffisant si vous êtes vraiment débutant. Pour ce qui est de la voix, parce qu'il y a des modèles qui permettent de

21:37gérer la voix, notamment Whisper. C'est un modèle qui est d'ailleurs développé par

21:42OpenAI, mais qui est un modèle open source. Et du coup, vous pouvez l'installer sur votre ordi et derrière

21:47parler à votre ordi. Et derrière, il le retranscrit. Le problème, c'est que c'est assez compliqué à installer. Et surtout que moi, déjà, j'utilise

21:54Super Whisper. J'utilise ce truc-là. En fait, Super Whisper, ça permet de comprendre tout ce que je suis en train de dire et derrière de

22:00le transcrire. C'est un outil qui est certes

22:03payant pour une partie, mais sinon, il est gratuit dans la version de base.

22:07J'avais fait une vidéo dessus et très honnêtement, si vous ne l'avez pas encore vue, je vous invite à aller

22:10la regarder. Et ça aussi, ça se passe en local en fait.

22:13Super Whisper, lui, ne travaille que directement sur votre ordi. Donc, dans l'avion, j'étais capable de

22:18parler et que lui, il me comprenne. Derrière, pour ce qui est du

22:21RAG. RAG, c'est la possibilité de mettre plein de documents ensemble

22:25et derrière, de les donner à un LLM pour qu'il puisse aller chercher dedans. Et bien, il y a un truc qui existe qui s'appelle

22:31Private GPT.

22:33Si jamais vous êtes une boîte et que vous avez besoin d'avoir plein de documents

22:37que vous voulez que les LLM aillent regarder, Private GPT, c'est une superbe solution.

22:43Enfin, on arrive aux utilisations avancées pour ceux que ça intéresse. Moi, c'est là où j'ai pris le plus de plaisir.

22:48En gros, je ne sais pas si vous savez, mais n8n, c'est

22:52un outil open source, là aussi. Donc, en fait, ce que j'ai fait, moi, c'est que j'ai

22:58lancé n8n sur mon ordi. Comment est-ce que j'ai fait ça ? Et bien, là aussi, je vais sur mon terminal, je tape

23:05npx n8n. Et donc, ce que ça a fait, ce truc-là, c'est que c'est venu

23:10installer sur mon ordi n8n. Si vous, vous le faites, ça ne va probablement pas marcher parce qu'il y a quand même pas mal de

23:15dépendance à aller installer. Mais une fois qu'on fait ça et qu'on va sur ce lien-là, en fait, n8n,

23:21il est installé sur mon ordi. Et donc, là aussi, sans connexion Internet, je peux l'utiliser. Donc, là aussi, je peux créer un workflow et

23:28je peux créer un workflow, par exemple, avec un agent.

23:31Ceux qui voient peut-être ce que c'est qu'un agent,

23:34sinon, allez regarder ma vidéo sur les agents IA. Ici, je peux discuter avec mon agent.

23:38Et mon agent, je peux lui donner un modèle. Et en fait, ce qui est génial, c'est qu'ici, je peux choisir

23:43OLAMA. Ça veut dire que pour des boîtes qui ont des besoins d'automatisation, je ne sais pas si je travaille

23:47dans un cabinet d'avocats, à l'armée, etc., on va pouvoir utiliser OLAMA ici.

23:54Vous voyez, c'est les mêmes modèles que j'ai ici. Je peux utiliser Coder, CoinCoder, donc, du coup, qui est spécialisé dans le code.

24:01Et donc, là, je vais pouvoir lui donner une mémoire simple. Et là, si je vais aller parler ici, je vais faire Hello.

24:07Vous allez voir, c'est bien OLAMA qui va me répondre.

24:10Et donc, je peux avoir une conversation avec le modèle qui est sur mon ordi. Là, vous allez me dire, oui, mais je suis même à quoi bon faire de l'automatisation si on n'a pas Internet ?

24:18Eh bien, dans ce cas-là, typiquement. Là, par exemple, je vais aller sur une autre automatisation qui

24:24prend des éléments sur mon disque, donc, en fait, sur mon ordi, qui va

24:31extraire des éléments

24:32d'un CSV, par exemple, et qui, derrière, va utiliser un modèle OLAMA pour pouvoir faire des interactions avec des fichiers.

24:40Il y a aussi la possibilité, ici, de gérer tout ce qui est images.

24:44Et donc, là, on va pouvoir

24:46resizer des images, avoir, écrire des éléments sur des images. Tout ça, ça va être possible sans coder avec un outil

24:53comme N8n ici. Autre élément, Make, qui est un des outils préférés aussi d'automatisation, ce qui est génial avec

25:01LM Studio, c'est qu'on a une API qui est disponible. Donc, si on va dans le mode

25:06développeur ou power user, il y a une API qui est là. Et donc, cette API en question, elle est uniquement locale.

25:13Ça veut dire que je peux l'appeler via

25:16cette URL-là. Le problème avec mon API qui est en local, c'est que je ne peux pas l'appeler depuis un outil

25:21externe comme Make. Je peux l'appeler depuis un outil installé sur mon ordi, mais si j'ai envie, parce que j'ai un sujet de

25:28confidentialité de données, là aussi,

25:30et je vous prends un scénario que je vous ai préparé sur Make, ici, admettons, j'ai un Google Sheet dans lequel il y a

25:37des informations confidentielles, d'avocats, etc., des échanges avec des avocats, et j'ai besoin de générer des réponses.

25:42Admettons, je suis moi-même avocat, ce qui n'est pas le cas, mais admettons. Et bien, là, je n'ai pas envie de mettre mes données

25:48sur ChatGPT ou sur Cloud. J'aurais pu utiliser ici

25:54un module de Cloud, mais j'ai préféré utiliser l'API qui est de LM Studio.

26:00Maintenant, vous avez vu, ici, par exemple, je n'ai pas du tout mis

26:03le même lien que là, c'est parce que ce lien-là, il est local à mon ordi, et pour pouvoir faire le lien entre les deux,

26:09eh bien, il faut utiliser un outil. Et là, on va un peu plus

26:14dans le monde des développeurs ou dans le monde technique, c'est, on va créer ce qu'on appelle un tunnel

26:19entre le monde externe et le monde de notre ordi. Et donc, ce tunnel-là, ça s'utilise avec ngrok.

26:25Je vous épargne un peu les détails,

26:27mais grossièrement, ça s'installe comme ça, et puis ça s'utilise comme ça. C'est-à-dire que ça s'installe, vous suivez la documentation de ngrok

26:35ici, et puis derrière, on va dire ngrok HTTP 1, 2, 3, 4. Ça veut dire qu'en gros, il va faire

26:42en sorte que tout ce qui arrive sur le lien de l'API

26:46avec ce

26:48cet URL-là, eh bien, aille

26:51directement en local sur LM Studio.

26:54Vous allez voir, la démo, c'est assez cool. Donc typiquement, là, je vais aller sur mon

27:00truc ici. Je vais bien changer le lien parce que du coup, entre-temps, il a changé.

27:04Voilà, je fais Save. Ce que je lui ai demandé,

27:08c'est

27:09lui dire

27:10voici un message initial avec le dernier échange pour son prénom, et je vais dire aide-moi à écrire un message de réponse.

27:17Et derrière, je vais lire chacune

27:19des

27:22des éléments dans mon Google Sheet. Je vais en mettre dix,

27:26et je vais venir les mettre à jour dans mon Google Sheet, également dans une des colonnes. Et je veux lui dire ici

27:33ne

27:36n'affiche que le message.

27:43Et là, je fais Run Once, et vous allez voir qu'ici, ce qui est en train de se passer,

27:48et vous allez voir LM Studio. LM Studio, ici, il est en train de recevoir

27:53des

27:54infos, et il est en train de donner des infos à Mike, alors que Mike, il est lointain. Il est ailleurs, en fait.

28:00Et donc ici, vous voyez, ça met... Bon, le prompt, il n'était pas le plus

28:06simple, mais en tout cas, vous voyez. Et du coup, il est en train de proposer des options

28:09pour chacune des personnes ici, ce qui est génial. Et donc, pour bien comprendre, grossièrement, ce qui s'est passé, c'est que ici,

28:15moi, j'ai mon ordi sur lequel j'ai un modèle qui tourne en local. Ce modèle-là, eh bien,

28:23derrière, il est appelable via une API. Cette API, vu qu'elle est uniquement sur mon ordi, j'en ai fait un tunnel

28:31avec Ngrok. Et donc, ce tunnel sur Ngrok, je peux, derrière, maintenant, avec le lien qu'on m'a donné,

28:39utiliser ça dans une app Make, ce qui est juste magique, parce que du coup, c'est gratuit et j'ai la confidentialité.

28:46Ça, c'est des modules Make, pour ceux qui ne sauraient pas.

28:49Vous voyez, c'est quand même assez dingue ce qu'on arrive à faire. Et puis, dernier exemple que je voulais vous montrer, c'était la partie code.

28:55Donc là, on arrive vraiment vers la fin de la vidéo où,

28:57j'espère que ceux qui regardent, c'est peut-être des devs ou en tout cas des gens qui s'intéressent aux devs. Là, vous voyez, j'ai utilisé...

29:03Je fais du piton. J'ai

29:06un fichier qui est ouvert sur un outil qui s'appelle VS Code, qui est un éditeur de code. Et là, je peux vouloir, par exemple,

29:12prendre ça, faire commande L. Et là, j'ai ce truc qui va s'ouvrir, un peu comme Cursor.

29:17Je ne sais pas si ceux qui connaissent Cursor, c'est un éditeur de code, mais cette fois-ci, qui peut se connecter à plusieurs LLM payants.

29:23Et bien là, je peux,

29:26ici, prendre des modèles qui sont des modèles open source, parce que lui a

29:31automatiquement détecté, en fait, tout ce que j'avais dans

29:35mon OLAMA. Vous voyez, c'est les mêmes modèles que mon OLAMA, tout à l'heure. Et donc là, je peux lui dire

29:43réécrit

29:45cette fonction

29:47sur un port différent,

29:50par exemple. Et donc là, ce qu'il va faire, c'est qu'il va écrire ici des éléments. Il a changé le port.

29:56Et là, il va me demander, est-ce que c'est ok ?

29:59Et moi, j'aurai plus qu'à valider.

30:01Apply. Voilà, c'est en train d'appliquer les changements. Et voilà. Et là, du coup, il a réussi à faire ce qu'on lui demandait. Et donc ça,

30:06ça se fait avec une extension

30:09qui s'appelle Continuo. Cette extension permet,

30:13du coup, extension

30:15VS Code, qui permet, du coup, à VS Code de se connecter avec des

30:23LLM qui vont être locaux ou distants.

30:26Je vous ai montré un petit peu des outils d'automatisation,

30:28dont un qui est N8n et l'autre Make. Ce que je vous incite à aller voir, c'est comment moi, j'utilise Make

30:34au quotidien. Et donc, je vous incite à aller voir cette vidéo. Et si jamais

30:38vous l'avez déjà vue, je vous incite à aller voir celle sur les agents IA avec N8n.

30:42Très honnêtement, sur une des deux, vous allez être bluffés sur tout ce qu'on peut faire avec de l'automatisation. Et pour ceux qui sont

30:49des spectateurs récurrents, je suis curieux d'avoir votre avis sur ce genre de vidéo

30:53qui est beaucoup moins monté, beaucoup plus chill. Et très honnêtement, moi, je prends un grand plaisir parce que je passe mon temps à

30:58découvrir des trucs. Et à chaque fois, je me prends la tête.

31:00Il faut que je fasse du storytelling, etc. Et en fait, j'ai l'impression que là, je prends mon pied. Donc, curieux d'avoir votre avis.

Recommandations

0:38

À suivre

Les Éléphants assurent au tableau sans rassurer dans le jeu

Zapping-Medias