Se listen: De bedste (og værste) AI’er til programmering
Hvilken AI skal du vælge til programmering? En ny test af 14 AI-modeller afslører store forskelle: Nogle excellerer, mens andre fejler totalt. Se vinderne og taberne her.
Microsoft Copilot skuffer: Dumpede alle testopgaver
I bunden af listen finder vi værktøjer som Microsoft Copilot, Google Gemini Advanced og Claude 3.5 Sonnet.
Mange virksomheder benytter allerede Microsofts økosystem, hvilket gør Copilot til en oplagt AI-assistent for dem. Men trods sin brede tilgængelighed klarede den sig dårligst i testen og dumpede alle opgaver.
Testen viste, at Copilot ofte genererer kode, der krævede manuel rettelse.
”Resultaterne af mine tests var ret overraskende, især i lyset af de store investeringer fra Microsoft og Google. Men dette innovationsområde udvikler sig med lynets hast,” følger David Gewirtz op.
Sådan klarede GitHub Copilot sig
GitHub Copilot, et andet populært værktøj til at kode med, klarede sig heller ikke godt. Den scorede 2 ud af 4 rigtige.
David Gewirtz udtrykker stor skuffelse.
”Jeg kan ikke med god samvittighed anbefale at bruge GitHub Copilot-udvidelserne til VS Code. Jeg frygter, at fristelsen til blot at indsætte kodeblokke uden tilstrækkelig testning vil være for stor – og at den kode, Copilot genererer, simpelthen ikke er klar til produktion. Prøv igen næste år.”
Han tilføjer dog, at GitHub Copilot ganske gnidningsfrit integrerer med VS Code, hvilket gør det hurtigt og effektivt at få hjælp til kodning, især når man arbejder i kontekst.
Her er de 14 AI-værktøjer
Plads | AI-model | Beståede tests (ud af 4) |
---|---|---|
1 | Perplexity Pro GPT-4 | 4/4 |
2 | ChatGPT GPT-4o | 4/4 |
3 | ChatGPT GPT-4 | 4/4 |
4 | Grok | 3/4 |
5 | ChatGPT GPT-3.5 | 3/4 |
6 | Perplexity Free | 3/4 |
7 | DeepSeek V3 | 2/4 |
8 | DeepSeek R1 | 2/4 |
9 | GitHub Copilot | 2/4 |
10 | Meta AI | 1/4 |
11 | Meta Code Llama | 1/4 |
12 | Claude 3.5 Sonnet | 1/4 |
13 | Google Gemini Advanced | 1/4 |
14 | Microsoft Copilot | 0/4 |
Du kan læse mere her.
Metode: Sådan blev AI'erne testet
Testen fokuserede på fire almindelige programmeringsopgaver, hvor AI’erne blev vurderet på deres evne til at generere syntaktisk korrekt kode, forstå kontekst og løse tekniske udfordringer.
Mere konkret blev 14 AI-værktøjerne udsat for fire foreskellige tests:
• Skrive et WordPress-plugin
• Find en irriterende fejl
• Omskrive en string-funktion
• Skrive et script
Hvis du vil forstå den præcise metode, kan du læse om testanalysen på ZDNet.