Google gör webben redo för agentisk AI med nya standarn WebMCP

daniel norinUtveckling3 timmar sedan8 Visningar

Dela

Hem
Utveckling
Google gör webben redo för agentisk AI med nya standarn WebMCP

Tänk dig en AI som faktiskt förstår hur en webbplats fungerar i stället för att stirra på den som en förvirrad turist med kartan upp och ner. Det är precis det Google nu försöker lösa. Med WebMCP slipper AI gissa var knappen Skicka sitter och kan i stället kommunicera direkt med sajten. Mindre kaos, mindre datorkraft, färre digitala nervsammanbrott.

Innehållsförteckning

Slutet för skärmdumpskaoset

Hittills har AI agenter behandlat webben som en bild. De tar skärmdumpar, skickar dem till en visionmodell och försöker lista ut var de ska klicka. Flytta en knapp några pixlar och hela flödet kan haverera.

Med Web Model Context Protocol WebMCP ändras spelreglerna. I stället för att AI ska gissa berättar webbplatsen exakt vilka verktyg som finns och hur de används. Det är som att byta från gissningslek till tydliga instruktioner. Resultatet blir snabbare interaktion, färre fel och betydligt lägre beräkningskostnader.

Två vägar till en agentredo webbplats

Utvecklare får två huvudsakliga sätt att göra en webbplats redo för AI agenter.

Deklarativ metod med html

Den enklaste vägen är att lägga till nya attribut direkt i HTML. Genom att använda attribut som toolname och tooldescription i formulärtaggar kan funktioner exponeras som tydliga verktyg.

Chrome läser dessa attribut och skapar automatiskt ett strukturerat schema som AI modellen kan tolka. Ett formulär för att boka flyg blir då ett definierat verktyg med specifika indatafält.

När en AI skickar formuläret triggas en särskild händelse som signalerar att det är en agent och inte en människa som initierar åtgärden. Backend kan därmed hantera förfrågan på rätt sätt.

Enkelt uttryckt får varje funktion en tydlig namnskylt och en manual.

Imperativ metod med javascript

För mer avancerade applikationer finns en djupare integration via JavaScript. Här används navigator modelContext registerTool för att registrera funktioner direkt i webbläsaren.

Utvecklaren definierar verktygets namn, en beskrivning och ett JSON schema för indata. När AI agenten vill exempelvis lägga en produkt i varukorgen anropas den registrerade funktionen i realtid och inom användarens befintliga session.

Det betyder att agenten inte behöver logga in igen eller kringgå säkerhetslager. Allt sker kontrollerat och inom den aktuella användarsessionen. Perfekt för flerstegsflöden som betalningar eller bokningsprocesser.

Prestanda som faktiskt märks

Övergången från bildbaserad tolkning till strukturerad JSON kommunikation är inte bara tekniskt snygg. Den gör verklig skillnad.

Latensen minskar eftersom inga skärmdumpar behöver laddas upp och analyseras.

Noggrannheten ökar eftersom modellen arbetar med strukturerad data i stället för att tolka pixlar.

Kostnaderna sjunker eftersom textbaserade scheman är betydligt billigare att bearbeta än högupplösta bilder i en språkmodell.

Rapporter pekar på upp till 67 procent minskad beräkningsbelastning och en noggrannhet kring 98 procent. Det är skillnaden mellan att hoppas och att veta.

Den tekniska kärnan navigator modelContext

Allt kretsar kring det nya objektet navigator modelContext. Här finns fyra centrala metoder.

registerTool gör en funktion synlig för AI agenten.

unregisterTool tar bort funktionen från AI agentens åtkomst.

provideContext skickar extra metadata som användarpreferenser till agenten.

clearContext rensar delad data och stärker integriteten.

Det fungerar som en kontrollpanel där utvecklaren bestämmer exakt vad agenten får göra.

Säkerhet först alltid

Säkerhet är en självklar fråga. WebMCP är byggt enligt principen permission first. AI agenten kan inte utföra känsliga åtgärder utan att webbläsaren agerar mellanhand.

I många fall får användaren en bekräftelse innan något genomförs. Användaren behåller kontrollen medan agenten gör grovjobbet. Samtidigt finns möjligheten att rensa kontextdata för att undvika att känslig information sparas i onödan.

Så kommer du igång med WebMCP

Att börja arbeta med WebMCP kräver tre grundläggande steg.

Först behöver rätt version av Chrome användas. Funktionerna testas initialt via Early Preview Program och i nyare versioner som Chrome 146. Ansök om tillgång via Googles utvecklarprogram och aktivera relevanta experimentella funktioner.

Nästa steg är att identifiera vilka funktioner på webbplatsen som lämpar sig som verktyg. Börja enkelt. Ett bokningsformulär, en kontaktförfrågan eller en produkt som kan läggas i varukorgen är bra kandidater.

Om webbplatsen är relativt enkel kan den deklarativa metoden användas. Lägg till attribut i formulär och beskriv funktionerna tydligt. Beskrivningarna bör vara specifika och strukturerade för att undvika feltolkningar från språkmodeller.

För mer komplexa flöden implementeras den imperativa metoden. Registrera verktyg via navigator modelContext och definiera tydliga JSON scheman. Testa hur olika modeller tolkar beskrivningarna och justera tills beteendet är stabilt.

Slutligen bör säkerhetsflöden testas noggrant. Säkerställ att användaren alltid har sista ordet och att känslig data kan rensas med clearContext.

Att komma igång handlar inte bara om teknik. Det handlar om att tänka om hur en webbplats kommunicerar. Från grafiskt gränssnitt till strukturerad funktion.

Och här kommer lite exempel

Google har byggt in WebMCP i Chrome och gör det tillgängligt som en tidig förhandsversion i Chrome 146 Canary bakom en experimentflagga. Standarden har tagits fram gemensamt av ingenjörer från Google och Microsoft och hanteras under W3C:s paraply, vilket är ganska klassen av dem.

Det finns två sätt för utvecklare att göra sin sajt “agentredo”:

Den deklarativa API:n är den enkla varianten. Här lägger man till nya attribut direkt i HTML-formulär. Ett formulär för att söka flyg kan se ut ungefär så här:

html

<form toolname="searchFlights" tooldescription="Sök efter flygningar">
  <input name="origin" type="text" required>
  <input name="destination" type="text" required>
  <input name="date" type="date" required>
  <button type="submit">Sök</button>
</form>

Resultatet? Chrome läser automatiskt av dessa taggar och skapar ett schema som AI-agenten förstår. Agenten behöver inte längre lista ut vad formuläret gör, den vet det.

Den imperativa API:n är för mer komplexa flöden och kräver JavaScript. Här registrerar man verktyg programmatiskt via navigator.modelContext.registerTool(). Ett e-handelsexempel skulle kunna se ut så här:

javascript

navigator.modelContext.registerTool({
  name: "addToCart",
  description: "Lägg till en produkt i varukorgen",
  parameters: {
    productId: { type: "string" },
    quantity: { type: "number" }
  },
  execute: async ({ productId, quantity }) => {
    return await cart.add(productId, quantity);
  }
});

Nu kan AI-agenten direkt anropa den här funktionen utan att behöva hitta “Köp”-knappen visuellt.

En ny standard för den agentiska webben

WebMCP markerar början på en mer strukturerad relation mellan AI och webbplatser. I stället för att tolka pixlar får AI tillgång till ett verktygsbälte av definierade funktioner.

Det är mer än en uppdatering. Det är ett skifte i hur webben är tänkt att användas. Mindre gissningar. Mer struktur. Färre digitala panikattacker.

För den som bygger digitala tjänster är frågan inte om AI kommer att använda webben. Frågan är hur väl förberedd webbplatsen är när det sker.