Matematikken bak Wordle gjetter PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Matematikken bak ordgjettinger

Introduksjon

I det enkle spillet Wordle må spillerne gjette et hemmelig ord på fem bokstaver i seks eller færre svinger basert på ledetråder om tilstedeværelsen og plasseringen av bokstaver avslørt av deres tidligere gjetninger. Mens noe lignende spill har dukket opp tidligere, må alle som spiller Wordle på en bestemt dag oppdage det samme hemmelige ordet, noe som gjør det enkelt å dele forsøkene dine og diskutere spillet blant vennene dine. Den særegne strukturen og presentasjonen av spillet inspirerte spørsmålene i vår siste Innsikt puslespill. Svarene diskuteres nedenfor.

En nøkkel til å spille et godt Wordle-spill er å velge et sterkt startord. Dataanalyser legemliggjøring informasjonsteoretiske teknikker foreslår at startord som "skifer" og "kran" gjør det mulig for deg (eller en datamaskinalgoritme, i alle fall) å løse Wordles med et minimum antall svinger i gjennomsnitt. Imidlertid føler mange menneskelige løsere seg mer komfortable med å velge et vokalrikt ord som «adieu», «lyd» eller «heve». Denne følelsen har både et intuitivt og et rasjonelt grunnlag. For det første lar plasserte vokaler deg finne en vokal "ryggrad" som kan begrense antallet konsonanter du trenger å søke etter. Hvis du for eksempel vet at ordet ser ut som _AI_E etter at du har spilt «raise», er det bare noen få mulige ord igjen: «naiv», «waive» og «mais». For det andre maksimerer vokaler en mengde som kan kalles "dekning" - mellom bare de fem vokalene og Y, kan vi få minst én positiv bokstav i hver og en av de 2,309 svarene. For å få denne typen perfekt dekning med konsonanter, må du prøve alle 20 av dem, noe som krever minst fem omdreininger.

Vårt første puslespill utfordret leserne til å finne ut hvilket av disse tre vokalrike ordene som er den beste første gjetningen.

Puslespill 1 

Tabellen nedenfor viser hvor ofte de åtte bokstavene i ordene «adieu», «audio» og «raise» forekommer i hver posisjon over hele Wordle-svarlisten på 2,309 ord. Basert på denne tabellen, finn ut hvor mange grønne og gule du kan forvente å komme over hele Wordle-svarlisten for hvert av de tre vokalrike startordene: «adieu», «audio» og «heve». (I Wordle vises en bokstav med grønn bakgrunn hvis den er på rett plass, og gul bakgrunn hvis den er i ordet, men er på feil plass.) Hva forteller dette deg om deres forventede ytelse som startord ?

Reader Rob Corlett viste hvordan man beregner antall forventede grønne og gule ut fra denne tabellen. For «adieu» er A den riktige første bokstaven for 140 ord, D er den riktige andre bokstaven for 20 ord og så videre. Totalt antall greener over alle mulige Wordle-svar er summen av disse. Så "adieu" får totalt 140 + 20 + 266 + 318 + 1 = 745 greener. For gule farger må vi starte med antall ganger bokstaven forekommer minst én gang i et ord (906 for A i "adieu") og trekke fra gangene den er grønn (140) for å få antall gule (766) . Legg til tallene for hver bokstav i ordet for å få det totale antallet gule. Vi kan dele disse tallene på det totale antallet svar (2,309 XNUMX) for å få forventningen til grønne og gule for en enkelt omgang, men siden dette trinnet er felles for alle startordene våre, kan vi bare jobbe med totalsummene for å sammenligne de tre av dem. Siden vi har valgt disse ordene spesifikt for å finne en vokalryggrad, kan vi også regne ut hvor mange av de grønne som kommer fra vokaler. Her er resultatene.

Som du kan se, er det ingen sammenligning! "Raise" er overlegen "adieu" i alle mål, og gir flere grønne og gule farger og gir flere vokaler på de rette stedene, for ikke å si noe om det faktum at du også fanger eller utelukker to av de vanligste konsonantene. "Lyd" er en fjern tredjedel på alle disse målene. Merk at mens du kan få litt informasjon om hvilke bokstaver som mangler selv om du ikke får noen gule eller grønne farger, som leser Max Davies påpekt, du får definitivt mer informasjon når du får en eller flere gule og grønne farger. Så, "adieu"-brukere, kanskje det er på tide å si adieu.

Spørsmål 1

Dette var et spørsmål om hvor mye vi burde verdsette greener i forhold til gule: Hvor mange gule er lik en enkelt grønn? Den klare karakteren til resultatene våre ovenfor unngår behovet for å svare på dette for sammenligningen ovenfor, men det er et interessant spørsmål. Det er to aspekter ved denne verdivurderingen. Det første er det menneskelige aspektet: Hvor mye vekt legger du til den mentale innsatsen som kreves for å finne ut alle de forskjellige måtene en gul bokstav kan plasseres på? Det er ingen tvil om at det å slå mange greener gjør livet enklere og gir oss mer dopamin-boost. Fra et informasjonsteoretisk synspunkt må du gå gjennom hvert startord for hvert svarord og sammenligne hvor mange omdreininger det ville ta for å løse gåten når de samme bokstavene var grønne sammenlignet med når de var gule i alle tilfeller.

Selv om dette er en stor oppgave, klarte jeg å gjøre det for det best mulige startordet på datamaskinen (det obskure ordet "tarse", som betyr en hannfalk, hvis fulle optimale løsningstre har vært postet på nettet av matematikeren Alex Selby). Svaret er overraskende. Gjennomsnittlig antall omdreininger som kreves for en dataløsning med et svarord som kun ga greener i den første svingen var 3.34, mens antallet omdreininger som kreves når det kun var gule bokstaver var 3.51, en økning på kun 5 %! Åpenbart, for en datamaskinalgoritme, kan plassering av de gule bokstavene, som virker så skremmende for oss mennesker, oppnås uten for mye straff. Jeg vil anta at forskjellen ville være større for en menneskelig løser, ikke bare i antall omdreininger som kreves, men også i den mentale innsatsen og tiden som kreves for å løse.

Puslespill 2

A) Hvis du får alle fem gule på din første tur, hva er det maksimale antallet runder det kan ta for å finne svaret, forutsatt at du spiller best?

As Rob Corlett og Sam Rhoads korrekt angitt, er det teoretiske svaret fem: En helgul kombinasjon av bokstaver som ABCDE kan motstå oppdagelse i fire omdreininger, ettersom du kanskje må sykle gjennom BCDEA, CDEAB og DEABC før du oppdager at svaret var EABCD. I praksis er slike sykliske "ord" imidlertid ikke mulige nettopp fordi virkelige ord har definerte vokal- og konsonantmønstre som ikke kan strekkes vilkårlig. Selv ord med mange anagrammer kan løses på ikke mer enn tre forsøk, som Rob Corlett demonstrerte med «parse».

B) Er det noen gang slik at det å ha en bokstav i en bestemt posisjon bli gul er mer verdifullt enn å se den bli grønn? Hvis ja, kan du gi et eksempel og forklare hvorfor dette bør være?

Ja, en bokstav som kommer opp gul kan i sjeldne tilfeller være mer verdifull enn den samme bokstaven som kommer opp grønn, hvis det er en bokstav som sjelden vises i de andre posisjonene. Dette skjer ofte med Y, som i overveldende grad finnes på slutten av et ord. Anta at du starter med "mage", og både B og Y blir grønne. Du sitter igjen med mange muligheter: «baggy», «bitty», «bobby», «booty», «bushy» osv. Men hvis både B og Y blir gule, er det bare én mulighet: «avgrunn».

Spørsmål 2

Har en person med et godt ordforråd med obskure Scrabble-ord en fordel eller ulempe ved å spille Wordle?

Som en tidligere turnerings-Scrabble-spiller som brukte ganske mange timer på å memorere obskure ord, synes jeg det er både en fordel og en ulempe. Da jeg først begynte å spille Wordle, så jeg ofte muligheten for og prøvde å utelukke uvanlige ord som jeg senere innså at det nesten ikke var noen sjanse for å være korrekte. (I golfterminologi, som min Wordle-gruppe ofte bruker, refererer vi til dette som å være hindret av en imaginær fare.) Som jeg beskrev i gåtespalten, er Wordle-svarene hentet fra en liste med enkle ord, hvorav de fleste er kjente til alle som har engelsk som morsmål i USA. Selv ord som er noe uvanlige, men som ikke er obskure, er ikke på Wordles svarliste. For eksempel kastet jeg nylig bort en tur med å spille «latex», et ganske vanlig ord som viser seg ikke å være et mulig Wordle-svar. Så, som alle Wordle-spillere, har jeg måttet bygge en mental modell av den typen ord som kan være et Wordle-svar og spesifikt ignorere den typen sjeldne og obskure ord som jeg gjerne ville brukt for å få flere poeng i Scrabble. På den annen side kommer kunnskapen om disse sjeldne ordene godt med i «feiende konsonanter», noe du noen ganger må gjøre for å unngå å bruke mange svinger på å gjette en haug med lignende ord én etter én. For eksempel, hvis du har _RA_E og ser på en haug med mulige ord som inneholder D, G og K, for eksempel «brems», «drake», «drape», «grade» og «grape», hjelper det å vite og spill ordet "kedge", som kan garantere å finne løsningen i ytterligere to svinger (å kedge betyr å flytte et skip ved å slippe ankeret på avstand og deretter trekke i det med et kraftig tau).

Å få det samme Wordle-puslespillet som alle andre hver dag oppmuntrer til sosial lek. Men det florerer av spoilere på internett, og det er kjent noen mennesker jukser i å rapportere sine poeng. Det neste puslespillet omhandler spørsmålet om når mistanker om juks i en Wordle-gruppe er berettiget utelukkende basert på usannsynligheten til en persons poengsum. Igjen er dette puslespillet innrammet i golfscoringstermer: En Wordle-løsning i tre svinger kalles en birdie, å få den i to svinger er en ørn og å få et ord på den aller første svingen er selvfølgelig en hole-in-one .)

Puslespill 3

Et tradisjonelt vitenskapelig kriterium for å undersøke videre er om sannsynligheten for at et utfall oppstår ved en tilfeldighet (den alfaverdi) er mindre enn 5 % eller mindre enn 1 %, avhengig av forskernes mål. Resultatet anses da å være statistisk signifikant på 5 % eller 1 % nivå. Siden det ikke er hyggelig å mistenke folk for juks når de ikke er det, la oss velge det mer konservative 1%-nivået i denne etterforskningen.

Anta at du tilhører en Wordle-gruppe på 10 spillere som har delt resultater med hverandre hver dag i 200 dager. Anta at en veldig god menneskelig spiller kan forvente å få en birdie hver 2.5 kamp, ​​en ørn hver 40 kamper, og en hole-in-one hver 2,000 kamp (som er rimelige anslag fra den virkelige verden).

A) Hvor mange birdies på rad vil være signifikante på 1 %-nivået i gruppen din i løpet av denne tiden?

B) Hvor mange ørner på rad?

C) Hvor mange hull i ett på rad?

Nøkkelen her er å innse at du har en befolkningsstørrelse på 2,000 personspill. Så, for å nå dette betydningsnivået, må du se en begivenhet som vil skje sjeldnere enn én gang i 200,000 XNUMX personspill utelukkende ved en tilfeldighet.

A) Birdie-eller-bedre-streker: Sannsynligheten for å få en birdie eller bedre i et enkelt spill er 2/5 + 1/40 + 1/2,000 0.4255 = 1, som er 2.35 av omtrent XNUMX kamper. La oss kalle dette B. Den laveste kraften til B som overstiger 200,000 XNUMX er B15, som er mer enn 368,000 XNUMX (B14 er omtrent 157,000 15). Så en birdie-eller-bedre rekke på 14 eller mer for alle i gruppen ville tilfredsstille dette strenge kriteriet, men en av 20,000 ville ikke. Hvis du mistenkte en individuell spiller, ville du trenge å se en hendelse som skjer sjeldnere enn én gang i 12 1,850 kamper, noe som vil skje med en birdie-eller-bedre-rekke på 188. (Merk at det faktiske antallet muligheter for å ha streker på disse lengdene er litt mindre: Det er faktisk XNUMX kamper for gruppen og XNUMX kamper for den enkelte spiller, men det gjør ingen forskjell i dette tilfellet).

Merk at dette er frekvensene for ekspertspillere, og mistenkelige streker for de fleste grupper og enkeltpersoner vil være mindre. For å bruke dette kriteriet i praksis må du bestemme de tilsvarende birdie-, eagle- og hole-in-one-frekvensene du ser og også ta hensyn til antall spill som har blitt spilt i gruppen din.

B) Ørn-eller-bedre-streker: Sannsynligheten for en ørn eller bedre er 1/40 + 1/2,000 0.0255 = 1, eller omtrent 39.2 av 4. Streklengdene som overskrider vårt signifikansnivå er 3 for gruppen og XNUMX for en mistenkt person.

C) Hole-in-one-streker: Streklengden som overskrider vårt signifikansnivå er 2 både for gruppen og for en mistenkt person.

Det er et forbehold til de to siste svarene: Dette er sjeldne hendelser, og prøvestørrelsen er veldig liten, så du må være forsiktig. De fleste statistikere ville vanligvis vente til de hadde sett minst fem eller flere forekomster av ørn eller hole-in-one, ikke nødvendigvis som en del av en strek, før de var komfortable med å bruke en signifikanstest.

Spørsmål 3

Det er fullt mulig at frekvensen av gode resultater i gruppen din er betydelig høyere enn frekvensen tilfeldig forutsagt, uten at noen jukser. Hvordan vil du forklare dette?

En mulig årsak til dette, som Rob Corlett forklarer, kan være at "spillerne alle fører grundig oversikt over hvert resultat." Som jeg forklarte i opptakten til puslespill 4, skal ikke Wordle-svar gjentas før om fem år under det nåværende oppsettet. Så selv om ingen jukser eller kan alle ordene på svarlisten, kan denne informasjonen fortsatt hjelpe enhver person eller gruppe til å gradvis prestere bedre.

Men det er også en annen grunn: Listen er kanskje ikke godt randomisert. Da jeg spilte Wordle de siste månedene, la jeg merke til at når det var et valg mellom to eller flere ord, var det mer sannsynlig at de enklere ordene var riktige enn de mindre vanlige ordene. For eksempel, hvis du hadde A, N og E og valgene igjen var ord som «snik», «hyene» og «klyster», kunne du uten å nøle spille det enkleste ordet («snike» i dette tilfellet) og du ville bli korrigere mye oftere enn du ville forvente ved en ren tilfeldighet. Jeg brukte faktisk en engelsk prosaordfrekvensliste for å sjekke hvor vanlige svarene jeg møtte over to måneder var sammenlignet med et gjennomsnittsord i Wordle-svarlisten. Svarene jeg møtte var omtrent 25 % mer vanlige enn gjennomsnittsordet på Wordle-svarlisten, og enda viktigere, for de sjeldneste ordene på listen (de nederste 10 %), dukket bare en tredjedel så mange opp som svar som antatt. til. Eagles skjedde med en frekvens nærmere 1/20 i stedet for 1/40 basert på ren tilfeldighet. Så det ser ut til at Wordle-svarsekvensen ikke er godt randomisert, og enten er den frontlastet med enklere ord, eller så går vi tilfeldigvis gjennom en del av listen som består av enklere ord.

En betydelig nylig endring er det The New York Times utnevnt en Wordle-redaktør å programmere dagens ord som starter 7. november. Siden den gang har det blitt mer vanlig å fjerne vanskelige eller støtende ord fra den forhåndssekvenserte listen, inkludert erstatning bak kulissene av ord som "ombre", "oppkast" og " fanny." Mens jeg forstår behovet for Ganger for å rense og forenkle Wordle-ord for å forhindre raseri fra millioner av mennesker som spiller, det gjør spillet mindre tilfeldig og mye mer forutsigbart. Enda verre er den uheldige redaksjonelle tendensen de siste ukene til å velge et ord som passer dagen, for eksempel "fest" på Thanksgiving Day og "medalje" på Veterans Day. Dette tilsvarer å gi en ekstra pekepinn om ordet selv før spillet starter, noe som gjør puslespillet enklere og trekker ned den rike informasjonsteoriforbindelsen. Jeg håper dette er en midlertidig avvik fordi tilfeldighet er et viktig element i dette spillet. De fleste som ga tilbakemelding til The New York Times om disse redaksjonelle valgene føltes på samme måte.

Vårt fjerde puslespill var basert på det faktum at under sin nåværende arkitektur, vil Wordle-løsninger aldri gjenta seg før listen renner ut etter fem år eller så.

Puslespill 4

Tenk på en person med et perfekt minne om tidligere løsninger. For en slik person ville svaret være åpenbart på den siste dagen av Wordles liste på 2,309 ord. Kan du raskt anslå hvor mange hole-in-one denne personen forventer å få over hele listens varighet, uten å gjøre selve beregningen? Så hvis du kan, prøv å gjøre selve beregningen.

Rob Corlett svarte perfekt på dette, estimerte svaret logisk til 8.25, og beregnet deretter svaret til 8.32. Corletts nøkkelberegninger er sitert nedenfor. Du kan sjekke kommentaren for den utmerkede beregningsteknikken.

Har du m ord og du gjetter så er sjansen for å få det riktig 1/m. Har du 1 ord er sjansen 1/1, 2 ord 1/2, 3 ord 1/3 osv. Legger du disse sammen får du forventet antall hole-in-one! …

[Dette] krever at vi beregner summen av de gjensidige av alle tallene fra 2309 ned til 1. Jeg gjorde dette i et regneark og fant ut at totalen var 8.32, tilfredsstillende nær anslaget mitt!

Vårt siste spørsmål spurte hvordan man kan forbedre Wordles randomisering av ord samtidig som den beholder sin "klientside"-design. Før Wordle-redaktøren ble utnevnt, var det ingen daglig randomisering av ord: Ordene kom fra en nedlastet forhåndssekvensert liste som ikke var særlig godt randomisert, som jeg nevnte ovenfor. Deretter ble Wordles løsningsord generert på klientens (brukerens) enhet fra ordlisten avhengig av gjeldende dato, og hele puslespillet ble bedømt på brukerens enhet også. Koden for å gjøre alt dette lastes ned den aller første gangen en bruker kobler seg til nettstedet hver dag. Brukeren trenger ikke være online etterpå.

Spørsmål 4

Hvordan ville du utformet Wordle slik at den beholder klientsidens design, og sikrer at alle får samme løsningsord på en gitt dag, men randomiserer svarene på en fornuftig måte uten å kreve endring i koden hver dag?

Det var noen gode svar på randomiseringsspørsmålet. Et par lesere foreslo å bruke et pseudorandomnummer med et forhåndsdefinert frø for å lage en indeks i Wordle-svarlisten. Mumintrollet skrev til og med et program som tilfeldig blander fem Wordle-svarlister (som varer i 32 år), og sørger for at ingen ord gjentas innen et år. For meg kom den mest tiltalende prosedyren fra BlindThemis, som foreslo at det tilfeldige frøet som ble brukt til randomiseringsprosedyren skulle være de fire siste sifrene i antall personer som har spilt spillet innen en viss tid. (Siden Wordle kan spilles hvor som helst i verden, må dette gjøres i tidssoner over det østlige Stillehavet, med start fra den internasjonale datolinjen!) Det flotte med dette er at ingen, ikke engang New York Times Wordle-redaktør, ville vite hva ordet var dagen før det ble brukt.

Ingen av disse mekanismene kan gjøres fullstendig på klientsiden, som Tim Ross pekte ut. Det neste ordet må genereres av serveren, og dette ordet eller dets indeksnummer må lastes ned, muligens i kryptert form med resten av koden. Som Ross påpekte, er de 2,309 svarordene for øyeblikket tydelig synlige i datorekkefølge i kildekoden, som enhver nettleser kan avsløre. En tilnærming kan være å kryptere svarordlisten og lagre den i alfabetisk rekkefølge i stedet for i datorekkefølge.

Selv om de foreslåtte forbedringene i randomisering vil hjelpe, vil kryptering ikke gjøre noen forskjell i det hele tatt, siden det fortsatt vil være flere spoilere på internett og flere måter å jukse på.

Takk til alle som har bidratt til denne interessante diskusjonen. Insights-prisen for dette puslespillet går til Rob Corlett. Gratulerer! Vårt neste puslespill vil dukke opp i februar. Inntil da, god forvirring og god ferie!

Tidstempel:

Mer fra Quantamagazin