Wordle'ın Arkasındaki Matematik PlatonBlockchain Veri Zekasını Tahmin Ediyor. Dikey Arama. Ai.

Wordle Tahminlerinin Arkasındaki Matematik

Giriş

Basit Wordle oyununda oyuncular, önceki tahminlerinde ortaya çıkan harflerin varlığı ve konumu hakkındaki ipuçlarına dayanarak beş harfli gizli bir kelimeyi altı veya daha az turda tahmin etmelidir. Geçmişte biraz benzer oyunlar ortaya çıkmış olsa da, belirli bir günde Wordle oynayan herkesin aynı gizli kelimeyi keşfetmesi gerekir, bu da girişimlerinizi paylaşmanızı ve oyunu arkadaşlarınız arasında tartışmanızı kolaylaştırır. Oyunun kendine özgü yapısı ve sunumu, en son yayınımızdaki sorulara ilham kaynağı oldu. içgörü bulmacası. Cevaplar aşağıda tartışılmaktadır.

İyi bir Wordle oyunu oynamanın anahtarlarından biri, güçlü bir başlangıç ​​kelimesi seçmektir. Bilgisayar somutlaştırmayı analiz eder bilgi teorisi teknikleri "arduvaz" ve "vinç" gibi başlangıç ​​sözcüklerinin sizin (veya en azından bir bilgisayar algoritmasının) Wordles'ı ortalama olarak en az sayıda dönüşte çözmenize olanak tanıdığını öne sürün. Bununla birlikte, birçok insan çözücü, "elveda", "ses" veya "yükselt" gibi sesli harf açısından zengin bir kelimeyi seçerken daha rahat hisseder. Bu hissin hem sezgisel hem de rasyonel bir temeli vardır. İlk olarak, yerleştirilmiş ünlüler, aramanız gereken ünsüzlerin sayısını sınırlayabilen bir sesli harf "omurgası" bulmanızı sağlar. Örneğin, "raise" oynadıktan sonra kelimenin _AI_E gibi göründüğünü biliyorsanız, geriye yalnızca birkaç olası kelime kalır: "naïve", "feragat" ve "mısır". İkincisi, sesli harfler "kapsam" olarak adlandırılabilecek bir miktarı en üst düzeye çıkarır - yalnızca beş sesli harf ile Y arasında, 2,309 yanıtın her birinde en az bir pozitif harf alabiliriz. Sessiz harflerle bu tür bir mükemmel kapsama elde etmek için, en az beş dönüş gerektiren 20 tanesini de denemeniz gerekir.

İlk yapbozumuz, okuyucuları sesli harf açısından zengin bu üç kelimeden hangisinin en iyi ilk tahmin olduğunu bulmaya zorladı.

1 Yapboz 

Aşağıdaki tablo, "adieu", "audio" ve "raise" sözcüklerindeki sekiz harfin, 2,309 sözcükten oluşan Wordle yanıt listesinin tamamında her bir konumda bulunma sıklığını göstermektedir. Bu tabloya dayanarak, sesli harf açısından zengin üç başlangıç ​​kelimesinin her biri için Wordle yanıt listesinin tamamını aşmayı bekleyebileceğiniz yeşil ve sarıları belirleyin: "adieu", "audio" ve "raise". (Wordle'da bir harf, doğru yerdeyse yeşil arka planla ve kelimede ama yanlış yerdeyse sarı arka planla gösterilir.) Bu, başlangıç ​​sözcükleri olarak beklenen performansları hakkında size ne söylüyor? ?

Okuyucu Rob Corlett Bu tablodan beklenen yeşil ve sarıların sayısının nasıl hesaplanacağını gösterdi. “Elveda” için A, 140 kelime için doğru ilk harf, D, 20 kelime için doğru ikinci harf vb. Tüm olası Wordle cevaplarındaki yeşillerin toplam sayısı, bunların toplamıdır. Yani “elveda” toplam 140 + 20 + 266 + 318 + 1 = 745 yeşil alır. Sarılar için, harfin kelimede en az bir kez geçtiği sayıyla (“adieu”daki A için 906) başlamalı ve sarı sayısını (140) elde etmek için yeşil olduğu zamanı (766) çıkarmalıyız. . Toplam sarı sayısını elde etmek için kelimedeki her harf için sayıları toplayın. Tek bir dönüş için yeşiller ve sarılar beklentisini elde etmek için bu sayıları toplam cevap sayısına (2,309) bölebiliriz, ancak bu adım tüm başlangıç ​​kelimelerimiz için ortak olduğundan, üçünü karşılaştırmak için toplamlarla çalışabiliriz. onlardan. Bu kelimeleri özellikle sesli harf omurgasını bulmak için seçtiğimiz için, yeşillerin ne kadarının ünlülerden geldiğini de hesaplayabiliriz. Sonuçlar burada.

Gördüğünüz gibi, karşılaştırma yok! "Yükselt", her ölçüde "elveda"dan üstündür, daha fazla yeşil ve sarı verir ve doğru yerlerinde daha fazla ünlü verir, aynı zamanda en yaygın ünsüzlerden ikisini yakaladığınız veya dışladığınız gerçeğine hiçbir şey söylemeyin. "Ses", tüm bu önlemlerde uzak bir üçüncü sırada yer alıyor. Okur olarak herhangi bir sarı veya yeşil almasanız bile hangi harflerin eksik olduğu hakkında bilgi edinebileceğinizi unutmayın. Max Davies Belirtildiği gibi, bir veya daha fazla sarı ve yeşil aldığınızda kesinlikle daha fazla bilgi alırsınız. Öyleyse, “elveda” kullanıcıları, belki de vedalaşma zamanı gelmiştir.

Soru 1

Bu, yeşillere sarılara göre ne kadar değer vermemiz gerektiğiyle ilgili bir soruydu: Tek bir yeşile kaç sarı eşittir? Yukarıdaki sonuçlarımızın net doğası, yukarıdaki karşılaştırma için bunu cevaplama ihtiyacını ortadan kaldırıyor, ancak bu ilginç bir soru. Bu değerlendirmenin iki yönü vardır. Birincisi insan yönüdür: Sarı bir harfin yerleştirilebileceği tüm farklı yolları bulmak için gereken zihinsel çabaya ne kadar ağırlık veriyorsunuz? Çok fazla yeşile vurmanın hayatı kolaylaştırdığı ve bize daha fazla dopamin artışı sağladığı inkar edilemez. Bilgi teorisi bakış açısından, her yanıt sözcüğü için her başlangıç ​​sözcüğünü gözden geçirmeniz ve aynı harflerin yeşil olduğu zaman ile her durumda sarı oldukları duruma kıyasla bulmacayı çözmek için kaç dönüş gerektiğini karşılaştırmanız gerekir.

Bu çok büyük bir görev olsa da, mümkün olan en iyi bilgisayar başlangıç ​​sözcüğü için yapmayı başardım (bir erkek şahin anlamına gelen belirsiz "tarse" sözcüğü, tam optimal çözüm ağacı çevrimiçi yayınlanan matematikçi Alex Selby tarafından). Cevap şaşırtıcı. İlk turda yalnızca yeşiller üreten bir cevap sözcüğü kullanan bir bilgisayar çözümü için gereken ortalama dönüş sayısı 3.34 iken, yalnızca sarı harfler olduğunda gereken dönüş sayısı 3.51 idi, bu sadece %5'lik bir artış! Anlaşılan o ki biz insanlara çok ürkütücü gelen sarı harflerin bir bilgisayar algoritmasına yerleştirilmesi çok fazla bir ceza gerektirmeden gerçekleştirilebiliyor. Bir insan çözücü için farkın sadece gerekli dönüş sayısı açısından değil, aynı zamanda çözmek için gereken zihinsel çaba ve süre açısından da daha büyük olacağını tahmin ediyorum.

2 Yapboz

A) İlk turunuzda beş sarıyı da alırsanız, en iyi oyun olduğu varsayılırsa, cevabı bulmak için alabileceği maksimum tur sayısı nedir?

As Rob Corlett ve Sam Rhoads doğru bir şekilde ifade edildiğinde, teorik cevap beştir: ABCDE gibi tamamen sarı bir harf kombinasyonu, cevabın EABCD olduğunu keşfetmeden önce BCDEA, CDEAB ve DEABC arasında geçiş yapmanız gerekebileceğinden, keşfe dört tur daha direnebilir. Ancak pratikte, bu tür döngüsel "sözcükler" tam olarak mümkün değildir çünkü gerçek sözcükler keyfi olarak uzatılamayan ünlü ve ünsüz kalıplarını tanımlamıştır. Rob Corlett'in "ayrıştırma" ile gösterdiği gibi, birçok anagramı olan kelimeler bile en fazla üç denemede çözülebilir.

B) Bir harfin belirli bir konumda sarıya dönmesinin, yeşile döndüğünü görmekten daha değerli olduğu hiç olur mu? Eğer öyleyse, bir örnek verebilir ve bunun neden olması gerektiğini açıklayabilir misiniz?

Evet, sarı gelen bir harf, diğer konumlarda nadiren görünen bir harf ise, nadir durumlarda, yeşil gelen aynı harften daha değerli olabilir. Bu genellikle bir kelimenin sonunda ezici bir şekilde bulunan Y ile olur. Diyelim ki "göbek" ile başladınız ve hem B hem de Y yeşil çıktı. Elinizde pek çok olasılık var: "bol", "bitty", "bobby", "ganimet", "çalı" vb. Ama hem B hem de Y sarı çıkarsa, tek bir olasılık vardır: "uçurum."

Soru 2

İyi bir kelime dağarcığına sahip belirsiz Scrabble kelimeleri olan bir kişinin Wordle oynamada bir avantajı veya dezavantajı var mı?

Belirsiz kelimeleri ezberlemek için epeyce saat harcayan eski bir turnuva Scrabble oyuncusu olarak, bunun hem bir avantaj hem de dezavantaj olduğunu düşünüyorum. Wordle oynamaya ilk başladığımda, kendimi sık sık, daha sonra doğru olma şansının neredeyse hiç olmadığını fark ettiğim sıra dışı kelimelerin olasılığını görürken ve onları elemeye çalışırken buldum. (Wordle grubumun sıklıkla kullandığı golf terminolojisinde, buna hayali bir tehlike tarafından engellenmek olarak atıfta bulunuruz.) Bulmaca sütununda açıkladığım gibi, Wordle yanıtları, çoğu bilinen basit sözcükler listesinden alınır. tüm anadili ABD İngilizcesi olan kişiler için. Biraz nadir olan ancak belirsiz olmayan kelimeler bile Wordle cevap listesinde değildir. Örneğin, yakın zamanda, olası bir Wordle yanıtı olmadığı ortaya çıkan oldukça yaygın bir kelime olan "lateks" oynayarak bir sıramı boşa harcadım. Bu yüzden, tüm Wordle oyuncuları gibi, Wordle'ın yanıtı olabilecek türden bir kelimenin zihinsel bir modelini oluşturmak ve Scrabble'da daha fazla puan kazanmak için mutlu bir şekilde kullanacağım nadir ve anlaşılmaz sözcükleri özellikle göz ardı etmek zorunda kaldım. Öte yandan, bu nadir sözcüklerin bilgisi, bir grup benzer sözcüğü tek tek tahmin etmek için birçok tur harcamaktan kaçınmak için bazen yapmanız gereken "ünsüzleri süpürmek" için kullanışlıdır. Örneğin, _RA_E'niz varsa ve "fren", "drake", "drape", "grade" ve "grape" gibi D, G ve K içeren bir dizi olası kelimeye bakıyorsanız, bilmek yardımcı olur ve iki dönüşte daha çözümü bulmayı garanti eden "kedge" kelimesini çalın (kedge, bir gemiyi belli bir mesafeye demir atarak ve ardından sağlam bir halatla çekerek hareket ettirmek anlamına gelir).

Her gün herkes gibi aynı Wordle bulmacasını almak, sosyal oyunu teşvik eder. Ancak internette bolca spoiler var ve biliniyor ki bazı insanlar aldatır puanlarını bildirirken. Bir sonraki bulmaca, bir Wordle grubunda kopya çekme şüphelerinin yalnızca bir kişinin puanının olasılık dışılığına dayanarak ne zaman garanti altına alındığı sorusuyla ilgilidir. Yine, bu bilmece golf puanlama terimleriyle çerçevelenmiştir: Üç turda bir Wordle çözümü kuş olarak adlandırılır, iki turda almak bir kartaldır ve ilk turda bir kelime almak elbette bir deliktir. .)

3 Yapboz

Daha fazla araştırma yapmak için geleneksel bir bilimsel kriter, bir sonucun tesadüfen meydana gelme olasılığının olup olmadığıdır. alfa değeri) araştırmacıların amaçlarına bağlı olarak %5'ten az veya %1'den azdır. Sonuç daha sonra %5 veya %1 düzeyinde istatistiksel olarak anlamlı kabul edilir. İnsanların hile yapmadıklarından şüphelenmek hoş olmadığından, bu incelemede daha muhafazakar olan %1 seviyesini seçelim.

10 gündür her gün sonuçları birbiriyle paylaşan 200 oyuncudan oluşan bir Wordle grubuna ait olduğunuzu varsayalım. Çok iyi bir insan oyuncunun her 2.5 oyunda bir kuş, her 40 oyunda bir kartal ve her 2,000 oyunda bir delik açmayı bekleyebileceğini varsayalım (ki bunlar makul gerçek dünya tahminleridir).

A) Bu süre zarfında grubunuzdaki %1 düzeyinde art arda kaç kuş önemli olurdu?

B) Arka arkaya kaç kartal var?

C) Arka arkaya kaç delik bir arada?

Buradaki anahtar, 2,000 kişilik bir nüfusa sahip olduğunuzu fark etmektir. Dolayısıyla, bu önem düzeyine ulaşmak için, yalnızca şans eseri 200,000 kişi oyununda bir defadan daha az gerçekleşecek bir olayı görmeniz gerekir.

A) Birdie veya daha iyi seriler: Tek bir oyunda bir veya daha iyi bir kuş alma olasılığı 2/5 + 1/40 + 1/2,000 = 0.4255'tir, bu yaklaşık 1 oyunda 2.35'dir. hadi bunu arayalım B. en düşük güç B 200,000'i aşan B15368,000'den fazla olan (B14 yaklaşık 157,000'dir). Bu nedenle, gruptaki herhangi biri için 15 veya daha fazla kuş veya daha iyi bir seri bu katı kriteri karşılar, ancak 14 kişiden biri olmaz. Tek bir oyuncudan şüpheleniyorsanız, 20,000 oyunda bir defadan daha az gerçekleşen bir olay görmeniz gerekir; bu, 12'lik kuş veya daha iyi bir galibiyet serisiyle gerçekleşir. bu uzunluklar biraz daha küçüktür: Aslında grup için 1,850 oyun ve bireysel oyuncu için 188 oyundur, ancak bu, bu durumda bir fark yaratmaz).

Bunların uzman oyuncular için frekanslar olduğunu ve çoğu grup ve birey için şüpheli serilerin daha küçük olacağını unutmayın. Bu kriteri pratikte uygulamak için, gördüğünüz ilgili kuş, kartal ve delik bir arada frekanslarını belirlemeniz ve ayrıca grubunuzda oynanan oyunların sayısını da hesaba katmanız gerekir.

B) Kartal veya daha iyi seriler: Bir kartal veya daha iyisinin olma olasılığı 1/40 + 1/2,000 = 0.0255 veya yaklaşık 1'de 39.2'dir. Önem düzeyimizi aşan seri uzunlukları grup için 4, şüpheli birey için 3'tür.

C) Hole-in-one seriler: Anlamlılık düzeyimizi aşan seri uzunluğu hem grup hem de şüpheli birey için 2'dir.

Son iki cevapta bir uyarı var: Bunlar nadir olaylar ve örneklem boyutu çok küçük, bu yüzden dikkatli olmalısınız. Çoğu istatistikçi, bir anlamlılık testi uygulamakta rahat olmadan önce, genellikle en az beş veya daha fazla kartal veya bir arada delik örneğini görene kadar beklerdi; bu, bir serinin parçası olması gerekmez.

Soru 3

Grubunuzdaki iyi sonuçların sıklığının, hiç kimse hile yapmadan, şans eseri tahmin edilenden çok daha yüksek olması tamamen mümkündür. Bunu nasıl açıklarsın?

Bunun olası bir nedeni olarak, Rob Corlett açıklıyor, "oyuncuların hepsi her sonucun titizlikle kaydını tutuyor" olabilir. 4. bulmacanın başlangıcında açıkladığım gibi, Wordle cevaplarının mevcut düzende beş yıl kadar tekrarlanması gerekmiyor. Bu nedenle, hiç kimse hile yapmasa veya cevap listesindeki tüm kelimeleri bilmese bile, bu bilgi yine de herhangi bir bireyin veya grubun kademeli olarak daha iyi performans göstermesine yardımcı olabilir.

Ancak başka bir neden daha var: Liste iyi rastgele seçilmemiş olabilir. Son birkaç aydır Wordle oynarken, iki veya daha fazla kelime arasında bir seçim yapıldığında, daha basit kelimelerin daha az yaygın kelimelere göre doğru olma ihtimalinin daha yüksek olduğunu fark ettim. Örneğin, A, N ve E'ye sahipseniz ve kalan seçenekler "gizlice", "sırtlan" ve "lavman" gibi kelimelerse, tereddüt etmeden en basit kelimeyi (bu örnekte "gizlice") çalabilir ve Tamamen şans eseri beklediğinizden çok daha sık düzeltme yapın. Aslında, iki ay boyunca karşılaştığım cevapların Wordle cevap listesindeki ortalama bir kelimeyle karşılaştırıldığında ne kadar yaygın olduğunu kontrol etmek için bir İngilizce nesir kelime sıklık listesi kullandım. Karşılaştığım yanıtlar, Wordle yanıt listesindeki ortalama sözcükten yaklaşık %25 daha yaygındı ve daha da önemlisi, listedeki en nadir sözcükler için (en alttaki %10), sanıldığı kadar çok yanıtın yalnızca üçte biri ortaya çıktı. ile. Kartallar, saf şansa dayalı olarak 1/20 yerine 1/40'ye yakın bir sıklıkta gerçekleşti. Görünen o ki, Wordle cevap dizisi iyi rastgele seçilmemiş ve ya daha basit kelimelerle önden yüklenmiş ya da listenin daha basit kelimelerden oluşan bir kısmından geçiyoruz.

Son zamanlarda yapılan önemli bir değişiklik, New York Times bir Wordle editörü atadı 7 Kasım'dan itibaren günün kelimesini programlamak için. O zamandan beri, zor veya rahatsız edici kelimelerin önceden sıralanmış listeden çıkarılması daha yaygın hale geldi ve perde arkasında "ombre", "kusma" ve "gibi kelimelerin yerini aldı. fani.” ihtiyacını anladığım halde Zamanlar oynayan milyonlarca insanın öfkesini önlemek için Wordle kelimelerini sterilize etmek ve basitleştirmek, oyunu daha az rastgele ve çok daha öngörülebilir hale getiriyor. Daha da kötüsü, son birkaç haftadaki talihsiz editoryal eğilim, Şükran Günü'nde "ziyafet" ve Gaziler Günü'nde "madalya" gibi güne uygun bir kelime seçme eğilimi. Bu, oyun başlamadan önce bile kelime hakkında fazladan bir ipucu vermek anlamına gelir, bulmacayı kolaylaştırır ve zengin bilgi teorisi bağlantısını azaltır. Umarım bu geçici bir sapmadır çünkü rastgelelik bu oyunun temel bir unsurudur. Çoğu insan kim geri bildirim verdi için New York Times bu editoryal seçimler hakkında aynı şekilde hissettim.

Dördüncü bilmecemiz, mevcut mimarisi altında, Wordle çözümlerinin liste beş yıl kadar sonra bitene kadar asla tekrarlanmayacağı gerçeğine dayanıyordu.

4 Yapboz

Geçmiş çözümlerin mükemmel bir hafızasına sahip bir kişiyi düşünün. Böyle bir kişi için cevap, Wordle'ın 2,309 kelimelik listesinin son gününde açık olacaktır. Bu kişinin, gerçek hesaplamayı yapmadan, tüm listenin süresi boyunca kaç tane delik açmayı beklediğini hızlı bir şekilde tahmin edebilir misiniz? O zaman yapabilirseniz, gerçek hesaplamayı deneyin ve yapın.

Rob Corlett bunu mükemmel bir şekilde yanıtladı, mantıksal olarak cevabı 8.25 olarak tahmin etti ve ardından cevabı 8.32 olarak hesapladı. Corlett'in temel hesaplamaları aşağıda alıntılanmıştır. Mükemmel tahmin tekniği için yoruma bakabilirsiniz.

Eğer varsa m kelimeler ve bir tahminde bulunursanız, doğru yapma şansınız 1/m. 1 kelimeniz varsa şans 1/1, 2 kelime 1/2, 3 kelime 1/3, vb. Bunları bir araya getirirseniz, beklenen sayıda delik bir arada elde edersiniz! …

[Bu], 2309'dan 1'e kadar olan tüm sayıların karşılıklılarının toplamını hesaplamamızı gerektiriyor. Bunu bir elektronik tabloda yaptım ve toplamı 8.32 olarak buldum, tatmin edici bir şekilde tahminime yakın!

Son sorumuz, "istemci tarafı" tasarımını korurken, Wordle'ın sözcük rasgeleleştirmesini nasıl iyileştirebileceğimizi sordu. Wordle editörü atanmadan önce, sözcüklerin günlük rastgele dağılımı yoktu: Sözcükler, yukarıda bahsettiğim gibi, çok iyi rastgele dağıtılmamış indirilmiş bir önceden sıralanmış listeden geliyordu. Daha sonra, Wordle'ın çözüm sözcüğü, müşterinin (kullanıcının) cihazında, kelime listesinden güncel tarihe bağlı olarak üretildi ve bulmacanın tamamı, kullanıcının cihazında da karara bağlandı. Tüm bunları yapmak için gereken kod, bir kullanıcı her gün web sitesine ilk kez bağlandığında indirilir. Bundan sonra kullanıcının çevrimiçi olması gerekmez.

Soru 4

Wordle'ü, istemci tarafı tasarımını koruyacak, herkesin belirli bir günde aynı çözüm kelimesini almasını sağlayacak, ancak her gün kodda değişiklik gerektirmeden yanıtları mantıklı bir şekilde rastgele sıralayacak şekilde nasıl tasarlarsınız?

Randomizasyon sorusuna bazı iyi cevaplar vardı. Birkaç okuyucu, Wordle yanıt listesine bir dizin oluşturmak için önceden tanımlanmış bir tohumla sözde rasgele bir sayı kullanmayı önerdi. Mumintrolet hatta beş Wordle cevap listesini (32 yıl süren) rastgele karıştırarak bir yıl içinde hiçbir kelimenin tekrarlanmamasını sağlayan bir program bile yazdı. Bana göre en çekici prosedür Kör ThemisRastgeleleştirme prosedürü için kullanılan rastgele tohumun, oyunu belirli bir süre oynayan kişi sayısının son dört hanesi olması gerektiğini öneren. (Wordle dünyanın herhangi bir yerinde oynanabildiğinden, bunun Uluslararası Tarih Çizgisinden başlayarak Doğu Pasifik üzerindeki zaman dilimlerinde yapılması gerekir!) Bununla ilgili harika olan şey, hiç kimsenin, hatta New York Times Wordle editörü, kelimenin ne olduğunu kullanılmadan bir gün önce bilirdi.

Bu mekanizmaların hiçbiri tamamen istemci tarafında yapılamaz, çünkü Tim Ross işaret etti. Bir sonraki kelimenin sunucu tarafından üretilmesi gerekecek ve bu kelimenin veya dizin numarasının, muhtemelen kodun geri kalanıyla birlikte şifrelenmiş biçimde indirilmesi gerekecekti. Ross'un belirttiği gibi, şu anda 2,309 cevap kelimesi, herhangi bir tarayıcının ortaya çıkarabileceği kaynak kodunda tarih sırasına göre açıkça görülüyor. Bir yaklaşım, cevap kelime listesini şifrelemek ve tarih sırasına göre değil alfabetik sıraya göre kaydetmek olabilir.

Rastgeleleştirmede önerilen iyileştirmeler yardımcı olsa da, internette hala birden fazla spoiler ve hile yapmanın birden fazla yolu olacağından şifreleme hiçbir fark yaratmayacaktır.

Bu ilginç tartışmaya katkıda bulunan herkese teşekkür ederiz. Bu bulmaca için Insights ödülü Rob Corlett'e gidiyor. Tebrikler! Bir sonraki bulmacamız Şubat ayında çıkacak. O zamana kadar, mutlu bulmacalar ve mutlu tatiller!

Zaman Damgası:

Den fazla Quanta dergisi