Medium מקווה למנוע מסורקי בינה מלאכותית לגרד תוכן

Medium מקווה למנוע מסורקי בינה מלאכותית לגרד תוכן

Medium מקווה לעצור את סורקי הבוטים של AI מלגרד תוכן PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

פלטפורמת הבלוגים Medium רוצה שארגונים לא יגרדו את המאמרים שלה ללא רשות לאמן מודלים של AI, והזהירה שמדיניות זו עשויה להיות קשה לאכיפה.

המנכ"ל טוני סטאבלבין הסביר ביום חמישי כיצד Medium מתכוון לבלום את קצירת העבודות הכתובות של אנשים על ידי מפתחים המבקשים לבנות מערכי אימון עבור רשתות עצביות. הוא אמר, שמעל לכל, מפתחים צריכים לבקש הסכמה - ולהציע קרדיט ופיצוי לכותבים - להכשרת מודלים לשוניים גדולים על פרוזה של אנשים.

דגמי הבינה המלאכותית האלה יכולים בסופו של דבר להתחרפן מהכותבים עליהם הוכשרו, מה שמרגיש לחלקם כמו עוול כפול: הסופרים לא קיבלו פיצוי מלכתחילה, ועכשיו הדוגמניות מאיימות לתפוס את מקומם, כמו גם ההכנסה שמקורה בהם. עֲבוֹדָה.

"כדי לתת סיכום בוטה של ​​הסטטוס קוו: חברות בינה מלאכותית הוציאו ערך מכותבים כדי לשלוח דואר זבל לקוראי האינטרנט", הוא כתב בפוסט בבלוג. "המדיום משנה את המדיניות שלנו בנושא אימון בינה מלאכותית. תשובת ברירת המחדל היא כעת: לא."

מדיום עדכנה אפוא את אתרי האינטרנט שלה robots.txt קובץ כדי לשאול את בוט סורק האינטרנט של OpenAI GPTBot לא להעתיק תוכן מהעמודים שלו. מפרסמים אחרים - כמו CNN, רויטרס, שיקגו טריביון והניו יורק טיימס - כבר עשו זאת.

Stubblebine כינה זאת "חסימה רכה" ב-AI: היא מסתמכת על כך ש-GPTBot ישמע לבקשה ב-robots.txt כדי לא לגשת לדפים של Medium ולהרים את התוכן. אבל סורקים אחרים יכולים ועשויים להתעלם מכך. מדיום יכול לחכות לאותם סורקים כדי לספק דרך לחסום אותם באמצעות robots.txt, ולעדכן את הקובץ שלו בהתאם, אבל זה לא מצב מובטח שיקרה.

עם זאת, עבור מה שזה שווה, לא רק OpenAI תמיכה חסימה באמצעות robots.txt, כך גם גוגל, שגם ביום חמישי מְפוֹרָט כיצד לחסום שוב את סורקי ההדרכה של AI עבור שירותי ה-API היצירתיים של Bard ו-Vertex באמצעות robots.txt. Medium עדיין לא עדכנה את ה-robots.txt שלה כדי לא לכלול את העכבישים לאימון AI של גוגל.

חסימת סורקי אינטרנט ברמה נמוכה מ-robots.txt, כגון לפי כתובת IP או מחרוזת סוכן משתמש, תעבוד גם היא - עד שהבוטים יקבלו כתובות IP חדשות או ישנו את מחרוזות סוכן המשתמש שלהם. זה משחק חפרפרת שעלול להיות מייגע מדי לשחק.

"למרבה הצער, חסימת ה-robots.txt מוגבלת במובנים עיקריים", אמר Stubblebine. "עד כמה שאנחנו יכולים לדעת, OpenAI היא החברה היחידה שמספקת דרך לחסום את העכביש שבו הם משתמשים כדי למצוא תוכן להתאמן עליו. אנחנו לא חושבים שאנחנו יכולים לחסום חברות מלבד OpenAI בצורה מושלמת".

בכך הוא מתכוון שלפחות OpenAI, ועכשיו גוגל, הבטיחו לצפות ב-robots.txt. ארגונים אחרים שאוספים נתונים לצורך אימון למידת מכונה עשויים פשוט להתעלם מכך.

עם זאת, ללא קשר להגנות robots.txt, Medium הבטיחה לשלוח מכתבי הפסקה והפסקה לאלו שסורקים את הדפים שלה ללא רשות למאמרים להכשרת דגמים.

אז, למעשה: Medium ביקשה מהסורק של OpenAI להשאיר אותו בשקט, לפחות, והאתר ייקח סורקים אחרים של ערכות נתונים למשימה באמצעות איומים משפטיים אם הם לא יחזרו. של האתר תנאי השירות עודכנו כדי לאסור את השימוש בעכבישים ובסורקים אחרים כדי לגרד מאמרים ללא הסכמת Medium, כך נאמר לנו.

Stubblebine גם הזהיר כותבים בפלטפורמה שלא ברור אם חוק זכויות היוצרים יכול להגן עליהם מפני חברות שמאמנות מודלים על עבודתן ומשתמשות במודלים האלה כדי לייצר חומר דומה או כמעט זהה, על רקע מספר תביעות מתמשכות בכל העניין הזה. 

המנכ"ל גם הזכיר למשתמשי Medium שאף אחד לא יכול למכור מחדש עותקים של עבודתם באתר ללא רשות. "ברישיון ברירת המחדל לסיפורים בינוניים, אתה שומר על הזכות הבלעדית למכור את היצירה שלך", כתב Stubblebine.

הוא המשיך ואמר שייתכן שחלק ממפתחי בינה מלאכותית עשו בדיוק את זה: קנו או השיגו עותקים של מאמרים ועבודות אחרות שנגרדו מאמצעי וחלקים אחרים באינטרנט על ידי משווקים של צד שלישי, כדי להכשיר רשתות על התוכן הזה. הוא כינה את ההלבנה הזו של חומר המוגן בזכויות יוצרים של אנשים "פעולה של תעוזה מדהימה".

Stubblebine יעץ לחברות המעוניינות לסרוק נתוני אינטרנט מ-Medium ליצור קשר עם האתר כדי לדון באשראי ובפיצוי בין שאר נקודות הקושי. "אני אומר את זה כי המטרה הסופית שלנו היא לא לחסום את הפיתוח של AI. אנו בוחרים לעת עתה את כל ערכות ההדרכה של ה-Medium מחוץ ל-AI. אבל אנו מצפים לחלוטין להצטרף בחזרה כאשר הפרוטוקולים הללו ייקבעו", הוסיף.

Medium הציע שאם יצרנית בינה מלאכותית תציע פיצוי על טקסט מגורד, עסק הבלוגים ייתן 100 אחוז מזה לכותביו.

ביולי, הוא גם אישר שלמרות שפוסטים שנוצרו על ידי בינה מלאכותית אינן אסורות לחלוטין, היא לא תמליץ על שום טקסט שנכתב לחלוטין על ידי מכונות.

"מדיום הוא לא מקום לסיפורים שנוצרו במלואם בינה מלאכותית, ו-100 אחוז סיפורים שנוצרו בינה מלאכותית לא יהיו זכאים להפצה מעבר לרשת האישית של הכותב", נכתב. אמור. ®

בול זמן:

עוד מ הקופה