תקווה בינונית למנוע מסורקי AI Bot לגרד תוכן

הועלה מחדש על ידי אפלטון

עוקב: 0

Medium מקווה לעצור את סורקי הבוטים של AI מלגרד תוכן PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

פלטפורמת הבלוגים Medium רוצה שארגונים לא יגרדו את המאמרים שלה ללא רשות לאמן מודלים של AI, והזהירה שמדיניות זו עשויה להיות קשה לאכיפה.

המנכ"ל טוני סטאבלבין הסביר ביום חמישי כיצד Medium מתכוון לבלום את קצירת העבודות הכתובות של אנשים על ידי מפתחים המבקשים לבנות מערכי אימון עבור רשתות עצביות. הוא אמר, שמעל לכל, מפתחים צריכים לבקש הסכמה - ולהציע קרדיט ופיצוי לכותבים - להכשרת מודלים לשוניים גדולים על פרוזה של אנשים.

דגמי הבינה המלאכותית האלה יכולים בסופו של דבר להתחרפן מהכותבים עליהם הוכשרו, מה שמרגיש לחלקם כמו עוול כפול: הסופרים לא קיבלו פיצוי מלכתחילה, ועכשיו הדוגמניות מאיימות לתפוס את מקומם, כמו גם ההכנסה שמקורה בהם. עֲבוֹדָה.

"כדי לתת סיכום בוטה של הסטטוס קוו: חברות בינה מלאכותית הוציאו ערך מכותבים כדי לשלוח דואר זבל לקוראי האינטרנט", הוא כתב בפוסט בבלוג. "המדיום משנה את המדיניות שלנו בנושא אימון בינה מלאכותית. תשובת ברירת המחדל היא כעת: לא."

מדיום עדכנה אפוא את אתרי האינטרנט שלה robots.txt קובץ כדי לשאול את בוט סורק האינטרנט של OpenAI GPTBot לא להעתיק תוכן מהעמודים שלו. מפרסמים אחרים - כמו CNN, רויטרס, שיקגו טריביון והניו יורק טיימס - כבר עשו זאת.

Stubblebine כינה זאת "חסימה רכה" ב-AI: היא מסתמכת על כך ש-GPTBot ישמע לבקשה ב-robots.txt כדי לא לגשת לדפים של Medium ולהרים את התוכן. אבל סורקים אחרים יכולים ועשויים להתעלם מכך. מדיום יכול לחכות לאותם סורקים כדי לספק דרך לחסום אותם באמצעות robots.txt, ולעדכן את הקובץ שלו בהתאם, אבל זה לא מצב מובטח שיקרה.

עם זאת, עבור מה שזה שווה, לא רק OpenAI תמיכה חסימה באמצעות robots.txt, כך גם גוגל, שגם ביום חמישי מְפוֹרָט כיצד לחסום שוב את סורקי ההדרכה של AI עבור שירותי ה-API היצירתיים של Bard ו-Vertex באמצעות robots.txt. Medium עדיין לא עדכנה את ה-robots.txt שלה כדי לא לכלול את העכבישים לאימון AI של גוגל.

חסימת סורקי אינטרנט ברמה נמוכה מ-robots.txt, כגון לפי כתובת IP או מחרוזת סוכן משתמש, תעבוד גם היא - עד שהבוטים יקבלו כתובות IP חדשות או ישנו את מחרוזות סוכן המשתמש שלהם. זה משחק חפרפרת שעלול להיות מייגע מדי לשחק.

"למרבה הצער, חסימת ה-robots.txt מוגבלת במובנים עיקריים", אמר Stubblebine. "עד כמה שאנחנו יכולים לדעת, OpenAI היא החברה היחידה שמספקת דרך לחסום את העכביש שבו הם משתמשים כדי למצוא תוכן להתאמן עליו. אנחנו לא חושבים שאנחנו יכולים לחסום חברות מלבד OpenAI בצורה מושלמת".

בכך הוא מתכוון שלפחות OpenAI, ועכשיו גוגל, הבטיחו לצפות ב-robots.txt. ארגונים אחרים שאוספים נתונים לצורך אימון למידת מכונה עשויים פשוט להתעלם מכך.

עם זאת, ללא קשר להגנות robots.txt, Medium הבטיחה לשלוח מכתבי הפסקה והפסקה לאלו שסורקים את הדפים שלה ללא רשות למאמרים להכשרת דגמים.

אז, למעשה: Medium ביקשה מהסורק של OpenAI להשאיר אותו בשקט, לפחות, והאתר ייקח סורקים אחרים של ערכות נתונים למשימה באמצעות איומים משפטיים אם הם לא יחזרו. של האתר תנאי השירות עודכנו כדי לאסור את השימוש בעכבישים ובסורקים אחרים כדי לגרד מאמרים ללא הסכמת Medium, כך נאמר לנו.

Stubblebine גם הזהיר כותבים בפלטפורמה שלא ברור אם חוק זכויות היוצרים יכול להגן עליהם מפני חברות שמאמנות מודלים על עבודתן ומשתמשות במודלים האלה כדי לייצר חומר דומה או כמעט זהה, על רקע מספר תביעות מתמשכות בכל העניין הזה.

המנכ"ל גם הזכיר למשתמשי Medium שאף אחד לא יכול למכור מחדש עותקים של עבודתם באתר ללא רשות. "ברישיון ברירת המחדל לסיפורים בינוניים, אתה שומר על הזכות הבלעדית למכור את היצירה שלך", כתב Stubblebine.

הוא המשיך ואמר שייתכן שחלק ממפתחי בינה מלאכותית עשו בדיוק את זה: קנו או השיגו עותקים של מאמרים ועבודות אחרות שנגרדו מאמצעי וחלקים אחרים באינטרנט על ידי משווקים של צד שלישי, כדי להכשיר רשתות על התוכן הזה. הוא כינה את ההלבנה הזו של חומר המוגן בזכויות יוצרים של אנשים "פעולה של תעוזה מדהימה".

Stubblebine יעץ לחברות המעוניינות לסרוק נתוני אינטרנט מ-Medium ליצור קשר עם האתר כדי לדון באשראי ובפיצוי בין שאר נקודות הקושי. "אני אומר את זה כי המטרה הסופית שלנו היא לא לחסום את הפיתוח של AI. אנו בוחרים לעת עתה את כל ערכות ההדרכה של ה-Medium מחוץ ל-AI. אבל אנו מצפים לחלוטין להצטרף בחזרה כאשר הפרוטוקולים הללו ייקבעו", הוסיף.

Medium הציע שאם יצרנית בינה מלאכותית תציע פיצוי על טקסט מגורד, עסק הבלוגים ייתן 100 אחוז מזה לכותביו.

ביולי, הוא גם אישר שלמרות שפוסטים שנוצרו על ידי בינה מלאכותית אינן אסורות לחלוטין, היא לא תמליץ על שום טקסט שנכתב לחלוטין על ידי מכונות.

"מדיום הוא לא מקום לסיפורים שנוצרו במלואם בינה מלאכותית, ו-100 אחוז סיפורים שנוצרו בינה מלאכותית לא יהיו זכאים להפצה מעבר לרשת האישית של הכותב", נכתב. אמור. ®

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://go.theregister.com/feed/www.theregister.com/2023/09/29/medium_ai_crawlers/

בול זמן: ספטמבר 28, 2023

בול זמן: אוגוסט 19, 2023

הועלה מחדש על ידי אפלטון

משרד זכויות היוצרים של ארה"ב תבע בשל שלילת יצירת מודל AI של תמונה דיגיטלית

DoE מקבל את המוח הנוירומורפי האחרון של אינטל

לא, ChatGPT לא זכה בתחרות באגי אבטחה... עדיין

ענקית העיתונים בריט ממלאת את החלל במאמרים הנעזרים בבינה מלאכותית

היי, GitHub, האם אתה יכול ליצור פונקציית השוואת מערך מבלי לשבור את ה-GPL?

אנתרופיק רודפת אחרי משתמשי אייפון עם אפליקציית קלוד 3

Meta משיקה דגמי Llama 2 התומכים בשימוש מסחרי מסוים

דואר זבל בינה מלאכותית מנצח בקרב באיכות מנועי החיפוש

משרד ההגנה הבריטי אומץ במזג האוויר כדי לאמן יכולות בינה מלאכותית ימית

ChatGPT מוצא תפקיד במשחק מבוכים ודרקונים

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן