Moin. Was ich schrob: OpenAIs crawler berücksichtigt jetzt offenbar eine robots.txt. Gefühlt find ich es eine gute Idee, das Dingen von meinen Posts fernzuhalten. Meinungen?

  • plistig@feddit.de
    link
    fedilink
    Deutsch
    arrow-up
    10
    ·
    1 year ago

    Das müsste man vermutlich generell bei Lemmy machen, also deren Machern das vorschlagen, sonst macht das keinen Sinn, weil OpenAI deine Beiträge sonst einfach auf irgendeiner X-beliebigen anderen Instanz lesen kann. https://lemmy.ml/u/the_third@feddit.de https://lemm.ee/u/the_third@feddit.de https://lemmy.world/u/the_third@feddit.de https://beehaw.org/u/the_third@feddit.de

    Über die Föderation können sie auch einfach einen eigenen Server aufsetzen und sich da alles komplett runterladen, so dass die Sperre vermutlich eh keine Sinn ergibt.

    Also zusammengefasst: Einfach nur Mist schreiben, so dass OpenAI deine Posts eh nicht haben will! Ü

    • the_third@feddit.deOP
      link
      fedilink
      arrow-up
      8
      ·
      1 year ago

      Über die Föderation können sie auch einfach einen eigenen Server aufsetzen und sich da alles komplett runterladen, so dass die Sperre vermutlich eh keine Sinn ergibt.

      Point taken. Stimmt.

      • ChrisOboe@feddit.de
        link
        fedilink
        arrow-up
        5
        arrow-down
        3
        ·
        1 year ago

        Das wäre doch völlig absurd.

        Entweder sie sind anständig und honorieren die robots.txt (und setzten keine eigene Instanz auf nur um das zu umgehen)

        Oder sie sind unanständig, honorieren die robots.txt nicht und müssen keine eigene Instanz aufsetzten um das zu umgehen.

        So oder so wird sicher niemand eine eigene lemmy Instanz aufsetzen nur um daten zu Farmen.

        • BatrickPateman@feddit.de
          link
          fedilink
          arrow-up
          7
          ·
          1 year ago

          So oder so wird sicher niemand eine eigene lemmy Instanz aufsetzen nur um daten zu Farmen.

          lol. Die Wette nehm ich an. Hab schon Leute viel absurderes und/oder dümmeres machen sehen, und da ging es noch nicht mal um geldwerte Vorteile für’s Geschäft.

  • scorpionix@feddit.de
    link
    fedilink
    arrow-up
    9
    arrow-down
    2
    ·
    1 year ago

    Was du im Internet veröffentlichst, ist genau das: veröffentlicht. Auch wenn es von OpenAI nicht indiziert wird, landet es bei diversen anderen Crawler, die einen Pfiff auf die robots.txt geben.

    Daher bessere Lösung: Poste nichts online, was du nicht auch der Dame an der Supermarktkasse erzählen würdest.

    • muelltonne@feddit.de
      link
      fedilink
      Deutsch
      arrow-up
      1
      ·
      1 year ago

      Gegenfrage: Brächte es nicht eher eine Begründung, warum eine kommerzielle Firma die von den Usern hier geposteten Inhalte kostenlos für ihre eigenen Produkte abgreifen dürfen sollte ohne auch nur vorher mal zu fragen?

    • the_third@feddit.deOP
      link
      fedilink
      arrow-up
      1
      ·
      1 year ago

      Ja, ich habe aus meinem Reddit-Account ne Menge Zeug gelöscht und nachher erfahren, dass das leider bereits Teil des in GPT-3 verwendeten Datenmodells geworden war, zu dem Zeitpunkt.

      • SNAFU@feddit.de
        link
        fedilink
        arrow-up
        3
        arrow-down
        1
        ·
        1 year ago

        Ja, schon klar. Die Frage ist aber: warum möchtest Du das nicht?

        • the_third@feddit.deOP
          link
          fedilink
          Deutsch
          arrow-up
          3
          ·
          1 year ago

          Weil ich die Sorge habe, dass ich im Abstand vieler Monate verknüpfbare wenn auch einzeln harmlose Informationen bereitstelle ohne mir dessen selbst bewusst zu sein.

          • SNAFU@feddit.de
            link
            fedilink
            arrow-up
            2
            ·
            1 year ago

            Das tust Du möglicherweise, aber dann sind doch LLM nicht die große Gefahr. Und vor allem solltest Du dann eher überlegen, wie Du mit Deinen eigenen daten umgehst.