Η χρήση διαλόγων από ταινίες και σειρές του Hollywood για την εκπαίδευση συστημάτων AI έχει προκαλέσει σημαντικές ανησυχίες σχετικά με τα δικαιώματα των δημιουργών. Εταιρείες όπως η Apple, η Meta, η Nvidia και η Anthropic έχουν αντλήσει δεδομένα από περισσότερους από 53.000 τίτλους ταινιών και 85.000 επεισόδια σειρών, περιλαμβάνοντας κλασικά έργα όπως το The Godfather, το Seinfeld, το The Wire και το Breaking Bad, χωρίς τη συναίνεση των δημιουργών τους.
Οι υπότιτλοι που χρησιμοποιούνται προέρχονται από την πλατφόρμα OpenSubtitles.org και αποτυπώνουν τον φυσικό ρυθμό του διαλόγου, γεγονός που τους καθιστά πολύτιμους για την εκπαίδευση συστημάτων τεχνητής νοημοσύνης ώστε να μιμούνται τις ανθρώπινες συνομιλίες. Οι εταιρείες εκμεταλλεύονται αυτό το υλικό για να αναπτύξουν AI που επικοινωνεί με πιο φυσικό τρόπο, και ερευνητικές μελέτες έχουν επιβεβαιώσει τη χρήση τους σε μοντέλα όπως το Claude, το OPT και το NeMo Megatron.
Παρά τις διαβεβαιώσεις ορισμένων εταιρειών, όπως της Salesforce, ότι τα δεδομένα δεν προορίζονται για εμπορική χρήση, πολλά από αυτά τα μοντέλα είναι διαθέσιμα ως ανοιχτού κώδικα. Αυτό επιτρέπει σε τρίτους να τα χρησιμοποιούν σε διάφορες εφαρμογές, συμπεριλαμβανομένης της παραγωγής περιεχομένου, εγείροντας ερωτήματα για την ηθική αυτής της πρακτικής.
Ορισμένες εταιρείες έχουν παραδεχτεί τη χρήση αυτών των δεδομένων, ενώ άλλες έχουν επιλέξει να μην κάνουν σχόλια. Αυτή η αποκάλυψη έχει προκαλέσει έντονη συζήτηση γύρω από την ηθική της χρήσης δημιουργικών έργων στην ανάπτυξη AI, ειδικά καθώς αυτά τα συστήματα γίνονται ολοένα και πιο εξελιγμένα και ενδέχεται να απειλήσουν τις θέσεις εργασίας των ανθρώπων.